R earth -pakkeopdatering (januar 2021)

Dette er en opdatering til det forrige indlæg om Stephen Milborows R-Language “earth” -pakke, som blev opdateret i september 2020 sammen med flere tilhørende pakker. Et par ting har ændret sig, og det er nu ret let at få alle plots til alle basisfunktionerne.

Brug dataene fra det forrige indlæg, som du kan downloade fra GitHub (det er ikke ændret):

https://github.com/wcraytor/MLS_DATA

Læs det forrige indlæg for mere information om datasættet. Installer og hent R (brug ikke R-Studio). Sørg for, at følgende pakker er installeret:

          • Formula
          • plotmo
          • UndervisningDemoer
          • gam
          • mgcv
          • mda
          • MASS
          • jorden

Forudsæt derefter, at du har downloadet dataene til din mappe "c: \ data \", og udfør:

      1.   bibliotek (jord)
      2.   bibliotek (plotmo)
      3.   MyData = read.csv ("c: \ data \ MyData.csv", header = TRUE)
      4.   MyData $ ”Filtreret adresse” <- NULL # Vigtigt !! Dette sikrer, at adressen fjernes fra input. Stave nøjagtig det samme, med samme sag
      5.   x = data.frame (MyData [, 1: (ncol (MyData) -1)])
      6.   y = MyData [, ncol (MyData)]
      7.   b = jord (x, y, nprune = 25) # maks. 25 basisfunktioner
      8.   resumé (b, cifre = 2, stil = ”pmax”)
      9.   plotmo (b) # dette skaber plottet

Du skal få:

y = # eller salgsprisen
    6.1e+05 #$ 610,000 basisværdi
+ 234 * pmax (0, 1887 - SaleAge) 
  - 455 * pmax (0, SaleAge - 1887) 

  + 591 * pmax (0, SaleAge - 2164)
  - 435 * pmax (0, SaleAge - 4498) 
  + 239 * pmax (0, SaleAge - 5439)
  + 49318 * pmax (0, AreaID - 652) 
  + 14475 * pmax (0, 654 - AreaID) 
  - 66058 * pmax (0, AreaID - 654) 
  -120 * pmax (0, 1450 -LivingSqFt) # eller -120/sf fra basen til GLA under 1450 sf
  + 148 * pmax (0, LivingSqFt - 1450) # eller $ 148 til basering for GLA> 1450 sf
  -6.9 * pmax (0, 15041 -LotSize) # eller -$ 6.90/sf fra basen til under 15,041sf partistørrelse 
  + 6.2 * pmax (0, LotSize - 15041) # eller $ 6.20/sf til basering for> 15,041sf
  - 22086 * pmax (0, 2 - Garage) # $ 22,086/bil fra basen til under 2 bil garage
  + 85767 * pmax (0, Garage - 2) # 85,767 $ til basen for over 2 bil garage

Udvalgt 15 af 16 udtryk og 5 af 9 forudsigere (nprune = 25)
Opsigelsestilstand: nået nk 21
Betydning: SaleAge, LivingSqFt, LotSize, AreaID, Garage, Alders ubrugt, ...
Antal udtryk ved hver interaktionsgrad: 1 14 (additiv model)

GCV 6.1e+09 RSS 9.4e+12    GRSq 0.82 RSq 0.83

Note 1: Det store værdibidrag på $ 85,767/bil for 3+ bilgarager er sandsynligvis i overensstemmelse med konstruktionskvaliteten, da 3+ bilgarager er forbundet med boliger af højere kvalitet. Så du bør prøve at holde 2 og 3 bilgarager adskilt i kompositterne eller finde ud af en måde at håndtere tilstandsjusteringer på. Dette er måske et problem, afhængigt af de resterende scoringer og deres relation til den faktiske kvalitet (noget du visuelt skal inspicere og tage stilling til).

Note 2: Variabler som AreaID skal sandsynligvis behandles som en kategorisk variabel. Og dette kan gøres med Jorden.  

EarthPlot-1