R earth -paketuppdatering (januari 2021)

Detta är en uppdatering av det tidigare inlägget om Stephen Milborows R-Language “earth” -paket som uppdaterades i september 2020, tillsammans med flera tillhörande paket. Några saker har förändrats och det är nu ganska enkelt att få alla tomter för alla basfunktioner.

Använd data från föregående inlägg, som du kan ladda ner från GitHub (det har inte ändrats):

https://github.com/wcraytor/MLS_DATA

Läs föregående inlägg för mer information om datamängden. Installera och hämta R (använd inte R-Studio). Se till att följande paket är installerade:

          • Formel
          • plotmo
          • UndervisningDemon
          • GAM
          • mgcv
          • mda
          • MASSA
          • jord

Utgå sedan från att du har laddat ner data till din mapp "c: \ data \":

      1.   bibliotek (jorden)
      2.   bibliotek (plotmo)
      3.   MyData = read.csv (“c: \ data \ MyData.csv”, header = TRUE)
      4.   MyData $ ”Filteredaddress” <- NULL # Viktig!! Detta säkerställer att adressen tas bort från ingången. Stava exakt samma sak, med samma fall
      5.   x = data.frame (MyData [, 1: (ncol (MyData) -1)])
      6.   y = MyData [, ncol (MyData)]
      7.   b = jord (x, y, nprune = 25) # max 25 basfunktioner
      8.   sammanfattning (b, siffror = 2, stil = ”pmax”)
      9.   plotmo (b) # detta skapar tomten

Du borde få:

y = # eller försäljningspriset
    6.1e+05 #610,000 XNUMX dollar basvärde
+ 234 * pmax (0, 1887 - SaleAge) 
  - 455 * pmax (0, SaleAge - 1887) 

  + 591 * pmax (0, SaleAge - 2164)
  - 435 * pmax (0, SaleAge - 4498) 
  + 239 * pmax (0, SaleAge - 5439)
  + 49318 * pmax (0, AreaID - 652) 
  + 14475 * pmax (0, 654 - AreaID) 
  - 66058 * pmax (0, AreaID - 654) 
  -120 * pmax (0, 1450 -LivingSqFt) # eller -120/sf från basen för GLA under 1450 sf
  + 148 * pmax (0, LivingSqFt - 1450) # eller $ 148 att basera för GLA> 1450 sf
  -6.9 * pmax (0, 15041 -LotSize) # eller -$ 6.90/sf från basen för under 15,041 XNUMX sf lotstorlek 
  + 6.2 * pmax (0, LotSize - 15041) # eller $ 6.20/sf att basera för> 15,041 XNUMXsf
  - 22086 * pmax (0, 2 - Garage) # 22,086 2 $/bil från basen för garage under XNUMX bilar
  + 85767 * pmax (0, Garage - 2) # 85,767 2 $ till bas för över XNUMX bilgarage

Utvalda 15 av 16 termer och 5 av 9 förutsägare (nprune = 25)
Uppsägningsvillkor: Uppnått nk 21
Vikt: SaleAge, LivingSqFt, LotSize, AreaID, Garage, Ålder oanvänd, ...
Antal termer vid varje interaktionsgrad: 1 14 (additiv modell)

GCV 6.1e+09 RSS 9.4e+12    GRSq 0.82 RSq 0.83

Not 1: Det stora värdebidraget på $ 85,767 3/bil för 3+ bilgarage är förmodligen i linje med byggkvaliteten eftersom 2+ bilgarage är associerade med bostäder av högre kvalitet. Så du bör försöka hålla 3 och XNUMX bilverkstäder åtskilda i kompositionerna eller ta reda på ett sätt att hantera tillståndsjusteringar. Detta kan vara ett problem, beroende på restpoängen och deras relation till den faktiska kvaliteten (något du måste inspektera och bestämma visuellt).

Not 2: Variabler som AreaID bör förmodligen behandlas som en kategorisk variabel. Och detta kan göras med jorden.  

EarthPlot-1