R earth-pakketupdate (januari 2021)

Dit is een update van het vorige bericht over het R-Language "earth"-pakket van Stephen Milborrow dat in september 2020 is bijgewerkt, samen met verschillende bijbehorende pakketten. Er zijn een paar dingen veranderd en het is nu vrij eenvoudig om alle plots voor alle basisfuncties te krijgen.

Gebruik de gegevens uit het vorige bericht, die je kunt downloaden van GitHub (het is niet veranderd):

https://github.com/wcraytor/MLS_DATA

Lees het vorige bericht voor meer informatie over de dataset. Installeer en open R (gebruik R-Studio niet). Zorg ervoor dat de volgende pakketten zijn geïnstalleerd:

     • Formule
     • plotmo
     • LesgevenDemo's
     • gam
     • mgcv
     • mda
     • MASS
     • aarde

Ga er dan van uit dat u de gegevens naar uw map "c:\data\" hebt gedownload, voer het volgende uit:

   1.   bibliotheek (aarde)
   2.   bibliotheek (plotmo)
   3.   MijnData = read.csv(“c:\data\MijnData.csv”,header=TRUE)
   4.   MijnData$”Gefilterd adres” <- NULL # Belangrijk!! Dit zorgt ervoor dat het adres uit de invoer wordt verwijderd. Spel precies hetzelfde, met hetzelfde geval
   5.   x=data.frame(MijnData[,1:(ncol(MijnData)-1)])
   6.   y=MijnData[,ncol(MijnData)]
   7.   b=aarde(x,y,nprune=25) # max 25 basisfuncties
   8.   samenvatting(b,cijfers=2,style=”pmax”)
   9.   plotmo(b) # dit maakt de plot

Je zou moeten krijgen:

y = # of de verkoopprijs
    6.1e+05 #$ 610,000 basiswaarde
+ 234 * pmax(0, 1887 – Verkoopleeftijd) 
  – 455 * pmax(0, Verkoopleeftijd – 1887) 

  + 591 * pmax(0, VerkoopLeeftijd – 2164)
  – 435 * pmax(0, Verkoopleeftijd – 4498) 
  + 239 * pmax(0, VerkoopLeeftijd – 5439)
  + 49318 * pmax(0, Gebied-ID – 652) 
  + 14475 * pmax(0, 654 – Gebied-ID) 
  – 66058 * pmax(0, gebieds-ID – 654) 
  – 120 * pmax(0, 1450 – LivingSqFt) # of -120/sf vanaf basis voor GLA onder 1450 sf
  + 148 * pmax(0, LivingSqFt – 1450) # of $148 naar basis voor GLA > 1450 sf
  – 6.9 * pmax(0, 15041 – LotSize) # of -$6.90/sf vanaf basis voor partijgrootte van minder dan 15,041sf 
  + 6.2 * pmax(0, LotSize – 15041) # of $ 6.20/sf naar basis voor > 15,041sf
  – 22086 * pmax(0, 2 – Garage) # $ 22,086/auto vanaf de basis voor een garage voor minder dan 2 wagens
  + 85767 * pmax(0, Garage – 2) # $85,767 naar basis voor garage voor meer dan 2 auto's

Geselecteerde 15 van 16 termen en 5 van 9 voorspellers (nprune=25)
Beëindigingsvoorwaarde: Bereikte nk 21
Belang: SaleAge, LivingSqFt, LotSize, AreaID, Garage, Age-unused, …
Aantal termen bij elke graad van interactie: 1 14 (additief model)

GCV 6.1e+09 RSS 9.4e+12    GRSq 0.82 RSq 0.83

Opmerking 1: De grote waardebijdrage van $ 85,767/auto voor garages voor 3+ auto's is waarschijnlijk in lijn met de kwaliteit van de constructie, aangezien garages voor 3+ auto's worden geassocieerd met woningen van hogere kwaliteit. Dus je moet proberen om garages voor 2 en 3 auto's gescheiden te houden in de composities of een manier te vinden om met toestandsaanpassingen om te gaan. Dit kan al dan niet een probleem zijn, afhankelijk van de restscores en hun relatie tot de werkelijke kwaliteit (iets dat je visueel moet inspecteren en beslissen).

Opmerking 2: Variabelen zoals AreaID moeten waarschijnlijk worden behandeld als categorische variabelen. En dat kan met de aarde.  

EarthPlot-1