Aktualizace balíčku R earth (leden 2021)

Toto je aktualizace předchozího příspěvku k balíčku „země“ R-Language Stephena Milborrowa „Země“, který byl aktualizován v září 2020 spolu s několika přidruženými balíčky. Několik věcí se změnilo a nyní je docela snadné získat všechny grafy pro všechny základní funkce.

Použijte data z předchozího příspěvku, který si můžete stáhnout z GitHubu (nezměnilo se):

https://github.com/wcraytor/MLS_DATA

Další informace o sadě dat si přečtěte v předchozím příspěvku. Nainstalujte a vyvolejte R (nepoužívejte R-Studio). Ujistěte se, že jsou nainstalovány následující balíčky:

          • Vzorec
          • plotmo
          • VýukaDemos
          • gam
          • mgcv
          • mda
          • MASS
          • Země

Poté za předpokladu, že jste stáhli data do složky „c: \ data \“, proveďte:

      1.   knihovna (země)
      2.   knihovna (plotmo)
      3.   MyData = read.csv („c: \ data \ MyData.csv“, záhlaví = PRAVDA)
      4.   MyData $ ”Filteredaddress” <- NULL # Důležité!! Tím je zajištěno odstranění adresy ze vstupu. Kouzlo úplně stejné, se stejným případem
      5.   x = data.frame (MyData [, 1: (ncol (MyData) -1)])
      6.   y = MyData [, ncol (MyData)]
      7.   b = země (x, y, nprune = 25) # max. 25 základních funkcí
      8.   shrnutí (b, číslice = 2, styl = ”pmax”)
      9.   plotmo (b) # toto vytvoří děj

Měli byste získat:

y = # nebo prodejní cena
    6.1e+05 #610,000 XNUMX $ základní hodnota
+ 234 * pmax (0, 1887 - SaleAge) 
  - 455 * pmax (0, SaleAge - 1887) 

  + 591 * pmax (0, SaleAge - 2164)
  - 435 * pmax (0, SaleAge - 4498) 
  + 239 * pmax (0, SaleAge - 5439)
  + 49318 * pmax (0, AreaID - 652) 
  + 14475 * pmax (0, 654 - AreaID) 
  - 66058 * pmax (0, AreaID - 654) 
  -120 * pmax (0, 1450 -LivingSqFt) # nebo -120/sf ze základny pro GLA pod 1450 sf
  + 148 * pmax (0, LivingSqFt - 1450) # nebo 148 $ na základnu pro GLA> 1450 sf
  -6.9 * pmax (0, 15041 -LotSize) # nebo -6.90 $/sf ze základny pro velikost šarže pod 15,041 sf 
  +6.2 * pmax (0, LotSize - 15041) # nebo 6.20 $/sf na základnu za> 15,041 sf
  - 22086 * pmax (0, 2 - garáž) # 22,086 2 $/auto ze základny pro garáž pro XNUMX auta
  + 85767 * pmax (0, garáž - 2) # 85,767 2 $ na základnu pro garáž pro více než XNUMX auta

Vybráno 15 ze 16 výrazů a 5 z 9 prediktorů (nprune = 25)
Podmínky ukončení: Dosaženo nk 21
Důležitost: SaleAge, LivingSqFt, LotSize, AreaID, Garage, Age-unused,…
Počet výrazů při každém stupni interakce: 1 14 (aditivní model)

GCV 6.1e+09 RSS 9.4e+12    GRSq 0.82 RSq 0.83

Poznámka 1: Přínos velké hodnoty 85,767 3 USD/auto pro 3 a více garáží pravděpodobně kolineární s kvalitou stavby, protože garáže 2 a více jsou spojeny s domy vyšší kvality. Měli byste se tedy pokusit udržet 3 a XNUMX autoservisy oddělené v kompasech nebo vymyslet způsob, jak se vypořádat s úpravami stavu. To může, ale nemusí být problém, v závislosti na zbytkových skóre a jejich vztahu ke skutečné kvalitě (něco, co musíte vizuálně zkontrolovat a rozhodnout se).

Poznámka 2: Proměnné jako AreaID by pravděpodobně měly být považovány za kategorické proměnné. A to lze provést se Zemí.  

EarthPlot-1