Atualização do pacote R earth (janeiro de 2021)

Esta é uma atualização do post anterior sobre o pacote “earth” em R-Language de Stephen Milborrow, que foi atualizado em setembro de 2020, junto com vários pacotes associados. Algumas coisas mudaram e agora é bastante fácil obter todos os gráficos para todas as funções básicas.

Use os dados da postagem anterior, que você pode baixar do GitHub (não mudou):

https://github.com/wcraytor/MLS_DATA

Leia a postagem anterior para obter mais informações sobre o conjunto de dados. Instale e ative R (não use R-Studio). Certifique-se de que os seguintes pacotes estejam instalados:

          • Fórmula
          • plotmo
          • Ensinando demos
          • gam
          • mgcv
          • mda
          • MASS
          • terra

Então, supondo que você tenha baixado os dados para sua pasta “c: \ data \”, execute:

      1.   biblioteca (terra)
      2.   biblioteca (plotmo)
      3.   MyData = read.csv (“c: \ data \ MyData.csv”, cabeçalho = TRUE)
      4.   MyData $ ”Filteredaddress” <- NULL # Importante!! Isso garante que o endereço seja removido da entrada. Soletre exatamente o mesmo, com o mesmo caso
      5.   x = data.frame (MyData [, 1: (ncol (MyData) -1)])
      6.   y = MyData [, ncol (MyData)]
      7.   b = terra (x, y, nprune = 25) # máx. 25 funções de base
      8.   resumo (b, dígitos = 2, estilo = ”pmax”)
      9.   plotmo (b) # isso cria o gráfico

Voce deveria pegar:

y = # ou o preço de venda
    6.1e + 05 #$ 610,000 de valor base
+ 234 * pmax (0, 1887 - SaleAge) 
  - 455 * pmax (0, SaleAge - 1887) 

  + 591 * pmax (0, SaleAge - 2164)
  - 435 * pmax (0, SaleAge - 4498) 
  + 239 * pmax (0, SaleAge - 5439)
  + 49318 * pmax (0, AreaID - 652) 
  + 14475 * pmax (0, 654 - AreaID) 
  - 66058 * pmax (0, AreaID - 654) 
  - 120 * pmax (0, 1450 - LivingSqFt) # ou -120 / sf da base para GLA abaixo de 1450 sf
  + 148 * pmax (0, LivingSqFt - 1450) # ou $ 148 a base para GLA> 1450 sf
  - 6.9 * pmax (0, 15041 - LotSize) # ou - $ 6.90 / sf da base para tamanho de lote inferior a 15,041 sf 
  + 6.2 * pmax (0, LotSize - 15041) # ou $ 6.20 / sf para a base para> 15,041sf
  - 22086 * pmax (0, 2 - Garagem) # $ 22,086 / carro da base para garagem com menos de 2 carros
  + 85767 * pmax (0, Garagem - 2) # $ 85,767 para a base para mais de 2 carros na garagem

Selecionados 15 de 16 termos e 5 de 9 preditores (nprune = 25)
Condição de rescisão: alcançado nk 21
Importância: SaleAge, LivingSqFt, LotSize, AreaID, Garage, Age-unused, ...
Número de termos em cada grau de interação: 1 14 (modelo aditivo)

GCV 6.1e + 09 RSS 9.4e + 12    GRSq 0.82 RSq 0.83

Nota 1: O grande valor de contribuição de $ 85,767 / carro para 3+ garagens de carros provavelmente é colinear com a qualidade de construção, já que 3+ garagens de carros estão associadas a casas de melhor qualidade. Portanto, você deve tentar manter as garagens de 2 e 3 carros separadas nas composições ou descobrir uma maneira de lidar com os ajustes de condição. Isso pode ou não ser um problema, dependendo das pontuações residuais e sua relação com a qualidade real (algo que você deve inspecionar visualmente e decidir sobre).

Nota 2: Variáveis ​​como AreaID provavelmente devem ser tratadas como variáveis ​​categóricas. E isso pode ser feito com a Terra.  

EarthPlot-1