R Earth 패키지 업데이트(2021년 XNUMX월)

이것은 여러 관련 패키지와 함께 2020년 XNUMX월에 업데이트된 Stephen Milborrow의 R-Language "earth" 패키지에 대한 이전 게시물에 대한 업데이트입니다. 몇 가지 사항이 변경되었으며 이제 모든 기본 기능에 대한 모든 플롯을 얻는 것이 상당히 쉽습니다.

GitHub에서 다운로드할 수 있는 이전 게시물의 데이터를 사용합니다(변경되지 않음).

https://github.com/wcraytor/MLS_DATA

데이터 세트에 대한 자세한 내용은 이전 게시물을 참조하세요. R을 설치하고 불러옵니다(R-Studio를 사용하지 마십시오). 다음 패키지가 설치되어 있는지 확인하십시오.

          • 공식
          • 플롯모
          • 교육 데모
          • gam
          • mgcv
          • mda
          • MASS
          • 지구

그런 다음 "c:\data\" 폴더에 데이터를 다운로드했다고 가정하고 다음을 실행합니다.

      1.   도서관(지구)
      2.   라이브러리(플롯모)
      3.   MyData = read.csv("c:\data\MyData.csv", 헤더=TRUE)
      4.   MyData$"필터링된 주소" <- NULL # 중요한!! 이렇게 하면 입력에서 주소가 제거됩니다. 철자도 똑같고 대소문자도 똑같음
      5.   x=data.frame(MyData[,1:(ncol(MyData)-1)])
      6.   y=마이데이터[,ncol(마이데이터)]
      7.   b=earth(x,y,nprune=25) # 최대 25개의 기본 함수
      8.   요약(b,숫자=2,스타일=”pmax”)
      9.   plotmo(b) # 이것은 플롯을 생성합니다.

다음을 받아야합니다.

y = # 또는 판매 가격
    6.1e+05 #기본 가치 $610,000
+ 234 * pmax(0, 1887 – SaleAge) 
  – 455 * pmax(0, SaleAge – 1887) 

  + 591 * pmax(0, 판매 연령 – 2164)
  – 435 * pmax(0, SaleAge – 4498) 
  + 239 * pmax(0, 판매 연령 – 5439)
  + 49318 * pmax(0, AreaID – 652) 
  + 14475 * pmax(0, 654 – AreaID) 
  – 66058 * pmax(0, AreaID – 654) 
  – 120 * pmax(0, 1450 – LivingSqFt) # 또는 120 sf 미만의 GLA의 경우 기준에서 -1450/sf
  + 148 * pmax(0, LivingSqFt – 1450) # 또는 GLA > 148 sf의 경우 기본 $1450
  – 6.9 * pmax(0, 15041 – LotSize) # 또는 6.90sf 미만 로트 크기의 경우 기본에서 -$15,041/sf 
  + 6.2 * pmax(0, LotSize – 15041) # 또는 $6.20/sf(> 15,041sf 기준)
  – 22086 * pmax(0, 2 – Garage) # $22,086/2차 이하 차고 기준 차당
  + 85767 * pmax(0, Garage – 2) # $85,767(2대 이상의 차고 기준)

15개 용어 중 16개, 예측 변수 5개 중 9개 선택(nprune=25)
종료 조건: nk 21 도달
중요도: SaleAge, LivingSqFt, LotSize, AreaID, Garage, 사용하지 않은 연령, …
각 상호작용 정도의 항 수: 1 14(가법 모형)

GCV 6.1e+09 RSS 9.4e+12    GRSq 0.82 RSq 0.83

참고 1: 85,767개 이상의 차고에 대한 $3/차의 큰 가치 기여는 3개 이상의 차고가 더 높은 품질의 주택과 관련되기 때문에 건설 품질과 동일선상에 있을 것입니다. 따라서 콤프에서 차고 2개와 3개를 분리하여 유지하거나 상태 조정을 처리하는 방법을 찾아야 합니다. 이것은 잔여 점수와 실제 품질(시각적으로 검사하고 결정해야 하는 것)과의 관계에 따라 문제가 될 수도 있고 아닐 수도 있습니다.

참고 2: AreaID와 같은 변수는 범주형 변수로 취급되어야 합니다. 그리고 이것은 지구와 함께 할 수 있습니다.  

EarthPlot-1