עדכון חבילת R earth (ינואר 2021)

זהו עדכון לפוסט הקודם על חבילת "האדמה" של סטיבן מילבורו, אשר עודכנה בספטמבר 2020, יחד עם מספר חבילות נלוות. כמה דברים השתנו ועכשיו די קל להשיג את כל החלקות לכל פונקציות הבסיס.

השתמש בנתונים מהפוסט הקודם, אותם תוכל להוריד מ- GitHub (הוא לא השתנה):

https://github.com/wcraytor/MLS_DATA

קרא את הפוסט הקודם למידע נוסף על מערך הנתונים. התקן והעלה את R (אל תשתמש ב- R-Studio). וודא שהחבילות הבאות מותקנות:

          • נוסחה
          • עלילה
          • הוראה דמוס
          • GAM
          • mgcv
          • Mda
          • מסה
          • כדור הארץ

לאחר מכן בהנחה שהורדת את הנתונים לתיקייה "c: \ data \", בצע:

      1.   ספרייה (כדור הארץ)
      2.   ספרייה (plotmo)
      3.   MyData = read.csv ("c: \ data \ MyData.csv", כותרת = TRUE)
      4.   MyData $ ”Filteredaddress” <- NULL # חשוב !! זה מבטיח שהכתובת תוסר מהקלט. לאיית בדיוק אותו דבר, עם אותו מקרה
      5.   x = data.frame (MyData [, 1: (ncol (MyData) -1)])
      6.   y = MyData [, ncol (MyData)]
      7.   b = כדור הארץ (x, y, nprune = 25) # מקסימום 25 פונקציות בסיס
      8.   סיכום (ב, ספרות = 2, סגנון = "pmax")
      9.   plotmo (ב) # זה יוצר את העלילה

אתה צריך להשיג:

y = # או מחיר המכירה
    6.1e+05 #ערך בסיס של 610,000 $
+ 234 * pmax (0, 1887 - SaleAge) 
  - 455 * pmax (0, SaleAge - 1887) 

  + 591 * pmax (0, SaleAge - 2164)
  - 435 * pmax (0, SaleAge - 4498) 
  + 239 * pmax (0, SaleAge - 5439)
  + 49318 * pmax (0, AreaID - 652) 
  + 14475 * pmax (0, 654 - AreaID) 
  - 66058 * pmax (0, AreaID - 654) 
  -120 * pmax (0, 1450 -LivingSqFt) # או -120/sf מהבסיס ל- GLA מתחת ל- 1450 sf
  + 148 * pmax (0, LivingSqFt - 1450) # או 148 $ לבסיס עבור GLA> 1450 sf
  -6.9 * pmax (0, 15041 -LotSize) # או -$ 6.90/sf מהבסיס מתחת לגודל 15,041sf 
  + 6.2 * pmax (0, LotSize - 15041) # או $ 6.20/SF לבסיס עבור> 15,041sf
  - 22086 * pmax (0, 2 - מוסך) # $ 22,086/מכונית מהבסיס עבור מוסך מתחת ל -2 מכוניות
  + 85767 * pmax (0, מוסך - 2) # 85,767 $ לבסיס עבור יותר מ -2 מוסכים לרכב

נבחר 15 מתוך 16 מונחים ו- 5 מתוך 9 מנבאים (nprune = 25)
תנאי סיום: הגיע nk 21
חשיבות: SaleAge, LivingSqFt, LotSize, AreaID, מוסך, ללא שימוש בגיל, ...
מספר מונחים בכל דרגת אינטראקציה: 1 14 (מודל תוסף)

GCV 6.1e+09 RSS 9.4e+12    GRSq 0.82 RSq 0.83

הערה 1: תרומת הערך הגדולה של 85,767 $ למכונית עבור מוסכים של 3+ מכוניות כנראה עולה בקנה אחד עם איכות הבנייה שכן 3+ מוסכים לרכב קשורים לבתים באיכות גבוהה יותר. אז כדאי שתנסה להפריד בין 2 ו -3 מוסכים לרכב או למצוא דרך להתמודד עם התאמות מצב. יתכן שזו בעיה או לא, בהתאם לניקוד הנותר והיחס שלהם לאיכות בפועל (דבר שאתה צריך לבדוק ויזואלית ולהחליט עליו).

הערה 2: כנראה שיש להתייחס למשתנים כמו AreaID כמשתנים קטגוריים. ואת זה אפשר לעשות עם כדור הארץ.  

EarthPlot-1