Aveți nevoie de ajutor pentru a înțelege de ieșire de la construirea unui arbore de clasificare

voturi
0

Sunt practica de luare a deciziilor copaci cu ajutorul pachetului numit „copac“.

#install.packages(ISLR)
set.seed(666)
library(ISLR)
index=sample(1:nrow(OJ),800,replace=F)
OJtrain=OJ[index,]
OJtest=OJ[-index,]
#install.packages(tree)
library(tree)
OJtraintree=tree(Purchase~.,data=OJtrain)
OJtraintree

Ieșirea din aceasta este:

node), split, n, deviance, yval, (yprob)
   * denotes terminal node

1) root 800 1073.00 CH ( 0.60625 0.39375 ) 
  2) LoyalCH < 0.508643 353 415.10 MM ( 0.27479 0.72521 ) 
   4) LoyalCH < 0.277977 161 112.80 MM ( 0.11180 0.88820 ) 
    8) LoyalCH < 0.035047 55  0.00 MM ( 0.00000 1.00000 ) *
    9) LoyalCH > 0.035047 106  96.58 MM ( 0.16981 0.83019 ) *
   5) LoyalCH > 0.277977 192 260.10 MM ( 0.41146 0.58854 ) 
   10) PriceDiff < 0.195 84  84.62 MM ( 0.20238 0.79762 ) 
    20) SpecialCH < 0.5 67  49.01 MM ( 0.11940 0.88060 ) *
    21) SpecialCH > 0.5 17  23.51 CH ( 0.52941 0.47059 ) *
   11) PriceDiff > 0.195 108 147.30 CH ( 0.57407 0.42593 ) *
  3) LoyalCH > 0.508643 447 348.80 CH ( 0.86801 0.13199 ) 
   6) LoyalCH < 0.764572 189 214.20 CH ( 0.74603 0.25397 ) 
   12) PriceDiff < -0.165 33  43.26 MM ( 0.36364 0.63636 ) *
   13) PriceDiff > -0.165 156 143.70 CH ( 0.82692 0.17308 ) 
    26) PriceDiff < 0.265 86  99.88 CH ( 0.73256 0.26744 ) *
    27) PriceDiff > 0.265 70  30.66 CH ( 0.94286 0.05714 ) *
   7) LoyalCH > 0.764572 258  90.94 CH ( 0.95736 0.04264 ) *

Am înțeles că rândurile cu asteriscuri pe copac sunt noduri terminale. Mă luptă să urmeze alte lucruri. Folosind rândul 7, de exemplu, știu că „LoyalCH> 0.764572“ este în cazul în care se desparte de arbori de decizie și ramurile nodului terminal și CH este valoarea calitativă a nodului terminal unde clienții sunt mai mari de 76.4572% loial CH (The date este preîncărcată cu pachetul ISLR, CH este un brand de suc). Sunt presupunând că 258 ar trebui să fie numărul de puncte de date care încheirerea în acel nod terminale. Știu că 90.94 ar trebui să descrie bunătatea într-un model, dar eu sunt un pic confuz cu privire la conceptul de devianță. Este o valoare mai mare a devianței rău? Are 90.94 indică faptul că aceasta este o potrivire mai slabă? În ceea ce privește numerele din paranteze, sunt eu să înțeleg că 0.95736 este probabilitatea fiecare punct de date în această ramură alegerea CH?

Întrebat 19/03/2020 la 22:06
sursa de către utilizator
În alte limbi...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more