Aveți nevoie de ajutor pentru a înțelege de ieșire de la construirea unui arbore de clasificare

voturi
0

Sunt practica de luare a deciziilor copaci cu ajutorul pachetului numit „copac“.

#install.packages(ISLR)
set.seed(666)
library(ISLR)
index=sample(1:nrow(OJ),800,replace=F)
OJtrain=OJ[index,]
OJtest=OJ[-index,]
#install.packages(tree)
library(tree)
OJtraintree=tree(Purchase~.,data=OJtrain)
OJtraintree

Ieșirea din aceasta este:

node), split, n, deviance, yval, (yprob)
      * denotes terminal node

1) root 800 1073.00 CH ( 0.60625 0.39375 )  
   2) LoyalCH < 0.508643 353  415.10 MM ( 0.27479 0.72521 )  
     4) LoyalCH < 0.277977 161  112.80 MM ( 0.11180 0.88820 )  
       8) LoyalCH < 0.035047 55    0.00 MM ( 0.00000 1.00000 ) *
       9) LoyalCH > 0.035047 106   96.58 MM ( 0.16981 0.83019 ) *
     5) LoyalCH > 0.277977 192  260.10 MM ( 0.41146 0.58854 )  
      10) PriceDiff < 0.195 84   84.62 MM ( 0.20238 0.79762 )  
        20) SpecialCH < 0.5 67   49.01 MM ( 0.11940 0.88060 ) *
        21) SpecialCH > 0.5 17   23.51 CH ( 0.52941 0.47059 ) *
      11) PriceDiff > 0.195 108  147.30 CH ( 0.57407 0.42593 ) *
   3) LoyalCH > 0.508643 447  348.80 CH ( 0.86801 0.13199 )  
     6) LoyalCH < 0.764572 189  214.20 CH ( 0.74603 0.25397 )  
      12) PriceDiff < -0.165 33   43.26 MM ( 0.36364 0.63636 ) *
      13) PriceDiff > -0.165 156  143.70 CH ( 0.82692 0.17308 )  
        26) PriceDiff < 0.265 86   99.88 CH ( 0.73256 0.26744 ) *
        27) PriceDiff > 0.265 70   30.66 CH ( 0.94286 0.05714 ) *
     7) LoyalCH > 0.764572 258   90.94 CH ( 0.95736 0.04264 ) *

Am înțeles că rândurile cu asteriscuri pe copac sunt noduri terminale. Mă luptă să urmeze alte lucruri. Folosind rândul 7, de exemplu, știu că „LoyalCH> 0.764572“ este în cazul în care se desparte de arbori de decizie și ramurile nodului terminal și CH este valoarea calitativă a nodului terminal unde clienții sunt mai mari de 76.4572% loial CH (The date este preîncărcată cu pachetul ISLR, CH este un brand de suc). Sunt presupunând că 258 ar trebui să fie numărul de puncte de date care încheirerea în acel nod terminale. Știu că 90.94 ar trebui să descrie bunătatea într-un model, dar eu sunt un pic confuz cu privire la conceptul de devianță. Este o valoare mai mare a devianței rău? Are 90.94 indică faptul că aceasta este o potrivire mai slabă? În ceea ce privește numerele din paranteze, sunt eu să înțeleg că 0.95736 este probabilitatea fiecare punct de date în această ramură alegerea CH?

Întrebat 19/03/2020 la 22:06
sursa de către utilizator
În alte limbi...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more