Tilfeldig skog

Tilfeldig skog (eller tilfeldige skoger ) også kjent på spansk som '"Bosques Aleatorios"' er en kombinasjon av prediktortrær slik at hvert tre avhenger av verdiene til en tilfeldig vektor testet uavhengig og med samme fordeling for hver av disse. Det er en betydelig modifikasjon av bagging som bygger en stor samling av ikke-korrelerte trær og deretter gjennomsnittet dem. [ 1 ]​ [ 2 ]

Algoritmen for å indusere en tilfeldig skog ble utviklet av Leo Breiman [ 3 ] og Adele Cutler og Random forests er hennes varemerke . Begrepet kommer fra det første forslaget for Random decision forests , laget av Tin Kam Ho fra Bell Labs i 1995. Metoden kombinerer ideen om Breiman bagging og tilfeldig utvalg av attributter, introdusert uavhengig av Ho, [ 4 ] ​[ 5 ] Amit og Geman , [ 6 ] for å konstruere en samling av variasjonskontrollerte beslutningstrær.

Utvelgelsen av en tilfeldig delmengde av attributter er et eksempel på den tilfeldige delromsmetoden, som ifølge Ho sin formulering er en måte å utføre den stokastiske diskrimineringen [ 7 ] foreslått av Eugenio Kleinberg.

I mange problemer er ytelsen til den tilfeldige skogalgoritmen veldig lik ytelsen til boosting , og det er enklere å trene og stille inn. Som en konsekvens er Random-skogen populær og mye brukt.

Definisjon av tilfeldige skoger

Den essensielle ideen med bagging er å snitte mange støyende, men tilnærmet objektive modeller, og dermed redusere variasjonen. Trær er ideelle kandidater for bagging, siden de kan registrere komplekse interaksjonsstrukturer i dataene, og hvis de vokser dypt nok, har de relativt lav skjevhet. Fordi trær er notorisk støyende, har de stor nytte av gjennomsnittsberegning.

Hvert tre er bygget ved hjelp av følgende algoritme:

  1. La N være antall testtilfeller , M være antall variabler i klassifikatoren.
  2. La m være antall inngangsvariabler som skal brukes for å bestemme avgjørelsen ved en gitt node; m må være mye mindre enn M
  3. Velg et treningssett for dette treet og bruk resten av testtilfellene for å estimere feilen.
  4. For hver node i treet, velg tilfeldig m variabler som du vil basere avgjørelsen på. Beregn den beste partisjonen til treningssettet fra m variablene.

For prediksjon blir en ny sak skjøvet ned i treet. Den blir deretter tildelt etiketten til terminalnoden der den slutter. Denne prosessen itereres gjennom alle trærne i sammenstillingen, og taggen som får flest treff rapporteres som prediksjonen.

Kjennetegn (eller egenskaper) og fordeler

Fordelene med tilfeldige skoger er: [ 8 ]

Ulemper

Vis

For å danne en intuitiv visualisering av modellrommet representert av tilfeldige skoger, ble det laget et datasett bestående av 200 tilfeldige punkter (100 grønne punkter og 100 røde punkter). De grønne punktene ble hentet fra en Gauss-fordeling med et tyngdepunkt ved (0,1), og de røde punktene ble hentet fra en Gauss-fordeling med et tyngdepunkt ved (1,0). I begge tilfeller var variasjonen sirkulær med en gjennomsnittlig radius på 1.

Den tilfeldige skogmodellen, bestående av 50 trær, trente ved hjelp av disse dataene. Fargerenhet indikerer andelen av de 50 trærne som stemte i enighet. En betydelig overanpassning kan observeres i Random Forest-visualiseringen etter trening.

Derimot presenterer vi en visualisering av en logistisk regresjonsmodell (mindre utsatt for overtilpasning), som også ble trent ved å bruke de samme dataene.

Se også

Referanser

  1. ↑ a b Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-06). "Rollen til dataanalyse i forvaltning av infrastrukturressurser: Overvinne problemer med datastørrelse og kvalitet" . Journal of Transportation Engineering, del B: Pavements (på engelsk) 146 (2): 04020022. ISSN  2573-5438 . doi : 10.1061/JPEODX.0000175 . Hentet 7. august 2020 . 
  2. ^ a b Hastie, Trevor.; Friedman, JH (Jerome H.) (2001). Elementene i statistisk læring: datautvinning, inferens og prediksjon: med 200 fullfargeillustrasjoner . Springer. ISBN  0-387-95284-5 . OCLC  46809224 . Hentet 7. august 2020 . 
  3. ^ Breiman, Leo (2001). Tilfeldige skoger. Machine Learning 45 (1): 5-32. doi : 10.1023/A:1010933404324 . 
  4. Ho, Tin Kam (1995). Random Decision Forest . Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14.–16. august 1995. s. 278-282. Arkivert fra originalen 4. juli 2008. 
  5. Ho, Tin Kam (1998). "Den tilfeldige underromsmetoden for å bygge beslutningsskoger" . IEEE Transactions on Pattern Analysis and Machine Intelligence 20 (8): 832-844. doi : 10.1109/34.709601 . Arkivert fra originalen 30. september 2007. 
  6. Amit, Yali; Gemman, Donald (1997). "Formkvantisering og gjenkjenning med randomiserte trær" . Neural Computation 9 (7): 1545-1588. doi : 10.1162/neco.1997.9.7.1545 . 
  7. ^ Kleinberg, Eugene (1996). "En overtreningsresistent stokastisk modelleringsmetode for mønstergjenkjenning" . Annals of Statistics 24 (6): 2319-2349. MR  1425956 . doi : 10.1214/aos/1032181157 . Arkivert fra originalen 19. juli 2011. 
  8. [1]
  9. Caruana, Rich; Karampatziakis, Nikos; Yessenalina, Ainur (2008). En empirisk evaluering av veiledet læring i høye dimensjoner . Proceedings of the 25th International Conference on Machine Learning (ICML) . 
  10. Segal, Mark R. (14. april 2004). Benchmarks for maskinlæring og tilfeldig skogregresjon . Senter for bioinformatikk og molekylær biostatistikk. 
  11. Berthold, Michael R. (2010). Veiledning til intelligent dataanalyse . Springer London. 
  12. Deng, H.; Runger, G.; Tuv, E. (2011). Bias av viktige mål for attributter og løsninger med flere verdier . Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN). s. 293-300. 
  13. ^ Altmann A, Tolosi L, Sander O, Lengauer T (2010). "Permutasjonsviktighet: et korrigert trekkviktighetsmål" . Bioinformatikk . doi : 10.1093/bioinformatikk/btq134 . 
  14. Tolosi L, Lengauer T (2011). "Klassifisering med korrelerte funksjoner: upålitelighet av funksjonsrangering og løsninger." . Bioinformatikk . doi : 10.1093/bioinformatikk/btr300 . 

Kommersiell implementering

Åpen kildekode-implementeringer