Tilfeldig skog

Tilfeldig skog (eller tilfeldige skoger ) også kjent på spansk som '"Bosques Aleatorios"' er en kombinasjon av prediktortrær slik at hvert tre avhenger av verdiene til en tilfeldig vektor testet uavhengig og med samme fordeling for hver av disse. Det er en betydelig modifikasjon av bagging som bygger en stor samling av ikke-korrelerte trær og deretter gjennomsnittet dem. [ 1 ] [ 2 ]

Algoritmen for å indusere en tilfeldig skog ble utviklet av Leo Breiman [ 3 ] og Adele Cutler og Random forests er hennes varemerke . Begrepet kommer fra det første forslaget for Random decision forests , laget av Tin Kam Ho fra Bell Labs i 1995. Metoden kombinerer ideen om Breiman bagging og tilfeldig utvalg av attributter, introdusert uavhengig av Ho, [ 4 ] [ 5 ] Amit og Geman , [ 6 ] for å konstruere en samling av variasjonskontrollerte beslutningstrær.

Utvelgelsen av en tilfeldig delmengde av attributter er et eksempel på den tilfeldige delromsmetoden, som ifølge Ho sin formulering er en måte å utføre den stokastiske diskrimineringen [ 7 ] foreslått av Eugenio Kleinberg.

I mange problemer er ytelsen til den tilfeldige skogalgoritmen veldig lik ytelsen til boosting , og det er enklere å trene og stille inn. Som en konsekvens er Random-skogen populær og mye brukt.

Definisjon av tilfeldige skoger

Den essensielle ideen med bagging er å snitte mange støyende, men tilnærmet objektive modeller, og dermed redusere variasjonen. Trær er ideelle kandidater for bagging, siden de kan registrere komplekse interaksjonsstrukturer i dataene, og hvis de vokser dypt nok, har de relativt lav skjevhet. Fordi trær er notorisk støyende, har de stor nytte av gjennomsnittsberegning.

Hvert tre er bygget ved hjelp av følgende algoritme:

La N være antall testtilfeller , M være antall variabler i klassifikatoren.
La m være antall inngangsvariabler som skal brukes for å bestemme avgjørelsen ved en gitt node; m må være mye mindre enn M
Velg et treningssett for dette treet og bruk resten av testtilfellene for å estimere feilen.
For hver node i treet, velg tilfeldig m variabler som du vil basere avgjørelsen på. Beregn den beste partisjonen til treningssettet fra m variablene.

For prediksjon blir en ny sak skjøvet ned i treet. Den blir deretter tildelt etiketten til terminalnoden der den slutter. Denne prosessen itereres gjennom alle trærne i sammenstillingen, og taggen som får flest treff rapporteres som prediksjonen.

Kjennetegn (eller egenskaper) og fordeler

Fordelene med tilfeldige skoger er: [ 8 ]

Å være en av de mest nøyaktige læringsalgoritmene som er tilgjengelige. For et stort nok datasett produserer det en veldig nøyaktig klassifisering. [ 9 ]
Kjør effektivt på store databaser.
Håndter hundrevis av inngangsvariabler uten å ekskludere noen.
Gi anslag på hvilke variabler som er viktige i klassifiseringen. [ 1 ] [ 2 ]
Ha en effektiv metode for å estimere manglende data og opprettholde nøyaktigheten når en stor andel av dataene mangler.
Beregn prototypene som gir informasjon om forholdet mellom variablene og klassifiseringen.
Beregn nærheter mellom par av tilfeller som kan brukes i klynger, lokalisere uteliggere eller (gå opp) gi interessante visninger av dataene.
Tilby en eksperimentell metode for å oppdage interaksjonene mellom variablene.

Ulemper

Det er observert at tilfeldige skoger overpasser visse datasett med støyende klassifiserings-/regresjonsoppgaver. [ 10 ]
I motsetning til beslutningstrær er klassifiseringen gjort av tilfeldige skoger vanskelig å tolke. [ 11 ]
For data som inkluderer kategoriske variabler med et annet antall nivåer, er de tilfeldige skogene partisk til fordel for de attributtene med flere nivåer. Derfor er ikke posisjonen som markerer variabelen pålitelig for denne typen data. Metoder som delvise permutasjoner har blitt brukt for å løse problemet [ 12 ] [ 13 ]
Hvis dataene inneholder klynger av korrelerte attributter med lignende ytelsesrelevans, favoriseres de mindre klyngene fremfor de større klyngene. [ 14 ]

Vis

For å danne en intuitiv visualisering av modellrommet representert av tilfeldige skoger, ble det laget et datasett bestående av 200 tilfeldige punkter (100 grønne punkter og 100 røde punkter). De grønne punktene ble hentet fra en Gauss-fordeling med et tyngdepunkt ved (0,1), og de røde punktene ble hentet fra en Gauss-fordeling med et tyngdepunkt ved (1,0). I begge tilfeller var variasjonen sirkulær med en gjennomsnittlig radius på 1.

Den tilfeldige skogmodellen, bestående av 50 trær, trente ved hjelp av disse dataene. Fargerenhet indikerer andelen av de 50 trærne som stemte i enighet. En betydelig overanpassning kan observeres i Random Forest-visualiseringen etter trening.

Derimot presenterer vi en visualisering av en logistisk regresjonsmodell (mindre utsatt for overtilpasning), som også ble trent ved å bruke de samme dataene.

Se også

Tilfeldig multinomial logit
Tilfeldig naive Bayes

Referanser

↑ a b Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-06). "Rollen til dataanalyse i forvaltning av infrastrukturressurser: Overvinne problemer med datastørrelse og kvalitet" . Journal of Transportation Engineering, del B: Pavements (på engelsk) 146 (2): 04020022. ISSN 2573-5438 . doi : 10.1061/JPEODX.0000175 . Hentet 7. august 2020 .
^ a b Hastie, Trevor.; Friedman, JH (Jerome H.) (2001). Elementene i statistisk læring: datautvinning, inferens og prediksjon: med 200 fullfargeillustrasjoner . Springer. ISBN 0-387-95284-5 . OCLC 46809224 . Hentet 7. august 2020 .
^ Breiman, Leo (2001). Tilfeldige skoger. Machine Learning 45 (1): 5-32. doi : 10.1023/A:1010933404324 .
↑ Ho, Tin Kam (1995). Random Decision Forest . Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14.–16. august 1995. s. 278-282. Arkivert fra originalen 4. juli 2008.
↑ Ho, Tin Kam (1998). "Den tilfeldige underromsmetoden for å bygge beslutningsskoger" . IEEE Transactions on Pattern Analysis and Machine Intelligence 20 (8): 832-844. doi : 10.1109/34.709601 . Arkivert fra originalen 30. september 2007.
↑ Amit, Yali; Gemman, Donald (1997). "Formkvantisering og gjenkjenning med randomiserte trær" . Neural Computation 9 (7): 1545-1588. doi : 10.1162/neco.1997.9.7.1545 .
^ Kleinberg, Eugene (1996). "En overtreningsresistent stokastisk modelleringsmetode for mønstergjenkjenning" . Annals of Statistics 24 (6): 2319-2349. MR 1425956 . doi : 10.1214/aos/1032181157 . Arkivert fra originalen 19. juli 2011.
↑ [1]
↑ Caruana, Rich; Karampatziakis, Nikos; Yessenalina, Ainur (2008). En empirisk evaluering av veiledet læring i høye dimensjoner . Proceedings of the 25th International Conference on Machine Learning (ICML) .
↑ Segal, Mark R. (14. april 2004). Benchmarks for maskinlæring og tilfeldig skogregresjon . Senter for bioinformatikk og molekylær biostatistikk.
↑ Berthold, Michael R. (2010). Veiledning til intelligent dataanalyse . Springer London.
↑ Deng, H.; Runger, G.; Tuv, E. (2011). Bias av viktige mål for attributter og løsninger med flere verdier . Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN). s. 293-300.
^ Altmann A, Tolosi L, Sander O, Lengauer T (2010). "Permutasjonsviktighet: et korrigert trekkviktighetsmål" . Bioinformatikk . doi : 10.1093/bioinformatikk/btq134 .
↑ Tolosi L, Lengauer T (2011). "Klassifisering med korrelerte funksjoner: upålitelighet av funksjonsrangering og løsninger." . Bioinformatikk . doi : 10.1093/bioinformatikk/btr300 .

Kommersiell implementering

[2] Tilfeldige skoger.

Åpen kildekode-implementeringer

The Original RF av Breiman og Cutler. skrevet i Fortran 77. GNU General Public License
ALGLIB inneholder en modifikasjon av den tilfeldige skogalgoritmen i C#, C++, Pascal, VBA. GPL 2+
part Implementering av betingede slutningstrær i R .
randomForest for klassifisering og regresjon i R .
[3] Matlab - versjon . ( GNU GPL v2)

SQP - programvaren bruker den tilfeldige skogalgoritmen for å forutsi kvaliteten på spørreundersøkelsesspørsmål basert på de mange formelle og språklige egenskapene den kan ha.