Wieħed mill-metodi ta 'tagħlim tal-magni l-aktar utli u sempliċi huwa Ensemble Learning. Ensemble Learning huwa l-metodu wara XGBoost, Bagging, Random Forest u ħafna algoritmi oħra.
Hemm ħafna artikli mill-aqwa dwar Lejn Xjenza tad-Data, imma għażilt żewġ stejjer (l-ewwel и tieni) li għoġobni l-aktar. Allura għaliex tikteb artiklu ieħor dwar EL? Għax irrid nuruk kif taħdem b'eżempju sempliċi, li ġabni nifhem li hawn l-ebda maġija.
Meta rajt l-ewwel EL fl-azzjoni (taħdem ma 'xi mudelli ta' rigressjoni sempliċi ħafna) ma stajtx nemmen lil għajnejja, u għadni niftakar lill-professur li għallimni dan il-metodu.
Kelli żewġ mudelli differenti (żewġ algoritmi ta 'taħriġ dgħajfa) b'metriċi barra mill-kampjun R² ugwali għal 0,90 u 0,93, rispettivament. Qabel ma nħares lejn ir-riżultat, ħsibt li se nġib R² x'imkien bejn iż-żewġ valuri oriġinali. Fi kliem ieħor, jien nemmen li l-EL jista 'jintuża biex jagħmel mudell jaħdem mhux daqshekk ħażin daqs l-agħar mudell, iżda mhux tajjeb daqs l-aħjar mudell jista' jagħmel.
B'sorpriża kbira tiegħi, sempliċiment bil-medja tal-previżjonijiet taw R² ta' 0,95.
Għall-ewwel bdejt infittex l-iżball, imma mbagħad ħsibt li jista’ jkun hemm xi ħabi ta’ maġija hawn!
X'inhu Ensemble Learning
Bl-EL, tista 'tgħaqqad it-tbassir ta' żewġ mudelli jew aktar biex tipproduċi mudell aktar robust u performant. Hemm ħafna metodoloġiji biex taħdem ma 'ensembles ta' mudelli. Hawnhekk se nmiss fuq it-tnejn l-aktar utli biex nagħti ħarsa ġenerali.
Bil rigressjoni huwa possibbli li ssir medja tal-prestazzjoni tal-mudelli disponibbli.
Bil klassifikazzjoni Tista 'tagħti lill-mudelli l-opportunità li jagħżlu tikketti. It-tikketta li ntgħażlet l-aktar spiss hija dik li se tintgħażel mill-mudell il-ġdid.
Għaliex EL jaħdem aħjar
Ir-raġuni ewlenija għaliex EL taħdem aħjar hija li kull tbassir għandu żball (nafu dan mit-teorija tal-probabbiltà), li tgħaqqad żewġ previżjonijiet tista 'tgħin biex tnaqqas l-iżball, u għalhekk ittejjeb il-metriċi tal-prestazzjoni (RMSE, R², eċċ.). d.).
Id-dijagramma li ġejja turi kif żewġ algoritmi dgħajfa joperaw fuq sett tad-dejta. L-ewwel algoritmu għandu inklinazzjoni akbar milli meħtieġ, filwaqt li t-tieni għandu kważi żero (possibbilment minħabba regolarizzazzjoni żejda). Iżda ensemble juri riżultati ferm aħjar.
Jekk tħares lejn l-indikatur R², allura għall-ewwel u t-tieni algoritmu ta 'taħriġ ikun ugwali għal -0.01¹, 0.22, rispettivament, filwaqt li għall-ensemble se jkun ugwali għal 0.73.
Hemm ħafna raġunijiet għalfejn algoritmu jista’ jkun mudell ħażin anke fuq eżempju bażiku bħal dan: forsi ddeċidejt li tuża regolarizzazzjoni biex tevita li twaħħal iżżejjed, jew iddeċidejt li ma teskludix xi anomaliji, jew forsi użajt rigressjoni polinomjali u ħadt il-ħażin. grad (per eżempju , użajna polinomju tat-tieni grad, u d-dejta tat-test turi asimetrija ċara li għaliha t-tielet grad ikun adattat aħjar).
Meta EL jaħdem aħjar
Ejja nħarsu lejn żewġ algoritmi ta' tagħlim li jaħdmu bl-istess data.
Hawnhekk tista 'tara li l-kombinazzjoni taż-żewġ mudelli ma tejbitx ħafna l-prestazzjoni. Inizjalment, għaż-żewġ algoritmi ta 'taħriġ, l-indikaturi R² kienu ugwali għal -0,37 u 0,22, rispettivament, u għall-ensemble irriżulta li kien -0,04. Jiġifieri, il-mudell EL irċieva l-valur medju tal-indikaturi.
Madankollu, hemm differenza kbira bejn dawn iż-żewġ eżempji: fl-ewwel eżempju, l-iżbalji tal-mudell kienu korrelatati negattivament, u fit-tieni, kienu korrelatati b'mod pożittiv (il-koeffiċjenti tat-tliet mudelli ma ġewx stmati, iżda kienu sempliċement magħżula mill- awtur bħala eżempju.)
Għalhekk, Ensemble Learning jista 'jintuża biex itejjeb il-bilanċ bias/varjanza fi kwalunkwe każ, iżda meta L-iżbalji tal-mudell mhumiex korrelatati b'mod pożittiv, l-użu ta 'EL jista' jwassal għal prestazzjoni mtejba.
Mudelli omoġenji u eteroġenji
Ħafna drabi EL jintuża fuq mudelli omoġenji (bħal f'dan l-eżempju jew foresti każwali), iżda fil-fatt tista 'tgħaqqad mudelli differenti (rigressjoni lineari + netwerk newrali + XGBoost) ma' settijiet differenti ta 'varjabbli ta' spjegazzjoni. Dan x'aktarx jirriżulta fi żbalji mhux korrelatati u prestazzjoni mtejba.
Tqabbil mad-diversifikazzjoni tal-portafoll
EL jaħdem b'mod simili għad-diversifikazzjoni fit-teorija tal-portafoll, iżda tant aħjar għalina.
Meta tiddiversifika, tipprova tnaqqas il-varjanza tal-prestazzjoni tiegħek billi tinvesti fi stokks mhux korrelatati. Portafoll diversifikat tajjeb ta 'ħażniet se jwettaq aħjar mill-agħar stokk individwali, iżda qatt aħjar mill-aħjar.
Biex nikkwota lil Warren Buffett:
"Diversifikazzjoni hija difiża kontra l-injoranza; għal xi ħadd li ma jafx x'qed jagħmel, [id-diversifikazzjoni] ftit li xejn tagħmel sens."
Fit-tagħlim bil-magni, EL jgħin biex titnaqqas il-varjanza tal-mudell tiegħek, iżda jista 'jirriżulta f'mudell b'rendiment ġenerali aħjar mill-aħjar mudell oriġinali.
Qosor
Il-kombinazzjoni ta 'mudelli multipli f'wieħed hija teknika relattivament sempliċi li tista' twassal biex issolvi l-problema tal-preġudizzju tal-varjanza u ttejjeb il-prestazzjoni.
Jekk għandek żewġ mudelli jew aktar li jaħdmu tajjeb, tagħżelx bejniethom: użahom kollha (iżda b'kawtela)!