Čarobnost ansambelskega učenja

Pozdravljeni, Habr! Vabimo podatkovne inženirje in strokovnjake za strojno učenje na brezplačno predstavitveno lekcijo “Izhod modelov ML v industrijsko okolje na primeru spletnih priporočil”. Objavljamo tudi članek Luca Monno - vodja finančne analitike pri CDP SpA.

Ena izmed najbolj uporabnih in preprostih metod strojnega učenja je Ensemble Learning. Ensemble Learning je metoda za XGBoost, Bagging, Random Forest in številne druge algoritme.

Na Towards Data Science je veliko odličnih člankov, vendar sem izbral dve zgodbi (najprej и Drugi), kar mi je bilo najbolj všeč. Zakaj torej napisati še en članek o EL? Ker ti želim pokazati kako deluje s preprostim primerom, zaradi česar sem razumel, da tukaj ni nobene čarovnije.

Ko sem prvič videl EL v akciji (delo z zelo preprostimi regresijskimi modeli), nisem mogel verjeti svojim očem in še vedno se spominjam profesorja, ki me je učil te metode.

Imel sem dva različna modela (dva šibka algoritma za usposabljanje) z metrikami izven vzorca R² enak 0,90 oziroma 0,93. Preden sem pogledal rezultat, sem mislil, da bom dobil R² nekje med obema izvirnima vrednostima. Z drugimi besedami, verjel sem, da se lahko EL uporabi za to, da model ne deluje tako slabo kot najslabši model, vendar ne tako dobro, kot bi lahko deloval najboljši model.

Na moje veliko presenečenje je preprosto povprečenje napovedi dalo R² 0,95. 

Najprej sem začel iskati napako, potem pa sem pomislil, da se morda tukaj skriva kakšna čarovnija!

Kaj je ansambelsko učenje

Z EL lahko združite napovedi dveh ali več modelov, da ustvarite bolj robusten in učinkovit model. Obstaja veliko metodologij za delo z manekenskimi ansambli. Tukaj se bom dotaknil dveh najbolj uporabnih, da bom dal pregled.

Z regresija možno je izračunati povprečje zmogljivosti razpoložljivih modelov.

Z razvrstitev Modelom lahko daste možnost, da izberejo oznake. Najpogosteje izbrana oznaka je tista, ki jo bo izbral novi model.

Zakaj EL deluje bolje

Glavni razlog, zakaj EL deluje bolje, je, da ima vsaka napoved napako (to vemo iz teorije verjetnosti), združevanje dveh napovedi lahko pomaga zmanjšati napako in s tem izboljša meritve uspešnosti (RMSE, R² itd.). d.).

Naslednji diagram prikazuje, kako dva šibka algoritma delujeta na nizu podatkov. Prvi algoritem ima večji naklon, kot je potrebno, medtem ko ima drugi skoraj nič (verjetno zaradi prevelike regulacije). Ampak ansambel kaže veliko boljše rezultate. 

Če pogledate indikator R², bo za prvi in ​​drugi algoritem usposabljanja enak -0.01¹ oziroma 0.22, medtem ko bo za ansambel enak 0.73.

Čarobnost ansambelskega učenja

Obstaja veliko razlogov, zakaj je lahko algoritem slab model tudi na osnovnem primeru, kot je ta: morda ste se odločili za uporabo regularizacije, da bi se izognili prekomernemu prilagajanju, ali ste se odločili, da ne boste izključili nekaterih nepravilnosti, ali pa ste morda uporabili polinomsko regresijo in se zmotili stopnje (na primer, uporabili smo polinom druge stopnje, testni podatki pa kažejo jasno asimetrijo, za katero bi bila tretja stopnja bolj primerna).

Ko EL deluje bolje

Oglejmo si dva učna algoritma, ki delata z istimi podatki.

Čarobnost ansambelskega učenja

Tukaj lahko vidite, da kombinacija obeh modelov ni veliko izboljšala zmogljivosti. Sprva sta bila za oba algoritma za usposabljanje kazalnika R² enaka -0,37 oziroma 0,22, za ansambel pa se je izkazalo za -0,04. To pomeni, da je model EL prejel povprečno vrednost kazalnikov.

Vendar pa je med tema dvema primeroma velika razlika: v prvem primeru so bile napake modela negativno korelirane, v drugem pa pozitivno (koeficienti treh modelov niso bili ocenjeni, ampak jih je preprosto izbral avtor kot primer.)

Zato se lahko ansambelsko učenje uporabi za izboljšanje ravnovesja pristranskosti/variance v vsakem primeru, vendar kdaj napake modela niso v pozitivni korelaciji, lahko uporaba EL vodi do boljše učinkovitosti.

Homogeni in heterogeni modeli

Zelo pogosto se EL uporablja na homogenih modelih (kot v tem primeru ali naključnem gozdu), dejansko pa lahko kombinirate različne modele (linearna regresija + nevronska mreža + XGBoost) z različnimi nizi pojasnjevalnih spremenljivk. To bo verjetno povzročilo nepovezane napake in izboljšano delovanje.

Primerjava z diverzifikacijo portfelja

EL deluje podobno kot diverzifikacija v portfeljski teoriji, a toliko bolje za nas. 

Pri diverzifikaciji poskušate zmanjšati varianco svoje uspešnosti z vlaganjem v nepovezane delnice. Dobro razpršen portfelj delnic bo deloval bolje kot najslabša posamezna delnica, vendar nikoli bolje kot najboljša.

Če citiram Warrena Buffetta: 

"Diverzifikacija je obramba pred nevednostjo; za nekoga, ki ne ve, kaj počne, ima [diverzifikacija] zelo malo smisla."

Pri strojnem učenju EL pomaga zmanjšati varianco vašega modela, vendar lahko povzroči model s splošno zmogljivostjo, ki je boljša od najboljšega izvirnega modela.

Seštejte

Združevanje več modelov v enega je razmeroma preprosta tehnika, ki lahko privede do rešitve problema pristranskosti variance in izboljša učinkovitosti.

Če imate dva ali več modelov, ki dobro delujejo, ne izbirajte med njimi: uporabite jih vse (vendar previdno)!

Vas zanima razvoj v tej smeri? Prijavite se na brezplačno predstavitveno lekcijo “Izhod modelov ML v industrijsko okolje na primeru spletnih priporočil” in sodelovati pri spletno srečanje z Andrejem Kuznecovom — Inženir strojnega učenja pri Mail.ru Group.

Vir: www.habr.com

Dodaj komentar