Magic Ensemble Learning

Hej Habr! Pozivamo inženjere podataka i stručnjake za mašinsko učenje na besplatnu demo lekciju "Uvođenje ML modela u industrijsko okruženje na primjeru online preporuka". Objavljujemo i članak Luce Monno - šefa finansijske analitike u CDP SpA.

Jedna od najkorisnijih i najjednostavnijih metoda mašinskog učenja je Ensemble Learning. Ensemble Learning je osnovna tehnika za XGBoost, Bagging, Random Forest i mnoge druge algoritme.

Postoji mnogo sjajnih članaka o Nauci o podacima, ali ja sam odabrao dvije priče (prvo и drugi) koji mi se najviše dopao. Zašto onda pisati još jedan članak o EL? Zato što želim da ti pokažem kako to funkcionira na jednostavnom primjeru, zbog čega sam shvatio da tu nema magije.

Kada sam prvi put vidio EL u akciji (radi sa nekim vrlo jednostavnim regresijskim modelima) nisam mogao vjerovati svojim očima, a još uvijek se sjećam profesora koji me je naučio ovoj metodi.

Imao sam dva različita modela (dva slaba algoritma učenja) sa eksponentima van uzorka R² jednak 0,90 i 0,93 respektivno. Prije nego što sam pogledao rezultat, mislio sam da ću dobiti R² negdje između dvije početne vrijednosti. Drugim riječima, mislio sam da se EL može koristiti da model ne radi tako loše kao najgori model, ali ne tako dobro kao najbolji model.

Na moje veliko iznenađenje, rezultati jednostavnog usrednjavanja predviđanja dali su R² od 0,95. 

Prvo sam počeo da tražim grešku, ali onda sam pomislio da se tu možda krije neka magija!

Šta je Ensemble Learning

Uz EL, možete kombinirati predviđanja dva ili više modela kako biste dobili pouzdaniji i učinkovitiji model. Postoji mnogo metodologija za rad sa ansamblima modela. Ovdje ću se dotaknuti dvije najkorisnije da vam dam ideju.

Uz pomoć regresija možete procijeniti performanse dostupnih modela.

Uz pomoć klasifikacija možete dopustiti modelima da biraju etikete. Etiketu koja je najčešće birana je ona koju će birati novi model.

Zašto EL radi bolje

Glavni razlog zašto EL radi bolje je zato što svako predviđanje ima grešku (ovo znamo iz teorije vjerovatnoće), kombinovanje dva predviđanja može pomoći u smanjenju greške, a time i poboljšanju pokazatelja učinka (RMSE, R², itd.). d.).

Sljedeći dijagram pokazuje kako dva slaba algoritma rade na skupu podataka. Prvi algoritam ima veći nagib nego što je potrebno, dok drugi ima skoro nulu (vjerovatno zbog pretjerane regularizacije). Ali ansambl pokazuje bolje rezultate. 

Ako pogledate R², tada će prvi i drugi algoritam treninga imati jednak -0.01¹, 0.22, respektivno, dok će za ansambl biti jednak 0.73.

Magic Ensemble Learning

Postoji mnogo razloga zašto algoritam može biti loš model čak i za osnovni primjer poput ovog: možda ste odlučili koristiti regularizaciju kako biste izbjegli prekomjerno prilagođavanje, ili ste odlučili da ne eliminišete neke anomalije, ili ste možda koristili polinomsku regresiju i odabrali pogrešan stepen (na primjer, korišćen je polinom drugog stepena, a podaci testa pokazuju jasnu asimetriju, za koju bi treći stepen bio bolji).

Kada EL radi najbolje

Pogledajmo dva algoritma učenja koji rade na istim podacima.

Magic Ensemble Learning

Ovdje možete vidjeti da kombinacija ova dva modela nije mnogo poboljšala performanse. U početku, za dva algoritma za obuku, vrijednosti R² bile su -0,37 i 0,22, respektivno, a za ansambl se ispostavilo da je -0,04. Odnosno, EL model je dobio prosječnu vrijednost indikatora.

Međutim, postoji velika razlika između ova dva primjera: u prvom primjeru greške modela su bile u negativnoj korelaciji, au drugom - pozitivno (koeficijenti tri modela nisu procijenjeni, već ih je autor jednostavno izabrao kao primjer.)

Stoga se Ensemble Learning može koristiti za poboljšanje ravnoteže pristranosti/disperzije u svim slučajevima, ali kada greške modela nisu u pozitivnoj korelaciji, korištenje EL može dovesti do boljih performansi.

Homogeni i heterogeni modeli

Vrlo često se EL koristi na homogenim modelima (kao u ovom primjeru ili slučajnoj šumi), ali u stvari možete kombinirati različite modele (linearna regresija + neuronska mreža + XGBoost) s različitim skupovima varijabli koje objašnjavaju. Ovo će vjerovatno dovesti do nekoreliranih grešaka i poboljšati performanse.

Poređenje sa diversifikacijom portfelja

EL radi na sličan način kao i diversifikacija u teoriji portfelja, ali utoliko bolje za nas. 

Kada diverzifikujete, pokušavate da smanjite varijansu u svom učinku ulaganjem u nekorelirane akcije. Dobro diverzificiran portfelj dionica će imati bolji učinak od najlošije pojedinačne dionice, ali nikada bolji od najboljih.

Citirajući Warrena Buffetta: 

"Diverzifikacija je odbrana od neznanja, za nekoga ko ne zna šta radi, to [diverzifikacija] ima vrlo malo smisla."

U mašinskom učenju, EL pomaže u smanjenju varijanse vašeg modela, ali to može rezultirati modelom s boljim ukupnim performansama od najboljeg početnog modela.

Hajde da sumiramo rezultate

Kombiniranje više modela u jedan je relativno jednostavna tehnika koja može dovesti do rješenja problema pristranosti varijanse i poboljšanih performansi.

Ako imate dva ili više modela koji dobro rade, nemojte birati između njih: koristite ih sve (ali s oprezom)!

Da li ste zainteresovani za razvoj u ovom pravcu? Prijavite se za besplatnu demo lekciju "Uvođenje ML modela u industrijsko okruženje na primjeru online preporuka" i učestvovati u onlajn sastanak sa Andrejem Kuznjecovim — Inženjer mašinskog učenja u Mail.ru Group.

izvor: www.habr.com

Dodajte komentar