Magic Ensemble Learning

Hoi Habr! Wy noegje Data Engineers en Machine Learning-spesjalisten út foar in fergese demo-les "Utfier fan ML-modellen yn in yndustriële omjouwing mei it foarbyld fan online oanbefellings". Wy publisearje ek it artikel Luca Monno - Head of Financial Analytics by CDP SpA.

Ien fan 'e nuttichste en ienfâldichste metoaden foar masinelearen is Ensemble Learning. Ensemble Learning is de metoade efter XGBoost, Bagging, Random Forest en in protte oare algoritmen.

D'r binne in protte geweldige artikels oer Towards Data Science, mar ik keas twa ferhalen (earst и de twadde) dy't ik it meast leuk fûn. Dus wêrom in oar artikel oer EL skriuwe? Want ik wol dy sjen litte hoe't it wurket mei in ienfâldich foarbyld, dy't makke my te begripen dat der gjin magy hjir.

Doe't ik earst seach EL yn aksje (wurken mei guon hiel ienfâldige regression modellen) Ik koe net leauwe myn eagen, en ik wit noch de professor dy't learde my dizze metoade.

Ik hie twa ferskillende modellen (twa swak training algoritmen) mei metrics out-of-sample R² lyk oan respektivelik 0,90 en 0,93. Foardat ik nei it resultaat seach, tocht ik dat ik in R² earne tusken de twa oarspronklike wearden soe krije. Mei oare wurden, ik leaude dat EL koe wurde brûkt om in model net sa min te dwaan as it slimste model, mar net sa goed as it bêste model koe útfiere.

Ta myn grutte ferrassing levere gewoan it gemiddelde fan 'e foarsizzingen in R² fan 0,95 op. 

Ik begon earst om de flater te sykjen, mar doe tocht ik dat hjir miskien wat magy ferstoppe!

Wat is Ensemble Learning

Mei EL kinne jo de foarsizzings fan twa of mear modellen kombinearje om in robúster en performanter model te produsearjen. D'r binne in protte metoaden foar it wurkjen mei modelensembles. Hjir sil ik de twa meast brûkbere oanreitsje om in oersjoch te jaan.

Mei help fan regression it is mooglik om gemiddelde de prestaasjes fan beskikbere modellen.

Mei help fan klassifikaasje Jo kinne modellen de kâns jaan om labels te kiezen. It label dat it meast waard keazen is it dat sil wurde keazen troch it nije model.

Wêrom EL wurket better

De wichtichste reden wêrom't EL better presteart is dat elke foarsizzing in flater hat (wy witte dit fan 'e kâns teory), it kombinearjen fan twa foarsizzingen kin helpe om de flater te ferminderjen, en dêrom prestaasjesmetriken te ferbetterjen (RMSE, R², ensfh.). d.).

It folgjende diagram lit sjen hoe't twa swakke algoritmen wurkje op in dataset. It earste algoritme hat in gruttere helling dan nedich, wylst it twadde hast nul hat (mooglik troch tefolle regulierisaasje). Mar ensemble toant folle bettere resultaten. 

As jo ​​​​nei de R²-yndikator sjogge, dan sil it foar it earste en twadde treningsalgoritme gelyk wêze oan respektivelik -0.01¹, 0.22, wylst it foar it ensemble gelyk sil wêze oan 0.73.

Magic Ensemble Learning

D'r binne in protte redenen wêrom't in algoritme in min model kin wêze, sels op in basisfoarbyld lykas dit: miskien hawwe jo besletten om regularisaasje te brûken om overfitting te foarkommen, of jo hawwe besletten guon anomalies net út te sluten, of miskien hawwe jo polynomiale regression brûkt en it ferkeard krigen. graad (wy brûkten bygelyks in polynoom fan 'e twadde graad, en de testgegevens litte in dúdlike asymmetry sjen wêrfoar de tredde graad better geskikt wêze soe).

As EL wurket better

Litte wy nei twa learalgoritmen sjen dy't wurkje mei deselde gegevens.

Magic Ensemble Learning

Hjir kinne jo sjen dat it kombinearjen fan de twa modellen de prestaasjes net folle ferbettere. Yn earste ynstânsje wiene de R²-yndikatoaren foar de twa trainingalgoritmen gelyk oan respektivelik -0,37 en 0,22, en foar it ensemble die bliken te wêzen -0,04. Dat is, it EL-model krige de gemiddelde wearde fan 'e yndikatoaren.

D'r is lykwols in grut ferskil tusken dizze twa foarbylden: yn it earste foarbyld wiene de modelflaters negatyf korrelearre, en yn it twadde wiene se posityf korrelearre (de koeffizienten fan 'e trije modellen waarden net rûsd, mar gewoan keazen troch de skriuwer as foarbyld.)

Dêrom, Ensemble Learning kin brûkt wurde om te ferbetterjen de bias / fariânsje lykwicht yn alle gefallen, mar wannear Modelflaters binne net posityf korrelearre, it brûken fan EL kin liede ta ferbettere prestaasjes.

Homogene en heterogene modellen

Hiel faak EL wurdt brûkt op homogene modellen (lykas yn dit foarbyld of willekeurige bosk), mar yn feite kinne jo kombinearje ferskillende modellen (lineêre regression + neural netwurk + XGBoost) mei ferskate sets fan ferklearjende fariabelen. Dit sil wierskynlik resultearje yn unkorrelearre flaters en ferbettere prestaasjes.

Fergeliking mei portfolio diversifikaasje

EL wurket fergelykber mei diversifikaasje yn portfolioteory, mar sa folle better foar ús. 

By it diversifisearjen besykje jo de fariânsje fan jo prestaasjes te ferminderjen troch te ynvestearjen yn unkorrelearre oandielen. In goed diversifisearre portefúlje fan oandielen sil better prestearje dan de minste yndividuele stock, mar nea better dan de bêste.

Om Warren Buffett te sitearjen: 

"Diversifikaasje is in ferdigening tsjin ûnwittendheid; foar ien dy't net wit wat er docht, makket it [diversifikaasje] heul min sin."

Yn masine learen helpt EL de fariânsje fan jo model te ferminderjen, mar it kin resultearje yn in model mei algemiene prestaasjes better dan it bêste orizjinele model.

Lit de resultaten opkomme

It kombinearjen fan meardere modellen yn ien is in relatyf ienfâldige technyk dy't liede kin ta it oplossen fan it probleem fan fariânsjefoaroardielen en it ferbetterjen fan prestaasjes.

As jo ​​​​twa of mear modellen hawwe dy't goed wurkje, kies dan net tusken har: brûk se allegear (mar mei foarsichtigens)!

Binne jo ynteressearre om yn dizze rjochting te ûntwikkeljen? Oanmelde foar in fergese demo-les "Utfier fan ML-modellen yn in yndustriële omjouwing mei it foarbyld fan online oanbefellings" en meidwaan oan online gearkomste mei Andrey Kuznetsov - Machine Learning Engineer by Mail.ru Group.

Boarne: www.habr.com

Add a comment