D'Magie vum Ensemble Learning

Hey Habr! Mir invitéieren Data Engineers a Machine Learning Spezialisten op eng gratis Demo Lektioun "Output vun ML Modeller an en industriellt Ëmfeld mam Beispill vun Online Empfehlungen". Mir publizéieren och den Artikel Luca Monno - Head of Financial Analytics bei CDP SpA.

Ee vun den nëtzlechsten an einfachsten Maschinnléieremethoden ass Ensemble Learning. Ensemble Learning ass d'Method hannert XGBoost, Bagging, Random Forest a vill aner Algorithmen.

Et gi vill super Artikelen iwwer Towards Data Science, awer ech hunn zwou Geschichten gewielt (éischt и déi zweet) déi mir am meeschte gefall hunn. Also firwat en aneren Artikel iwwer EL schreiwen? Well ech wëll Iech weisen wéi et mat engem einfache Beispill funktionnéiert, wat mech verstanen huet datt et keng Magie hei ass.

Wéi ech d'EL fir d'éischt an Aktioun gesinn hunn (mat e puer ganz einfache Regressiounsmodeller schaffen) konnt ech meng Aen net gleewen, an ech erënnere mech nach un de Professer deen mir dës Method geléiert huet.

Ech hat zwee verschidde Modeller (zwee schwaach Training Algorithmen) mat Metriken eraus-vun-Prouf R² gläich wéi 0,90 respektiv 0,93. Ier ech d'Resultat kucken, hunn ech geduecht datt ech en R² iergendwou tëscht deenen zwee urspréngleche Wäerter géif kréien. An anere Wierder, ech hunn gegleeft datt EL benotzt ka ginn fir e Modell ze maachen net esou schlecht wéi de schlëmmste Modell, awer net sou gutt wéi de beschte Modell kéint leeschten.

Zu menger grousser Iwwerraschung, einfach d'Moyenne vun de Prognosen huet e R² vun 0,95 erausginn. 

Fir d'éischt hunn ech ugefaang no de Feeler ze sichen, awer dunn hunn ech geduecht datt et hei eng Magie verstoppt!

Wat ass Ensemble Learning

Mat EL kënnt Dir d'Prognosen vun zwee oder méi Modeller kombinéieren fir e méi robusten a performante Modell ze produzéieren. Et gi vill Methodologien fir mat Modellensemblen ze schaffen. Hei wäert ech op déi zwee nëtzlechst beréieren fir en Iwwerbléck ze ginn.

Mat der Hëllef vun Réckgang et ass méiglech d'Performance vun verfügbare Modeller duerchschnëttlech ze maachen.

Mat der Hëllef vun Klassifikatioun Dir kënnt Modeller d'Méiglechkeet ginn Etiketten ze wielen. De Label deen am meeschten gewielt gouf ass deen dee vum neie Modell gewielt gëtt.

Firwat EL funktionnéiert besser

Den Haaptgrond firwat EL besser leeft ass datt all Prognose e Feeler huet (mir wëssen dat aus der Wahrscheinlechkeetstheorie), zwee Prognosen ze kombinéieren kann hëllefen de Feeler ze reduzéieren, an dofir d'Leeschtungsmetriken verbesseren (RMSE, R², etc.). d.).

Déi folgend Diagramm weist wéi zwee schwaach Algorithmen op engem Datesaz funktionnéieren. Den éischten Algorithmus huet e méi groussen Hang wéi néideg, während deen zweeten bal Null huet (méiglecherweis wéinst Iwwerregulariséierung). Mee Ensembel weist vill besser Resultater. 

Wann Dir de R² Indikator kuckt, da fir den éischten an zweeten Training Algorithmus ass et gläich op -0.01¹, 0.22, respektiv, während fir den Ensembel gläich wéi 0.73.

D'Magie vum Ensemble Learning

Et gi vill Grënn firwat en Algorithmus e schlechte Modell ka sinn och op engem Basis Beispill wéi dëst: vläicht hutt Dir decidéiert Regulariséierung ze benotzen fir Iwwerfitting ze vermeiden, oder Dir hutt decidéiert e puer Anomalien net auszeschléissen, oder vläicht hutt Dir polynomial Regressioun benotzt an déi falsch gemaach. Grad (zum Beispill hu mir e Polynom vum zweete Grad benotzt, an d'Testdaten weisen eng kloer Asymmetrie fir déi den drëtte Grad besser wier).

Wann EL funktionnéiert besser

Loosst eis zwee Léieralgorithmen kucken, déi mat deene selwechte Donnéeën schaffen.

D'Magie vum Ensemble Learning

Hei gesitt Dir datt d'Kombinatioun vun deenen zwee Modeller d'Performance net vill verbessert huet. Am Ufank, fir déi zwee Trainingsalgorithmen, waren d'R² Indikatoren d'selwecht wéi -0,37 respektiv 0,22, a fir den Ensembel war et -0,04. Dat ass, den EL Modell krut den Duerchschnëttswäert vun den Indikatoren.

Wéi och ëmmer, et gëtt e groussen Ënnerscheed tëscht dësen zwee Beispiller: am éischte Beispill waren d'Modelfehler negativ korreléiert, an am zweeten si se positiv korreléiert (d'Koeffizienten vun den dräi Modeller goufen net geschätzt, awer einfach gewielt vun der Auteur als Beispill.)

Dofir kann Ensemble Learning benotzt ginn fir de Bias / Varianz Gläichgewiicht op jidde Fall ze verbesseren, awer wéini Modellfehler sinn net positiv korreléiert, d'Benotzung vun EL kann zu enger verbesserter Leeschtung féieren.

Homogen an heterogen Modeller

Ganz dacks gëtt EL op homogene Modeller benotzt (wéi an dësem Beispill oder zoufälleg Bësch), awer tatsächlech kënnt Dir verschidde Modeller kombinéieren (linear Regressioun + Neural Netzwierk + XGBoost) mat verschiddene Sätz vun Erklärungsvariablen. Dëst wäert méiglecherweis zu onkorreléierte Feeler a verbessert Leeschtung féieren.

Verglach mat Portfolio Diversifikatioun

EL funktionnéiert ähnlech wéi Diversifikatioun an der Portfoliotheorie, awer sou vill besser fir eis. 

Wann Dir diversifizéiert, probéiert Dir d'Varianz vun Ärer Leeschtung ze reduzéieren andeems Dir an onkorreléiert Aktien investéiert. E gutt diversifizéierte Portfolio vun Aktien wäert besser Leeschtunge wéi déi schlëmmst individuell Aktie, awer ni besser wéi déi bescht.

Fir de Warren Buffett ze zitéieren: 

"Diversifikatioun ass eng Verteidegung géint Ignoranz; fir een deen net weess wat hie mécht, mécht et [Diversifikatioun] ganz wéineg Sënn."

Am Maschinnléieren hëlleft EL d'Varianz vun Ärem Modell ze reduzéieren, awer et kann zu engem Modell mat enger Gesamtleeschtung besser ginn wéi dee beschten originelle Modell.

Loosst eis d'Resultater summen

Multiple Modeller an een ze kombinéieren ass eng relativ einfach Technik déi dozou féieren kann de Problem vun der Varianzbias ze léisen an d'Performance ze verbesseren.

Wann Dir zwee oder méi Modeller hutt déi gutt funktionnéieren, wielt net tëscht hinnen: benotzt se all (awer mat Vorsicht)!

Interesséiert an dëser Richtung ze entwéckelen? Aschreiwen fir eng gratis Demo Lektioun "Output vun ML Modeller an en industriellt Ëmfeld mam Beispill vun Online Empfehlungen" an deelhuelen Online Reunioun mam Andrey Kuznetsov - Machine Learning Engineer bei Mail.ru Group.

Source: will.com

Setzt e Commentaire