Az egyik leghasznosabb és legegyszerűbb gépi tanulási módszer az Ensemble Learning. Az Ensemble Learning az XGBoost, a Bagging, a Random Forest és sok más algoritmus mögött álló módszer.
Sok nagyszerű cikk van az Adattudomány felé, de én két történetet választottam (első и második), ami a legjobban tetszett. Akkor miért írjunk még egy cikket az EL-ről? Mert meg akarom mutatni hogyan működik egy egyszerű példával, amitől megértettem, hogy itt nincs varázslat.
Amikor először láttam az EL-t működés közben (nagyon egyszerű regressziós modellekkel dolgozva), nem hittem a szememnek, és még mindig emlékszem a professzorra, aki megtanította ezt a módszert.
Két különböző modellem volt (két gyenge képzési algoritmus) metrikákkal mintán kívüli R² 0,90 és 0,93. Mielőtt megvizsgáltam az eredményt, arra gondoltam, hogy valahol a két eredeti érték között kapok egy R²-t. Más szóval, úgy gondoltam, hogy az EL-t fel lehet használni arra, hogy egy modell ne teljesítsen olyan gyengén, mint a legrosszabb modell, de nem is olyan jól, mint a legjobb modell.
Nagy meglepetésemre az előrejelzések egyszerű átlagolása 0,95 R²-t eredményezett.
Először elkezdtem keresni a hibát, de aztán arra gondoltam, hogy itt valami varázslat rejtőzhet!
Mi az Ensemble Learning
Az EL-vel két vagy több modell előrejelzéseit kombinálhatja robusztusabb és hatékonyabb modell létrehozásához. Számos módszer létezik a modellegyüttesekkel való munkavégzésre. Itt a két leghasznosabbat érintem, hogy áttekintést adjak.
-Val regresszió lehetséges a rendelkezésre álló modellek teljesítményének átlagolása.
-Val osztályozás Lehetőséget adhat a modelleknek címkék kiválasztására. A leggyakrabban választott címkét az új modell fogja választani.
Miért működik jobban az EL?
A fő ok, amiért EL teljesít jobban, az az, hogy minden előrejelzésben van hiba (ezt a valószínűségszámításból tudjuk), két előrejelzés kombinálása csökkentheti a hibát, és ezáltal javíthatja a teljesítménymutatókat (RMSE, R² stb.). d.).
A következő diagram bemutatja, hogyan működik két gyenge algoritmus egy adatkészleten. Az első algoritmus a szükségesnél nagyobb meredekségű, míg a második majdnem nulla (talán a túlszabályozás miatt). De együttes sokkal jobb eredményeket mutat.
Ha megnézi az R² mutatót, akkor az első és a második képzési algoritmus esetében ez rendre -0.01¹, 0.22, míg az együttesnél 0.73 lesz.
Sok oka lehet annak, hogy egy algoritmus rossz modell lehet még egy ilyen alappéldán is: lehet, hogy úgy döntöttél, hogy regularizálást használsz a túlillesztés elkerülése érdekében, vagy úgy döntöttél, hogy nem zársz ki néhány anomáliát, esetleg polinomiális regressziót használtál, és rosszul döntöttél. fok (például , másodfokú polinomot használtunk, és a tesztadatok egyértelmű aszimmetriát mutatnak, amelyre a harmadik fok lenne alkalmasabb).
Amikor az EL jobban működik
Nézzünk meg két tanulási algoritmust, amelyek ugyanazokkal az adatokkal dolgoznak.
Itt látható, hogy a két modell kombinálása nem sokat javított a teljesítményen. Kezdetben a két képzési algoritmus esetében az R²-mutatók -0,37 és 0,22, az együttes esetében pedig -0,04. Azaz az EL modell megkapta a mutatók átlagértékét.
A két példa között azonban van egy nagy különbség: az első példában a modellhibák negatívan, a másodikban pedig pozitívan korreláltak (a három modell együtthatóit nem becsülték meg, hanem egyszerűen kiválasztották a modellhibákat). példaként a szerző.)
Ezért az Ensemble Learning minden esetben használható a torzítás/szórás egyensúly javítására, de mikor A modellhibák nem korrelálnak pozitívan, az EL használata jobb teljesítményhez vezethet.
Homogén és heterogén modellek
Nagyon gyakran használják az EL-t homogén modelleken (mint ebben a példában vagy véletlenszerű erdőben), de valójában kombinálhat különböző modelleket (lineáris regresszió + neurális hálózat + XGBoost) különböző magyarázó változókkal. Ez valószínűleg nem korrelált hibákat és jobb teljesítményt eredményez.
Összehasonlítás a portfólió diverzifikációjával
Az EL a portfólióelméletben a diverzifikációhoz hasonlóan működik, de nekünk annál jobb.
A diverzifikáció során nem korrelált részvényekbe fektetve próbálja csökkenteni a teljesítménye szórását. A jól diverzifikált részvényportfólió jobban teljesít, mint a legrosszabb egyedi részvény, de soha nem jobban, mint a legjobb.
Warren Buffettet idézve:
„A diverzifikáció védekezés a tudatlanság ellen; annak, aki nem tudja, mit csinál, annak [a diverzifikációnak] nagyon kevés értelme van.”
A gépi tanulásban az EL segít csökkenteni a modell varianciáját, de olyan modellt eredményezhet, amelynek általános teljesítménye jobb, mint a legjobb eredeti modellé.
Összefoglalva:
Több modell egyesítése egy viszonylag egyszerű technika, amely a variancia torzítás problémájának megoldásához és a teljesítmény javításához vezethet.
Ha van két vagy több jól működő modelled, ne válassz közülük: használd mindegyiket (de óvatosan)!