Varázsegyüttes tanulás

Szia Habr! Meghívjuk az adatmérnököket és a gépi tanulási szakembereket egy ingyenes bemutatóórára „ML modellek ipari környezetbe való bevitele online ajánlások példáján”. Megjelent Luca Monno – a CDP SpA pénzügyi elemzési részlegének vezetője című cikke is.

Az egyik leghasznosabb és legegyszerűbb gépi tanulási módszer az Ensemble Learning. Az Ensemble Learning az XGBoost, a Bagging, a Random Forest és sok más algoritmus mögött álló módszer.

Sok nagyszerű cikk van az Adattudomány felé, de én két történetet választottam (első и második), ami a legjobban tetszett. Akkor miért írjunk még egy cikket az EL-ről? Mert meg akarom mutatni hogyan működik egy egyszerű példával, amitől megértettem, hogy itt nincs varázslat.

Amikor először láttam az EL-t működés közben (nagyon egyszerű regressziós modellekkel dolgozva), nem hittem a szememnek, és még mindig emlékszem a professzorra, aki megtanította ezt a módszert.

Két különböző modellem volt (két gyenge képzési algoritmus) metrikákkal mintán kívüli R² 0,90 és 0,93. Mielőtt megvizsgáltam az eredményt, arra gondoltam, hogy valahol a két eredeti érték között kapok egy R²-t. Más szóval, úgy gondoltam, hogy az EL-t fel lehet használni arra, hogy egy modell ne teljesítsen olyan gyengén, mint a legrosszabb modell, de nem is olyan jól, mint a legjobb modell.

Nagy meglepetésemre az előrejelzések egyszerű átlagolása 0,95 R²-t eredményezett. 

Először elkezdtem keresni a hibát, de aztán arra gondoltam, hogy itt valami varázslat rejtőzhet!

Mi az Ensemble Learning

Az EL-vel két vagy több modell előrejelzéseit kombinálhatja robusztusabb és hatékonyabb modell létrehozásához. Számos módszer létezik a modellegyüttesekkel való munkavégzésre. Itt a két leghasznosabbat érintem, hogy áttekintést adjak.

-Val regresszió lehetséges a rendelkezésre álló modellek teljesítményének átlagolása.

-Val osztályozás Lehetőséget adhat a modelleknek címkék kiválasztására. A leggyakrabban választott címkét az új modell fogja választani.

Miért működik jobban az EL?

A fő ok, amiért EL teljesít jobban, az az, hogy minden előrejelzésben van hiba (ezt a valószínűségszámításból tudjuk), két előrejelzés kombinálása csökkentheti a hibát, és ezáltal javíthatja a teljesítménymutatókat (RMSE, R² stb.). d.).

A következő diagram bemutatja, hogyan működik két gyenge algoritmus egy adatkészleten. Az első algoritmus a szükségesnél nagyobb meredekségű, míg a második majdnem nulla (talán a túlszabályozás miatt). De együttes sokkal jobb eredményeket mutat. 

Ha megnézi az R² mutatót, akkor az első és a második képzési algoritmus esetében ez rendre -0.01¹, 0.22, míg az együttesnél 0.73 lesz.

Varázsegyüttes tanulás

Sok oka lehet annak, hogy egy algoritmus rossz modell lehet még egy ilyen alappéldán is: lehet, hogy úgy döntöttél, hogy regularizálást használsz a túlillesztés elkerülése érdekében, vagy úgy döntöttél, hogy nem zársz ki néhány anomáliát, esetleg polinomiális regressziót használtál, és rosszul döntöttél. fok (például , másodfokú polinomot használtunk, és a tesztadatok egyértelmű aszimmetriát mutatnak, amelyre a harmadik fok lenne alkalmasabb).

Amikor az EL jobban működik

Nézzünk meg két tanulási algoritmust, amelyek ugyanazokkal az adatokkal dolgoznak.

Varázsegyüttes tanulás

Itt látható, hogy a két modell kombinálása nem sokat javított a teljesítményen. Kezdetben a két képzési algoritmus esetében az R²-mutatók -0,37 és 0,22, az együttes esetében pedig -0,04. Azaz az EL modell megkapta a mutatók átlagértékét.

A két példa között azonban van egy nagy különbség: az első példában a modellhibák negatívan, a másodikban pedig pozitívan korreláltak (a három modell együtthatóit nem becsülték meg, hanem egyszerűen kiválasztották a modellhibákat). példaként a szerző.)

Ezért az Ensemble Learning minden esetben használható a torzítás/szórás egyensúly javítására, de mikor A modellhibák nem korrelálnak pozitívan, az EL használata jobb teljesítményhez vezethet.

Homogén és heterogén modellek

Nagyon gyakran használják az EL-t homogén modelleken (mint ebben a példában vagy véletlenszerű erdőben), de valójában kombinálhat különböző modelleket (lineáris regresszió + neurális hálózat + XGBoost) különböző magyarázó változókkal. Ez valószínűleg nem korrelált hibákat és jobb teljesítményt eredményez.

Összehasonlítás a portfólió diverzifikációjával

Az EL a portfólióelméletben a diverzifikációhoz hasonlóan működik, de nekünk annál jobb. 

A diverzifikáció során nem korrelált részvényekbe fektetve próbálja csökkenteni a teljesítménye szórását. A jól diverzifikált részvényportfólió jobban teljesít, mint a legrosszabb egyedi részvény, de soha nem jobban, mint a legjobb.

Warren Buffettet idézve: 

„A diverzifikáció védekezés a tudatlanság ellen; annak, aki nem tudja, mit csinál, annak [a diverzifikációnak] nagyon kevés értelme van.”

A gépi tanulásban az EL segít csökkenteni a modell varianciáját, de olyan modellt eredményezhet, amelynek általános teljesítménye jobb, mint a legjobb eredeti modellé.

Összefoglalva:

Több modell egyesítése egy viszonylag egyszerű technika, amely a variancia torzítás problémájának megoldásához és a teljesítmény javításához vezethet.

Ha van két vagy több jól működő modelled, ne válassz közülük: használd mindegyiket (de óvatosan)!

Érdekel ebbe az irányba fejlődni? Iratkozzon fel egy ingyenes bemutató leckére „ML modellek ipari környezetbe való bevitele online ajánlások példáján” és részt venni online találkozó Andrej Kuznyecovval — Gépi tanulási mérnök a Mail.ru csoportnál.

Forrás: will.com

Hozzászólás