The Magic of Ensemble Learning

Hæ Habr! Við bjóðum gagnaverkfræðingum og vélanámssérfræðingum í ókeypis kynningartíma „Framleiðsla ML líkana í iðnaðarumhverfi með því að nota dæmi um ráðleggingar á netinu“. Við birtum einnig greinina Luca Monno - yfirmaður fjármálagreiningar hjá CDP SpA.

Ein gagnlegasta og einfaldasta vélanámsaðferðin er Ensemble Learning. Ensemble Learning er aðferðin á bak við XGBoost, Bagging, Random Forest og mörg önnur reiknirit.

Það eru margar frábærar greinar um Towards Data Science, en ég valdi tvær sögur (fyrst и Second) sem mér líkaði best við. Svo af hverju að skrifa aðra grein um EL? Vegna þess að ég vil sýna þér hvernig það virkar með einföldu dæmi, sem fékk mig til að skilja að hér er enginn galdur.

Þegar ég sá EL fyrst í verki (vinna með mjög einföld aðhvarfslíkön) trúði ég ekki mínum eigin augum og man enn eftir prófessornum sem kenndi mér þessa aðferð.

Ég var með tvær mismunandi gerðir (tvö veik þjálfunaralgrím) með mæligildum utan úrtaks R² jafnt og 0,90 og 0,93, í sömu röð. Áður en ég skoðaði niðurstöðuna hélt ég að ég myndi fá R² einhvers staðar á milli upprunalegu gildanna tveggja. Með öðrum orðum, ég trúði því að hægt væri að nota EL til að láta líkan standa sig ekki eins illa og versta líkanið, en ekki eins vel og besta líkanið gæti staðið sig.

Mér til mikillar undrunar, einfaldlega að meðaltal spánna gaf R² upp á 0,95. 

Fyrst byrjaði ég að leita að villunni en svo hugsaði ég að hér gæti leynst einhver töfrar!

Hvað er Ensemble Learning

Með EL geturðu sameinað spár tveggja eða fleiri gerða til að framleiða öflugri og afkastameiri líkan. Það eru margar aðferðir til að vinna með módelsamstæður. Hér mun ég snerta þau tvö gagnlegustu til að gefa yfirsýn.

Með afturför það er hægt að miða af frammistöðu tiltækra gerða.

Með flokkun Þú getur gefið módelum tækifæri til að velja merki. Merkið sem var valið oftast er það sem verður fyrir valinu af nýju gerðinni.

Hvers vegna EL virkar betur

Aðalástæðan fyrir því að EL skilar betri árangri er sú að sérhver spá hefur villu (við þekkjum þetta úr líkindafræði), að sameina tvær spár getur hjálpað til við að draga úr villunni og þar af leiðandi bæta árangursmælingar (RMSE, R², osfrv.). d.).

Eftirfarandi skýringarmynd sýnir hvernig tvö veik reiknirit virka á gagnasafni. Fyrsta reikniritið hefur meiri halla en þörf krefur, en hið síðara hefur næstum núll (hugsanlega vegna ofreglusetningar). En Ensemble sýnir mun betri árangur. 

Ef þú horfir á R² vísirinn, þá mun það fyrir fyrsta og annað þjálfunaralgrím vera jafnt -0.01¹, 0.22, í sömu röð, en fyrir ensemble mun það vera jafnt og 0.73.

The Magic of Ensemble Learning

Það eru margar ástæður fyrir því að reiknirit getur verið slæmt líkan, jafnvel á grunndæmi eins og þessu: kannski ákvaðstu að nota reglusetningu til að forðast offitun, eða þú ákvaðst að útiloka ekki einhver frávik, eða kannski notaðir þú margliða aðhvarf og fórst með rangt mál. gráðu (til dæmis notuðum við margliðu af annarri gráðu og prófunargögnin sýna skýra ósamhverfu sem þriðja gráðu myndi henta betur).

Þegar EL virkar betur

Við skulum skoða tvö námsalgrím sem vinna með sömu gögnin.

The Magic of Ensemble Learning

Hér geturðu séð að sameining þessara tveggja gerða bætti afköst ekki mikið. Upphaflega, fyrir þjálfunaralgrímin tvö, voru R² vísarnir jafnir og -0,37 og 0,22, í sömu röð, og fyrir hópinn reyndist það vera -0,04. Það er, EL líkanið fékk meðalgildi vísanna.

Hins vegar er mikill munur á þessum tveimur dæmum: í fyrra dæminu voru líkanskekkjur neikvæða fylgni og í því seinna voru þær jákvæðar (stuðlar módelanna þriggja voru ekki metnir, heldur voru þeir einfaldlega valdir af höfundur sem dæmi.)

Þess vegna er hægt að nota Ensemble Learning til að bæta hlutdrægni / dreifni jafnvægi í öllum tilvikum, en hvenær Líkönvillur hafa ekki jákvæða fylgni, notkun EL getur leitt til bættrar frammistöðu.

Einsleit og misleit líkön

Mjög oft er EL notað á einsleit líkön (eins og í þessu dæmi eða tilviljanakenndum skógi), en í raun er hægt að sameina mismunandi líkön (línuleg aðhvarf + tauganet + XGBoost) með mismunandi settum skýringarbreyta. Þetta mun líklega leiða til ósamræmdra villna og betri árangurs.

Samanburður við dreifingu eignasafns

EL virkar svipað og fjölbreytni í eignasafnsfræði, en svo miklu betra fyrir okkur. 

Þegar þú ert að auka fjölbreytni reynirðu að draga úr fráviki frammistöðu þinnar með því að fjárfesta í ófylgni hlutabréfa. Vel dreifð eignasafn hlutabréfa mun skila betri árangri en versta einstaka hlutabréfið, en aldrei betur en það besta.

Til að vitna í Warren Buffett: 

„Fjölbreytni er vörn gegn fáfræði; fyrir einhvern sem veit ekki hvað hann er að gera er [fjölbreytni] mjög lítið vit í því.

Í vélanámi hjálpar EL að draga úr dreifni líkansins þíns, en það getur leitt til líkans með heildarframmistöðu betri en besta upprunalega gerðin.

Summa upp

Að sameina margar gerðir í eitt er tiltölulega einföld tækni sem getur leitt til þess að leysa vandamálið með dreifni hlutdrægni og bæta árangur.

Ef þú ert með tvær eða fleiri gerðir sem virka vel skaltu ekki velja á milli þeirra: notaðu þær allar (en með varúð)!

Hefur þú áhuga á að þróast í þessa átt? Skráðu þig í ókeypis kynningartíma „Framleiðsla ML líkana í iðnaðarumhverfi með því að nota dæmi um ráðleggingar á netinu“ og taka þátt í netfundur með Andrey Kuznetsov — Machine Learning Engineer hjá Mail.ru Group.

Heimild: www.habr.com

Bæta við athugasemd