Magic Ensemble Learning

Hey Habr! Manasa ny Injeniera Data sy ny manam-pahaizana momba ny fianarana milina izahay amin'ny lesona Demo maimaim-poana "Famoahana ny maodely ML amin'ny tontolo indostrialy mampiasa ny ohatra amin'ny tolo-kevitra an-tserasera". Izahay koa dia mamoaka ny lahatsoratra Luca Monno - Lehiben'ny Fanadihadiana ara-bola ao amin'ny CDP SpA.

Iray amin'ireo fomba fianarana milina tena ilaina sy tsotra ny Ensemble Learning. Ensemble Learning no fomba ao ambadiky ny XGBoost, Bagging, Random Forest ary algorithm maro hafa.

Betsaka ny lahatsoratra tsara momba ny Towards Data Science, saingy nisafidy tantara roa aho (voalohany ΠΈ ny faharoa) izay tiako indrindra. Ka maninona no manoratra lahatsoratra hafa momba ny EL? Satria tiako haseho anao ny fomba fiasa miaraka amin'ny ohatra tsotra, izay no nahatakatra ahy fa tsy misy ody eto.

Raha vao nahita an'i EL tamin'ny hetsika aho (miara-miasa amin'ny maodely regression tena tsotra) dia tsy nino ny masoko aho, ary mbola tadidiko ilay profesora nampianatra ahy io fomba io.

Nanana modely roa samihafa aho (algorithm fanofanana roa malemy) miaraka amin'ny metrika tsy santionany RΒ² mitovy amin'ny 0,90 sy 0,93, tsirairay avy. Talohan'ny nijereko ny valiny dia nieritreritra aho fa hahazo RΒ² eo anelanelan'ireo soatoavina roa tany am-boalohany. Raha lazaina amin'ny teny hafa, nino aho fa ny EL dia azo ampiasaina amin'ny fanaovana modely tsy dia ratsy toy ny modely ratsy indrindra, fa tsy toy ny modely tsara indrindra.

Nahagaga ahy fa ny faminaniany fotsiny dia nahazo RΒ² an'ny 0,95. 

Nanomboka nitady ilay fahadisoana aho tamin'ny voalohany, fa avy eo dia nieritreritra aho fa mety hisy ody miafina eto!

Inona no atao hoe Ensemble Learning

Miaraka amin'ny EL, azonao atao ny manambatra ny vinavinan'ny modely roa na maromaro mba hamokarana maodely matanjaka sy mahomby kokoa. Misy fomba maro miasa amin'ny ensembles modely. Eto aho dia hikasika ireo roa mahasoa indrindra hanomezana topimaso.

Amin'ny fanampian'ny ny fihemoran'ny azo atao ny manao antonony ny fahombiazan'ny modely misy.

Amin'ny fanampian'ny fisokajiana Azonao atao ny manome modely ny fahafahana misafidy etikety. Ny mari-pamantarana izay nofidina matetika dia ilay hofidian'ny modely vaovao.

Nahoana no miasa tsara kokoa ny EL

Ny antony lehibe mahatonga ny EL ho tsara kokoa dia satria misy hadisoana ny vinavina rehetra (fantatsika avy amin'ny teorian'ny probabilitΓ© izany), ny fampifangaroana vinavina roa dia afaka manampy amin'ny fampihenana ny fahadisoana, ary noho izany dia manatsara ny mari-pandrefesana (RMSE, RΒ², sns.). d.).

Ity kisary manaraka ity dia mampiseho ny fomba fiasan'ny algorithm roa malemy amin'ny fitambaran'ny angona. Ny algorithm voalohany dia manana fisondrotana lehibe kokoa noho ny ilaina, raha ny faharoa kosa dia saika aotra (mety ho noho ny fandrindrana tafahoatra). SAINGY Ensemble mampiseho vokatra tsara lavitra. 

Raha mijery ny mari-pamantarana RΒ² ianao, dia ho an'ny algorithm fanofanana voalohany sy faharoa dia mitovy amin'ny -0.01ΒΉ, 0.22, ary ho an'ny Ensemble dia mitovy amin'ny 0.73.

Magic Ensemble Learning

Betsaka ny antony mahatonga ny algorithm iray ho modely ratsy na dia amin'ny ohatra fototra toy izao aza: mety nanapa-kevitra ny hampiasa ny regularization ianao mba hisorohana ny overfitting, na nanapa-kevitra ny tsy hanaisotra ny anomalies sasany ianao, na mety nampiasa regression polynomial ianao ka diso. mari-pahaizana (ohatra, nampiasa polynomial amin'ny ambaratonga faharoa izahay, ary ny angon-drakitra fitsapana dia mampiseho asymmetry mazava tsara izay mety tsara kokoa amin'ny ambaratonga fahatelo).

Rehefa miasa tsara kokoa ny EL

Andeha hojerentsika ny algorithm fianarana roa miasa miaraka amin'ny angona mitovy.

Magic Ensemble Learning

Eto ianao dia afaka mahita fa tsy nanatsara ny fampisehoana ny fampiarahana ireo modely roa ireo. Tamin'ny voalohany, ho an'ny algorithm fanofanana roa, ny mari-pamantarana RΒ² dia mitovy amin'ny -0,37 sy 0,22, ary ho an'ny Ensemble dia -0,04. Izany hoe, ny modely EL dia nahazo ny sandan'ny salan'isa amin'ny tondro.

Na izany aza, misy fahasamihafana lehibe eo amin'ireo ohatra roa ireo: ao amin'ny ohatra voalohany, ny hadisoan'ny modely dia mifamatotra amin'ny lafiny ratsy, ary amin'ny faharoa, dia mifamatotra tsara izy ireo (ny coefficients amin'ireo modely telo dia tsy novinavinaina, fa nofidin'ny ohatra ny mpanoratra.)

Noho izany, ny Ensemble Learning dia azo ampiasaina hanatsarana ny fifandanjana mitongilana / variana amin'ny tranga rehetra, fa rehefa Ny fahadisoana modely dia tsy mifandray tsara, ny fampiasana EL dia mety hitarika ho amin'ny fanatsarana ny fampisehoana.

Modely homogeneous sy heterogène

Matetika ny EL dia ampiasaina amin'ny maodely homogeneous (toy ny amin'ity ohatra ity na ala kisendrasendra), fa raha ny marina dia azonao atao ny manambatra ny modely isan-karazany (linear regression + neural network + XGBoost) miaraka amin'ny andian-dahatsoratra samihafa manazava. Mety hiteraka hadisoana tsy misy ifandraisany izany ary hanatsara ny fampisehoana.

Ampitahao amin'ny diversification portfolio

Ny EL dia miasa mitovy amin'ny diversification amin'ny teoria portfolio, saingy tsara kokoa ho antsika. 

Rehefa manao diversification ianao dia miezaka ny mampihena ny fiovaovan'ny zava-bitanao amin'ny fampiasam-bola amin'ny tahiry tsy misy ifandraisany. Ny portfolio misy tahiry isan-karazany dia hanao tsara kokoa noho ny tahiry tsirairay ratsy indrindra, fa tsy ho tsara kokoa noho ny tsara indrindra.

Manonona an'i Warren Buffett: 

"Ny fahasamihafana dia fiarovana amin'ny tsy fahalalana; ho an'ny olona tsy mahalala izay ataony, dia tsy misy dikany izany [fahasamihafana]."

Ao amin'ny fianarana milina, ny EL dia manampy amin'ny fampihenana ny fiovaovan'ny modelyo, saingy mety hiteraka modely manana fampisehoana ankapobeny tsara kokoa noho ny modely tany am-boalohany tsara indrindra.

Andao hojerentsika ny vokatra

Ny fampifangaroana modely maromaro ho iray dia teknika somary tsotra izay mety hitarika amin'ny famahana ny olan'ny fitongilanana miovaova sy ny fanatsarana ny fampisehoana.

Raha manana modely roa na maromaro miasa tsara ianao dia aza misafidy amin'izy ireo: ampiasao izy rehetra (fa amin'ny fitandremana)!

Liana amin'ny fampandrosoana amin'io lalana io ve ianao? Misoratra anarana amin'ny lesona Demo maimaim-poana "Famoahana ny maodely ML amin'ny tontolo indostrialy mampiasa ny ohatra amin'ny tolo-kevitra an-tserasera" ary mandray anjara amin'ny fihaonana an-tserasera miaraka amin'i Andrey Kuznetsov β€” Engineer Learning Engineer ao amin'ny Mail.ru Group.

Source: www.habr.com

Add a comment