Mësimi i Ansamblit Magjik

Hej Habr! Ne ftojmë Inxhinierët e të Dhënave dhe specialistët e Mësimit të Makinerisë në një leksion demonstrimi falas "Futja e modeleve ML në mjedisin industrial duke përdorur shembullin e rekomandimeve në internet". Ne gjithashtu publikojmë një artikull nga Luca Monno - Drejtor i Analitikës Financiare në CDP SpA.

Një nga metodat më të dobishme dhe më të thjeshta të mësimit të makinerive është Mësimi i Ansambleve. Mësimi i Ansamblit është teknika themelore për XGBoost, Bagging, Random Forest dhe shumë algoritme të tjera.

Ka shumë artikuj të shkëlqyeshëm për drejt shkencës së të dhënave, por unë zgjodha dy histori (i parë и i dytë) që më pëlqeu më shumë. Pra, pse të shkruani një artikull tjetër për EL? Sepse dua t'ju tregoj si funksionon në një shembull të thjeshtë, që më bëri të kuptoj se këtu nuk ka magji.

Kur pashë për herë të parë EL-në në veprim (duke punuar me disa modele shumë të thjeshta regresioni) nuk mund t'u besoja syve dhe ende mbaj mend profesorin që më mësoi këtë metodë.

Unë kisha dy modele të ndryshme (dy algoritme të dobëta të të mësuarit) me eksponentë jashtë kampionit R² e barabartë me 0,90 dhe 0,93 respektivisht. Para se të shikoja rezultatin, mendova se do të merrja R² diku midis dy vlerave fillestare. Me fjalë të tjera, mendova se EL mund të përdoret për ta bërë modelin të mos performojë aq keq sa modeli më i keq, por jo aq mirë sa modeli më i mirë.

Për habinë time të madhe, rezultatet e një mesatareje të thjeshtë të parashikimeve dhanë një R² prej 0,95. 

Fillimisht fillova të kërkoja një gabim, por më pas mendova se këtu mund të fshihej ndonjë magji!

Çfarë është Ansamble Learning

Me EL, ju mund të kombinoni parashikimet e dy ose më shumë modeleve për të marrë një model më të besueshëm dhe performues. Ka shumë metodologji për të punuar me ansamble modelesh. Këtu do të prek dy më të dobishmet për t'ju dhënë një ide.

Me regresioni ju mund të mesatarizoni performancën e modeleve të disponueshme.

Me klasifikimi ju mund t'i lini modelet të zgjedhin etiketat. Etiketa që është zgjedhur më shpesh është ajo që do të zgjedhë modeli i ri.

Pse EL funksionon më mirë

Arsyeja kryesore pse EL funksionon më mirë është sepse çdo parashikim ka një gabim (ne e dimë këtë nga teoria e probabilitetit), kombinimi i dy parashikimeve mund të ndihmojë në zvogëlimin e gabimit dhe në këtë mënyrë përmirësimin e treguesve të performancës (RMSE, R², etj.). d.).

Diagrami i mëposhtëm tregon se si funksionojnë dy algoritme të dobëta në një grup të dhënash. Algoritmi i parë ka një pjerrësi më të madhe se sa duhet, ndërsa i dyti ka pothuajse zero (ndoshta për shkak të rregullimit të tepruar). Por ansambël tregon rezultate më të mira. 

Nëse shikoni R², atëherë algoritmi i parë dhe i dytë i trajnimit do ta kenë të barabartë me -0.01¹, 0.22, përkatësisht, ndërsa për ansamblin do të jetë i barabartë me 0.73.

Mësimi i Ansamblit Magjik

Ka shumë arsye pse një algoritëm mund të jetë një model i dobët edhe për një shembull bazë si ky: ndoshta keni vendosur të përdorni rregullimin për të shmangur mbipërshtatjen, ose keni vendosur të mos eliminoni disa anomali, ose ndoshta keni përdorur regresionin polinomial dhe keni zgjedhur shkallën e gabuar (për shembull, përdoret një polinom i shkallës së dytë, dhe të dhënat e testit tregojnë një asimetri të qartë, për të cilën shkalla e tretë do të ishte më e përshtatshme).

Kur EL funksionon më mirë

Le të shohim dy algoritme mësimore që punojnë në të njëjtat të dhëna.

Mësimi i Ansamblit Magjik

Këtu mund të shihni se kombinimi i dy modeleve nuk përmirësoi shumë performancën. Fillimisht, për dy algoritmet e trajnimit, vlerat R² ishin përkatësisht -0,37 dhe 0,22, dhe për ansamblin doli të ishte -0,04. Kjo do të thotë, modeli EL mori vlerën mesatare të treguesve.

Sidoqoftë, ekziston një ndryshim i madh midis këtyre dy shembujve: në shembullin e parë, gabimet e modeleve ishin të korreluara negativisht, dhe në të dytin - pozitivisht (koeficientët e tre modeleve nuk u vlerësuan, por thjesht u zgjodhën nga autori si nje shembull.)

Prandaj, Mësimi i Ansamblit mund të përdoret për të përmirësuar balancën e paragjykimit/dispersionit në të gjitha rastet, por kur Gabimet e modelit nuk lidhen pozitivisht, përdorimi i EL mund të çojë në performancë më të mirë.

Modele homogjene dhe heterogjene

Shumë shpesh EL përdoret në modele homogjene (si në këtë shembull ose pyll i rastësishëm), por në fakt ju mund të kombinoni modele të ndryshme (regresion linear + rrjet nervor + XGBoost) me grupe të ndryshme variablash shpjegues. Kjo ka të ngjarë të çojë në gabime të pakorreluara dhe të përmirësojë performancën.

Krahasimi me diversifikimin e portofolit

EL punon në një mënyrë të ngjashme me diversifikimin në teorinë e portofolit, por aq më mirë për ne. 

Kur diversifikoni, përpiqeni të zvogëloni variancën në performancën tuaj duke investuar në aksione të pakorreluara. Një portofol i mirë-diversifikuar aksionesh do të performojë më mirë se aksioni më i keq i vetëm, por kurrë më mirë se më i miri.

Duke cituar Warren Buffett: 

"Diversifikimi është një mbrojtje kundër injorancës, për dikë që nuk e di se çfarë po bën, [diversifikimi] ka shumë pak kuptim."

Në mësimin e makinerive, EL ndihmon në reduktimin e variancës së modelit tuaj, por kjo mund të rezultojë në një model me performancë të përgjithshme më të mirë se modeli fillestar më i mirë.

Përmbledh

Kombinimi i modeleve të shumta në një është një teknikë relativisht e thjeshtë që mund të çojë në një zgjidhje të problemit të paragjykimit të variancës dhe përmirësim të performancës.

Nëse keni dy ose më shumë modele që funksionojnë mirë, mos zgjidhni midis tyre: përdorni të gjitha (por me kujdes)!

Jeni të interesuar të zhvilloheni në këtë drejtim? Regjistrohu për një mësim demo falas "Futja e modeleve ML në mjedisin industrial duke përdorur shembullin e rekomandimeve në internet" dhe marrin pjesë në takim online me Andrey Kuznetsov - Inxhinier i mësimit të makinerisë në Mail.ru Group.

Burimi: www.habr.com

Shto një koment