Ansambļa mācīŔanās burvība

Čau Habr! Aicinām datu inženierus un maŔīnmācÄ«bas speciālistus uz bezmaksas demonstrācijas nodarbÄ«bu ā€œML modeļu izvade industriālā vidē, izmantojot tieÅ”saistes ieteikumu piemēruā€. Mēs arÄ« publicējam rakstu Luca Monno ā€” CDP SpA finanÅ”u analÄ«zes vadÄ«tājs.

Viena no visnoderÄ«gākajām un vienkārŔākajām maŔīnmācÄ«Å”anās metodēm ir Ensemble Learning. Ensemble Learning ir XGBoost, Bagging, Random Forest un daudzu citu algoritmu pamatā.

Ir daudz lielisku rakstu par datu zinātni, taču es izvēlējos divus stāstus (vispirms Šø otrais), kas man patika visvairāk. Tad kāpēc jātaisa vēl viens raksts par EL? Jo es gribu jums parādÄ«t kā tas darbojas ar vienkārÅ”u piemēru, kas man lika saprast, ka Å”eit nav nekādas maÄ£ijas.

Kad es pirmo reizi ieraudzÄ«ju EL darbÄ«bā (strādājot ar dažiem ļoti vienkārÅ”iem regresijas modeļiem), es neticēju savām acÄ«m, un es joprojām atceros profesoru, kurÅ” man mācÄ«ja Å”o metodi.

Man bija divi dažādi modeļi (divi vāji apmācÄ«bas algoritmi) ar metriku ārpus izlases RĀ² ir vienāds ar attiecÄ«gi 0,90 un 0,93. Pirms rezultāta apskatÄ«Å”anas es domāju, ka iegÅ«Å”u RĀ² kaut kur starp divām sākotnējām vērtÄ«bām. Citiem vārdiem sakot, es ticēju, ka EL var izmantot, lai modelis nedarbotos tik slikti kā sliktākais modelis, bet ne tik labi, kā vislabākais modelis.

Man par lielu pārsteigumu, vienkārÅ”i aprēķinot prognozes, tika iegÅ«ts RĀ² 0,95. 

Sākumā sāku meklēt kļūdu, bet tad nodomāju, ka te varētu būt kāda maģija slēpjas!

Kas ir ansambļa mācīŔanās

Izmantojot EL, varat apvienot divu vai vairāku modeļu prognozes, lai izveidotu stabilāku un veiktspējÄ«gāku modeli. Ir daudz metodoloÄ£iju darbam ar modeļu ansambļiem. Å eit es pieskarÅ”os diviem visnoderÄ«gākajiem, lai sniegtu pārskatu.

Ar regresija ir iespējams aprēķināt vidējo veiktspēju pieejamajiem modeļiem.

Ar klasifikācija Jūs varat dot modeļiem iespēju izvēlēties etiķetes. Visbiežāk izvēlētā etiķete ir tā, kuru izvēlēsies jaunais modelis.

Kāpēc EL darbojas labāk

Galvenais iemesls, kāpēc EL darbojas labāk, ir tas, ka katrā prognozē ir kļūda (mēs to zinām no varbÅ«tÄ«bas teorijas), divu prognožu apvienoÅ”ana var palÄ«dzēt samazināt kļūdu un tādējādi uzlabot veiktspējas rādÄ«tājus (RMSE, RĀ² utt.). d.).

Nākamajā diagrammā parādÄ«ts, kā datu kopā darbojas divi vāji algoritmi. Pirmajam algoritmam ir lielāks slÄ«pums nekā nepiecieÅ”ams, bet otrajam ir gandrÄ«z nulle (iespējams, pārmērÄ«gas regulÄ“Å”anas dēļ). Bet kopā uzrāda daudz labākus rezultātus. 

Ja paskatās uz RĀ² indikatoru, tad pirmajam un otrajam apmācÄ«bas algoritmam tas bÅ«s vienāds ar attiecÄ«gi -0.01Ā¹, 0.22, savukārt ansamblim tas bÅ«s vienāds ar 0.73.

Ansambļa mācīŔanās burvība

Ir daudz iemeslu, kāpēc algoritms var bÅ«t slikts modelis pat tādā pamata piemērā kā Å”is: varbÅ«t jÅ«s nolēmāt izmantot regularizāciju, lai izvairÄ«tos no pārmērÄ«gas pielāgoÅ”anas, vai arÄ« nolēmāt neizslēgt dažas anomālijas, vai varbÅ«t izmantojāt polinoma regresiju un kļūdÄ«jāties. pakāpe (piemēram, mēs izmantojām otrās pakāpes polinomu, un testa dati parāda skaidru asimetriju, kurai treŔā pakāpe bÅ«tu labāk piemērota).

Kad EL darbojas labāk

Apskatīsim divus mācību algoritmus, kas strādā ar vieniem un tiem paŔiem datiem.

Ansambļa mācīŔanās burvība

Å eit redzams, ka abu modeļu apvienoÅ”ana veiktspēju Ä«paÅ”i neuzlaboja. Sākotnēji abiem apmācÄ«bas algoritmiem RĀ² rādÄ«tāji bija attiecÄ«gi -0,37 un 0,22, bet ansamblim tas izrādÄ«jās -0,04. Tas ir, EL modelis saņēma vidējo rādÄ«tāju vērtÄ«bu.

Tomēr starp Å”iem diviem piemēriem pastāv liela atŔķirÄ«ba: pirmajā piemērā modeļa kļūdas bija negatÄ«vi korelētas, bet otrajā tās bija pozitÄ«vi korelētas (trÄ«s modeļu koeficienti netika novērtēti, bet tos vienkārÅ”i izvēlējās autors kā piemērs.)

Tāpēc Ensemble Learning var izmantot, lai uzlabotu novirzes/dispersijas lÄ«dzsvaru jebkurā gadÄ«jumā, bet kad Modeļa kļūdas nav pozitÄ«vi korelētas, EL izmantoÅ”ana var uzlabot veiktspēju.

Homogēni un neviendabīgi modeļi

Ä»oti bieži EL tiek izmantots viendabÄ«gos modeļos (kā Å”ajā piemērā vai nejauŔā mežā), bet patiesÄ«bā jÅ«s varat apvienot dažādus modeļus (lineārā regresija + neironu tÄ«kls + XGBoost) ar dažādām skaidrojoÅ”o mainÄ«go kopām. Tas, iespējams, radÄ«s nekorelētas kļūdas un uzlabos veiktspēju.

Salīdzinājums ar portfeļa diversifikāciju

EL darbojas lÄ«dzÄ«gi kā diversifikācija portfeļa teorijā, taču jo labāk mums. 

Veicot diversifikāciju, jÅ«s mēģināt samazināt savu veiktspējas dispersiju, ieguldot nekorelētās akcijās. Labi diversificēts akciju portfelis darbosies labāk nekā sliktākās atseviŔķas akcijas, taču nekad labāks par labāko.

Citējot Vorenu Bafetu: 

"Daiversifikācija ir aizsardzÄ«ba pret nezināŔanu; kādam, kas nezina, ko dara, tai [dažādÄ«bai] ir ļoti maz jēgas."

MaŔīnmācÄ«bā EL palÄ«dz samazināt jÅ«su modeļa dispersiju, taču tā var radÄ«t modeli ar labāku veiktspēju nekā vislabākajam oriÄ£inālajam modelim.

Rezumēt

Vairāku modeļu apvienoÅ”ana vienā ir salÄ«dzinoÅ”i vienkārÅ”s paņēmiens, kas var atrisināt dispersijas novirzes problēmu un uzlabot veiktspēju.

Ja jums ir divi vai vairāki modeļi, kas darbojas labi, neizvēlieties kādu no tiem: izmantojiet tos visus (bet ar piesardzību)!

Vai vēlaties attÄ«stÄ«ties Å”ajā virzienā? ReÄ£istrējieties bezmaksas demonstrācijas nodarbÄ«bai ā€œML modeļu izvade industriālā vidē, izmantojot tieÅ”saistes ieteikumu piemēruā€ un piedalÄ«ties tieÅ”saistes tikÅ”anās ar Andreju Kuzņecovu ā€” Mail.ru grupas maŔīnmācÄ«bas inženieris.

Avots: www.habr.com

Pievieno komentāru