Viena no visnoderÄ«gÄkajÄm un vienkÄrÅ”ÄkajÄm maŔīnmÄcÄ«Å”anÄs metodÄm ir Ensemble Learning. Ensemble Learning ir XGBoost, Bagging, Random Forest un daudzu citu algoritmu pamatÄ.
Ir daudz lielisku rakstu par datu zinÄtni, taÄu es izvÄlÄjos divus stÄstus (vispirms Šø otrais), kas man patika visvairÄk. Tad kÄpÄc jÄtaisa vÄl viens raksts par EL? Jo es gribu jums parÄdÄ«t kÄ tas darbojas ar vienkÄrÅ”u piemÄru, kas man lika saprast, ka Å”eit nav nekÄdas maÄ£ijas.
Kad es pirmo reizi ieraudzÄ«ju EL darbÄ«bÄ (strÄdÄjot ar dažiem ļoti vienkÄrÅ”iem regresijas modeļiem), es neticÄju savÄm acÄ«m, un es joprojÄm atceros profesoru, kurÅ” man mÄcÄ«ja Å”o metodi.
Man bija divi dažÄdi modeļi (divi vÄji apmÄcÄ«bas algoritmi) ar metriku Ärpus izlases RĀ² ir vienÄds ar attiecÄ«gi 0,90 un 0,93. Pirms rezultÄta apskatÄ«Å”anas es domÄju, ka iegÅ«Å”u RĀ² kaut kur starp divÄm sÄkotnÄjÄm vÄrtÄ«bÄm. Citiem vÄrdiem sakot, es ticÄju, ka EL var izmantot, lai modelis nedarbotos tik slikti kÄ sliktÄkais modelis, bet ne tik labi, kÄ vislabÄkais modelis.
Man par lielu pÄrsteigumu, vienkÄrÅ”i aprÄÄ·inot prognozes, tika iegÅ«ts RĀ² 0,95.
SÄkumÄ sÄku meklÄt kļūdu, bet tad nodomÄju, ka te varÄtu bÅ«t kÄda maÄ£ija slÄpjas!
Kas ir ansambļa mÄcÄ«Å”anÄs
Izmantojot EL, varat apvienot divu vai vairÄku modeļu prognozes, lai izveidotu stabilÄku un veiktspÄjÄ«gÄku modeli. Ir daudz metodoloÄ£iju darbam ar modeļu ansambļiem. Å eit es pieskarÅ”os diviem visnoderÄ«gÄkajiem, lai sniegtu pÄrskatu.
Ar regresija ir iespÄjams aprÄÄ·inÄt vidÄjo veiktspÄju pieejamajiem modeļiem.
Ar klasifikÄcija JÅ«s varat dot modeļiem iespÄju izvÄlÄties etiÄ·etes. VisbiežÄk izvÄlÄtÄ etiÄ·ete ir tÄ, kuru izvÄlÄsies jaunais modelis.
KÄpÄc EL darbojas labÄk
Galvenais iemesls, kÄpÄc EL darbojas labÄk, ir tas, ka katrÄ prognozÄ ir kļūda (mÄs to zinÄm no varbÅ«tÄ«bas teorijas), divu prognožu apvienoÅ”ana var palÄ«dzÄt samazinÄt kļūdu un tÄdÄjÄdi uzlabot veiktspÄjas rÄdÄ«tÄjus (RMSE, RĀ² utt.). d.).
NÄkamajÄ diagrammÄ parÄdÄ«ts, kÄ datu kopÄ darbojas divi vÄji algoritmi. Pirmajam algoritmam ir lielÄks slÄ«pums nekÄ nepiecieÅ”ams, bet otrajam ir gandrÄ«z nulle (iespÄjams, pÄrmÄrÄ«gas regulÄÅ”anas dÄļ). Bet kopÄ uzrÄda daudz labÄkus rezultÄtus.
Ja paskatÄs uz RĀ² indikatoru, tad pirmajam un otrajam apmÄcÄ«bas algoritmam tas bÅ«s vienÄds ar attiecÄ«gi -0.01Ā¹, 0.22, savukÄrt ansamblim tas bÅ«s vienÄds ar 0.73.
Ir daudz iemeslu, kÄpÄc algoritms var bÅ«t slikts modelis pat tÄdÄ pamata piemÄrÄ kÄ Å”is: varbÅ«t jÅ«s nolÄmÄt izmantot regularizÄciju, lai izvairÄ«tos no pÄrmÄrÄ«gas pielÄgoÅ”anas, vai arÄ« nolÄmÄt neizslÄgt dažas anomÄlijas, vai varbÅ«t izmantojÄt polinoma regresiju un kļūdÄ«jÄties. pakÄpe (piemÄram, mÄs izmantojÄm otrÄs pakÄpes polinomu, un testa dati parÄda skaidru asimetriju, kurai treÅ”Ä pakÄpe bÅ«tu labÄk piemÄrota).
Kad EL darbojas labÄk
ApskatÄ«sim divus mÄcÄ«bu algoritmus, kas strÄdÄ ar vieniem un tiem paÅ”iem datiem.
Å eit redzams, ka abu modeļu apvienoÅ”ana veiktspÄju Ä«paÅ”i neuzlaboja. SÄkotnÄji abiem apmÄcÄ«bas algoritmiem RĀ² rÄdÄ«tÄji bija attiecÄ«gi -0,37 un 0,22, bet ansamblim tas izrÄdÄ«jÄs -0,04. Tas ir, EL modelis saÅÄma vidÄjo rÄdÄ«tÄju vÄrtÄ«bu.
TomÄr starp Å”iem diviem piemÄriem pastÄv liela atŔķirÄ«ba: pirmajÄ piemÄrÄ modeļa kļūdas bija negatÄ«vi korelÄtas, bet otrajÄ tÄs bija pozitÄ«vi korelÄtas (trÄ«s modeļu koeficienti netika novÄrtÄti, bet tos vienkÄrÅ”i izvÄlÄjÄs autors kÄ piemÄrs.)
TÄpÄc Ensemble Learning var izmantot, lai uzlabotu novirzes/dispersijas lÄ«dzsvaru jebkurÄ gadÄ«jumÄ, bet kad Modeļa kļūdas nav pozitÄ«vi korelÄtas, EL izmantoÅ”ana var uzlabot veiktspÄju.
HomogÄni un neviendabÄ«gi modeļi
Ä»oti bieži EL tiek izmantots viendabÄ«gos modeļos (kÄ Å”ajÄ piemÄrÄ vai nejauÅ”Ä mežÄ), bet patiesÄ«bÄ jÅ«s varat apvienot dažÄdus modeļus (lineÄrÄ regresija + neironu tÄ«kls + XGBoost) ar dažÄdÄm skaidrojoÅ”o mainÄ«go kopÄm. Tas, iespÄjams, radÄ«s nekorelÄtas kļūdas un uzlabos veiktspÄju.
SalÄ«dzinÄjums ar portfeļa diversifikÄciju
EL darbojas lÄ«dzÄ«gi kÄ diversifikÄcija portfeļa teorijÄ, taÄu jo labÄk mums.
Veicot diversifikÄciju, jÅ«s mÄÄ£inÄt samazinÄt savu veiktspÄjas dispersiju, ieguldot nekorelÄtÄs akcijÄs. Labi diversificÄts akciju portfelis darbosies labÄk nekÄ sliktÄkÄs atseviŔķas akcijas, taÄu nekad labÄks par labÄko.
CitÄjot Vorenu Bafetu:
"DaiversifikÄcija ir aizsardzÄ«ba pret nezinÄÅ”anu; kÄdam, kas nezina, ko dara, tai [dažÄdÄ«bai] ir ļoti maz jÄgas."
MaŔīnmÄcÄ«bÄ EL palÄ«dz samazinÄt jÅ«su modeļa dispersiju, taÄu tÄ var radÄ«t modeli ar labÄku veiktspÄju nekÄ vislabÄkajam oriÄ£inÄlajam modelim.
RezumÄt
VairÄku modeļu apvienoÅ”ana vienÄ ir salÄ«dzinoÅ”i vienkÄrÅ”s paÅÄmiens, kas var atrisinÄt dispersijas novirzes problÄmu un uzlabot veiktspÄju.
Ja jums ir divi vai vairÄki modeļi, kas darbojas labi, neizvÄlieties kÄdu no tiem: izmantojiet tos visus (bet ar piesardzÄ«bu)!