Pag-aaral ng Magic Ensemble

Hoy Habr! Iniimbitahan namin ang Mga Data Engineer at Machine Learning na mga espesyalista sa isang libreng Demo-lesson "Pagpapakilala ng mga modelo ng ML sa pang-industriyang kapaligiran gamit ang halimbawa ng mga online na rekomendasyon". Nag-publish din kami ng artikulo ni Luca Monno - Pinuno ng Financial Analytics sa CDP SpA.

Isa sa mga pinakakapaki-pakinabang at simpleng paraan ng pag-aaral ng machine ay ang Ensemble Learning. Ang Ensemble Learning ay ang pinagbabatayan na pamamaraan para sa XGBoost, Bagging, Random Forest, at marami pang ibang algorithm.

Maraming magagandang artikulo sa Towards Data Science, ngunit pumili ako ng dalawang kuwento (muna ΠΈ pangalawa) na pinaka nagustuhan ko. Kaya bakit sumulat ng isa pang artikulo tungkol sa EL? Dahil gusto kong ipakita sayo kung paano ito gumagana sa isang simpleng halimbawa, na nagpaintindi sa akin na walang magic dito.

Noong una kong nakita si EL na kumikilos (nagtatrabaho sa ilang napakasimpleng modelo ng regression) hindi ako makapaniwala sa aking mga mata, at naaalala ko pa rin ang propesor na nagturo sa akin ng pamamaraang ito.

Mayroon akong dalawang magkaibang modelo (dalawang mahinang algorithm sa pag-aaral) na may mga exponent out-of-sample RΒ² katumbas ng 0,90 at 0,93 ayon sa pagkakabanggit. Bago tingnan ang resulta, naisip ko na makakakuha ako ng RΒ² sa isang lugar sa pagitan ng dalawang paunang halaga. Sa madaling salita, naisip ko na ang EL ay maaaring gamitin upang gawin ang modelo na hindi gumanap nang kasing-lubha ng pinakamasamang modelo, ngunit hindi kasinghusay ng pinakamahusay na modelo.

Sa aking malaking sorpresa, ang mga resulta ng isang simpleng pag-average ng mga hula ay nagbigay ng RΒ² na 0,95. 

Sa una nagsimula akong maghanap ng isang error, ngunit pagkatapos ay naisip ko na maaaring mayroong ilang mahika na nakatago dito!

Ano ang Ensemble Learning

Sa EL, maaari mong pagsamahin ang mga hula ng dalawa o higit pang mga modelo upang makakuha ng mas maaasahan at gumaganap na modelo. Mayroong maraming mga pamamaraan para sa pagtatrabaho sa mga ensemble ng mga modelo. Dito ay hawakan ko ang dalawang pinakakapaki-pakinabang upang mabigyan ka ng ideya.

May regression maaari mong average ang pagganap ng mga magagamit na modelo.

May pag-uuri maaari mong hayaan ang mga modelo na pumili ng mga label. Ang label na pinakamadalas na pinili ay ang pipiliin ng bagong modelo.

Bakit Mas Gumagana ang EL

Ang pangunahing dahilan kung bakit mas mahusay na gumagana ang EL ay dahil ang bawat hula ay may error (alam natin ito mula sa probability theory), ang pagsasama-sama ng dalawang hula ay maaaring makatulong na mabawasan ang error, at sa gayon ay mapabuti ang performance indicator (RMSE, RΒ², atbp.). d.).

Ipinapakita ng sumusunod na diagram kung paano gumagana ang dalawang mahinang algorithm sa isang dataset. Ang unang algorithm ay may mas malaking slope kaysa sa kinakailangan, habang ang pangalawa ay halos zero (maaaring dahil sa labis na regularization). Pero grupo nagpapakita ng mas mahusay na mga resulta. 

Kung titingnan mo ang RΒ², ang una at pangalawang algorithm ng pagsasanay ay magkakaroon ito ng katumbas ng -0.01ΒΉ, 0.22, ayon sa pagkakabanggit, habang para sa ensemble ito ay magiging katumbas ng 0.73.

Pag-aaral ng Magic Ensemble

Maraming mga dahilan kung bakit ang isang algorithm ay maaaring maging isang hindi magandang modelo kahit na para sa isang pangunahing halimbawa tulad nito: maaaring nagpasya kang gumamit ng regularization upang maiwasan ang overfitting, o nagpasya kang huwag alisin ang ilang mga anomalya, o marahil ay gumamit ka ng polynomial regression at pumili ng maling antas (halimbawa, gumamit ng polynomial ng pangalawang degree, at ang data ng pagsubok ay nagpapakita ng malinaw na kawalaan ng simetrya, kung saan ang ikatlong antas ay mas angkop).

Kapag Pinakamahusay na Gumagana ang EL

Tingnan natin ang dalawang algorithm sa pag-aaral na gumagana sa parehong data.

Pag-aaral ng Magic Ensemble

Dito makikita mo na ang pagsasama-sama ng dalawang modelo ay hindi gaanong napabuti ang pagganap. Sa una, para sa dalawang algorithm ng pagsasanay, ang mga halaga ng RΒ² ay -0,37 at 0,22, ayon sa pagkakabanggit, at para sa ensemble ito ay naging -0,04. Iyon ay, natanggap ng modelo ng EL ang average na halaga ng mga tagapagpahiwatig.

Gayunpaman, mayroong isang malaking pagkakaiba sa pagitan ng dalawang halimbawang ito: sa unang halimbawa, ang mga pagkakamali ng mga modelo ay negatibong nauugnay, at sa pangalawa - positibo (ang mga koepisyent ng tatlong mga modelo ay hindi tinantya, ngunit pinili lamang ng may-akda. bilang halimbawa.)

Samakatuwid, maaaring gamitin ang Ensemble Learning upang mapabuti ang balanse ng bias/dispersion sa lahat ng pagkakataon, ngunit kapag ang mga error sa modelo ay hindi positibong nauugnay, ang paggamit ng EL ay maaaring humantong sa mas mahusay na pagganap.

Mga homogenous at heterogenous na mga modelo

Kadalasan ang EL ay ginagamit sa mga homogenous na modelo (tulad ng sa halimbawang ito o random na kagubatan), ngunit sa katunayan maaari mong pagsamahin ang iba't ibang mga modelo (linear regression + neural network + XGBoost) na may iba't ibang hanay ng mga paliwanag na variable. Ito ay malamang na humantong sa hindi nauugnay na mga error at mapabuti ang pagganap.

Paghahambing sa pagkakaiba-iba ng portfolio

Gumagana ang EL sa katulad na paraan sa sari-saring uri sa teorya ng portfolio, ngunit mas mabuti para sa amin. 

Kapag nag-iba-iba ka, sinusubukan mong bawasan ang pagkakaiba-iba sa iyong pagganap sa pamamagitan ng pamumuhunan sa mga hindi nauugnay na stock. Ang isang mahusay na sari-sari na portfolio ng mga stock ay gaganap nang mas mahusay kaysa sa pinakamasamang solong stock, ngunit hindi kailanman mas mahusay kaysa sa pinakamahusay.

Sinipi si Warren Buffett: 

"Ang pagkakaiba-iba ay isang depensa laban sa kamangmangan, para sa isang tao na hindi alam kung ano ang kanyang ginagawa, ito [diversification] ay napakaliit na kahulugan."

Sa machine learning, nakakatulong ang EL na bawasan ang pagkakaiba-iba ng iyong modelo, ngunit maaari itong magresulta sa isang modelo na may mas mahusay na pangkalahatang pagganap kaysa sa pinakamahusay na unang modelo.

Magbuo

Ang pagsasama-sama ng maraming modelo sa isa ay isang medyo simpleng pamamaraan na maaaring humantong sa isang solusyon sa problema sa pagkakaiba-iba ng bias at pinahusay na pagganap.

Kung mayroon kang dalawa o higit pang mga modelo na gumagana nang maayos, huwag pumili sa pagitan ng mga ito: gamitin silang lahat (ngunit may pag-iingat)!

Interesado ka bang umunlad sa direksyong ito? Mag-sign up para sa isang libreng demo na aralin "Pagpapakilala ng mga modelo ng ML sa pang-industriyang kapaligiran gamit ang halimbawa ng mga online na rekomendasyon" at lumahok sa online na pagpupulong kay Andrey Kuznetsov β€” Machine Learning Engineer sa Mail.ru Group.

Pinagmulan: www.habr.com

Magdagdag ng komento