Pagkat-on sa Magic Ensemble

Hoy Habr! Gidapit namo ang mga Data Engineer ug mga espesyalista sa Machine Learning sa usa ka libre nga leksyon sa Demo "Pag-output sa mga modelo sa ML sa usa ka palibot sa industriya gamit ang panig-ingnan sa mga rekomendasyon sa online". Gimantala usab namo ang artikulo nga Luca Monno - Ulo sa Financial Analytics sa CDP SpA.

Usa sa labing mapuslanon ug yano nga pamaagi sa pagkat-on sa makina mao ang Ensemble Learning. Ang Pagkat-on sa Ensemble mao ang pamaagi luyo sa XGBoost, Bagging, Random Forest ug daghang uban pang mga algorithm.

Adunay daghang maayo nga mga artikulo sa Ngadto sa Data Science, apan gipili nako ang duha ka istorya (una ΠΈ ikaduha) nga akong pinakagusto. Busa nganong magsulat og laing artikulo mahitungod sa EL? Kay gusto nako ipakita nimo kung giunsa kini molihok sa usa ka yano nga pananglitan, nga nakapakasabot kanako nga walay salamangka dinhi.

Sa una nakong pagkakita sa EL nga naglihok (nagtrabaho uban ang pipila ka yano nga mga modelo sa pagbag-o) dili ako makatuo sa akong mga mata, ug nahinumduman pa nako ang propesor nga nagtudlo kanako niini nga pamaagi.

Duna koy duha ka lain-laing mga modelo (duha ka huyang nga mga algorithm sa pagbansay) nga adunay mga sukatan out-of-sample RΒ² katumbas sa 0,90 ug 0,93, matag usa. Sa wala pa tan-awon ang resulta, naghunahuna ko nga makakuha ako usa ka RΒ² sa usa ka lugar taliwala sa duha nga orihinal nga kantidad. Sa laing pagkasulti, nagtuo ko nga ang EL mahimong magamit sa paghimo sa usa ka modelo nga dili kaayo maayo sa pinakagrabe nga modelo, apan dili sama sa pinakamaayo nga modelo nga mahimo.

Sa akong dakong katingala, ang yanong pag-aberids sa mga panagna nakahatag ug RΒ² nga 0,95. 

Sa sinugdan nagsugod ako sa pagpangita sa sayup, apan pagkahuman naghunahuna ako nga tingali adunay pipila nga salamangka nga nagtago dinhi!

Unsa ang Ensemble Learning

Uban sa EL, mahimo nimong ikombinar ang mga panagna sa duha o daghan pa nga mga modelo aron makahimo og mas lig-on ug performant nga modelo. Adunay daghang mga pamaagi sa pagtrabaho sa mga modelo nga ensemble. Dinhi akong hikapon ang duha nga labing mapuslanon aron mahatagan usa ka kinatibuk-an.

Uban sa tabang sa pagbag-o posible nga i-average ang pasundayag sa magamit nga mga modelo.

Uban sa tabang sa pagklasipikar Mahimo nimong hatagan ang mga modelo og oportunidad sa pagpili sa mga label. Ang label nga gipili kanunay mao ang usa nga pilion sa bag-ong modelo.

Ngano nga ang EL mas maayo

Ang nag-unang rason nganong mas maayo ang performance sa EL mao nga ang matag panagna adunay sayop (nahibal-an nato kini gikan sa probability theory), ang paghiusa sa duha ka prediksiyon makatabang sa pagpakunhod sa sayop, ug busa pagpalambo sa performance metrics (RMSE, RΒ², ug uban pa). d.).

Ang mosunud nga diagram nagpakita kung giunsa ang duha ka huyang nga mga algorithm nga naglihok sa usa ka set sa datos. Ang unang algorithm adunay mas dako nga bakilid kay sa gikinahanglan, samtang ang ikaduha adunay halos zero (posible tungod sa sobra nga regularisasyon). Apan kumparsa nagpakita ug mas maayo nga mga resulta. 

Kung imong tan-awon ang RΒ² indicator, nan alang sa una ug ikaduha nga algorithm sa pagbansay kini mahimong katumbas sa -0.01ΒΉ, 0.22, matag usa, samtang alang sa ensemble kini mahimong katumbas sa 0.73.

Pagkat-on sa Magic Ensemble

Adunay daghang mga hinungdan ngano nga ang usa ka algorithm mahimong usa ka dili maayo nga modelo bisan sa usa ka sukaranan nga pananglitan nga sama niini: tingali nakahukom ka nga gamiton ang regularization aron malikayan ang sobra nga pag-ayo, o nakahukom ka nga dili isalikway ang pipila nga mga anomaliya, o tingali gigamit nimo ang polynomial regression ug nasayup. degree (pananglitan, gigamit namon ang usa ka polynomial sa ikaduha nga degree, ug ang data sa pagsulay nagpakita sa usa ka tin-aw nga kawalaan sa simetrya diin ang ikatulo nga degree mas haum).

Sa diha nga ang EL molihok nga mas maayo

Atong tan-awon ang duha ka algorithm sa pagkat-on nga nagtrabaho sa parehas nga datos.

Pagkat-on sa Magic Ensemble

Dinhi imong makita nga ang paghiusa sa duha ka mga modelo wala kaayo makapauswag sa performance. Sa sinugdan, alang sa duha ka mga algorithm sa pagbansay, ang mga indikasyon sa RΒ² katumbas sa -0,37 ug 0,22, matag usa, ug alang sa ensemble kini nahimo nga -0,04. Kana mao, ang modelo sa EL nakadawat sa kasagaran nga kantidad sa mga timailhan.

Bisan pa, adunay usa ka dako nga kalainan tali niining duha ka mga pananglitan: sa unang pananglitan, ang mga sayop sa modelo negatibo nga may kalabutan, ug sa ikaduha, kini positibo nga may kalabutan (ang mga coefficient sa tulo ka mga modelo wala gibana-bana, apan gipili lamang sa tagsulat isip pananglitan.)

Busa, ang Ensemble Learning mahimong magamit aron mapauswag ang balanse sa bias/variance sa bisan unsang kaso, apan kung kanus-a Ang mga kasaypanan sa modelo dili positibo nga may kalabutan, ang paggamit sa EL mahimong mosangpot sa mas maayo nga performance.

Homogeneous ug heterogeneous nga mga modelo

Kanunay nga gigamit ang EL sa mga homogenous nga mga modelo (sama sa kini nga pananglitan o random nga kalasangan), apan sa tinuud mahimo nimong ikombinar ang lainlaing mga modelo (linear regression + neural network + XGBoost) nga adunay lainlaing mga set sa explanatory variable. Mahimong moresulta kini sa wala'y kalabutan nga mga kasaypanan ug mas maayo nga performance.

Pagtandi sa portfolio diversification

Ang EL nagtrabaho parehas sa paglainlain sa teorya sa portfolio, apan labi ka maayo alang kanamo. 

Kung nag-diversify, gisulayan nimo nga makunhuran ang kalainan sa imong pasundayag pinaagi sa pagpamuhunan sa wala’y kalabotan nga mga stock. Ang usa ka maayo nga pagkalainlain nga portfolio sa mga stock mahimong labi ka maayo kaysa sa labing daotan nga indibidwal nga stock, apan dili gyud labi ka maayo kaysa sa labing kaayo.

Sa pagkutlo ni Warren Buffett: 

"Ang pagkalain-lain usa ka depensa batok sa pagkawalay alamag; sa usa nga wala mahibal-an kung unsa ang iyang gibuhat, kini [pagkalainlain] wala’y kahulugan."

Sa pagkat-on sa makina, ang EL makatabang sa pagpakunhod sa kalainan sa imong modelo, apan kini mahimong moresulta sa usa ka modelo nga adunay kinatibuk-ang performance nga mas maayo kay sa labing maayo nga orihinal nga modelo.

Himoon naton ang mga resulta

Ang paghiusa sa daghang mga modelo ngadto sa usa usa ka medyo yano nga teknik nga mahimong motultol sa pagsulbad sa problema sa variance bias ug pagpalambo sa performance.

Kung ikaw adunay duha o daghan pa nga mga modelo nga maayo ang pagtrabaho, ayaw pagpili tali kanila: gamita silang tanan (apan uban ang pag-amping)!

Interesado ka ba sa pagpalambo niini nga direksyon? Pag-sign up alang sa usa ka libre nga leksyon sa demo "Pag-output sa mga modelo sa ML sa usa ka palibot sa industriya gamit ang panig-ingnan sa mga rekomendasyon sa online" ug apil sa online nga miting uban ni Andrey Kuznetsov β€” Machine Learning Engineer sa Mail.ru Group.

Source: www.habr.com

Idugang sa usa ka comment