Foghlaim Ensemble Draíochta

Hey Habr! Tugaimid cuireadh d’Innealtóirí Sonraí agus do speisialtóirí Meaisín Foghlama chuig ceacht taispeána saor in aisce “Aschur samhlacha ML isteach i dtimpeallacht thionsclaíoch ag baint úsáide as sampla na moltaí ar líne”. Foilsímid freisin an t-alt Luca Monno - Ceann Anailíse Airgeadais ag CDP SpA.

Ceann de na modhanna meaisínfhoghlama is úsáidí agus is simplí ná Ensemble Learning. Is é Ensemble Learning an modh taobh thiar de XGBoost, Bagging, Random Forest agus go leor algartam eile.

Tá go leor alt iontach ar Towards Data Science, ach roghnaigh mé dhá scéal (ar dtús и an dara) rud is mó a thaitin liom. Mar sin cén fáth alt eile a scríobh faoi EL? Mar ba mhaith liom a thaispeáint duit conas a oibríonn sé le sampla simplí, rud a thug orm a thuiscint nach bhfuil draíocht ar bith anseo.

Nuair a chonaic mé EL i mbun gnímh den chéad uair (ag obair le roinnt samhlacha aischéimniúcháin an-simplí) ní raibh mé in ann mo shúile a chreidiúint, agus tá cuimhne agam fós ar an ollamh a mhúin an modh seo dom.

Bhí dhá mhúnla éagsúla agam (dhá algartam oiliúna lag) le méadracht as sampla R² cothrom le 0,90 agus 0,93, faoi seach. Sular fhéach mé ar an toradh, shíl mé go bhfaighfinn R² áit éigin idir an dá bhunluach. I bhfocail eile, chreid mé go bhféadfaí EL a úsáid chun samhail a dhéanamh nach bhfeidhmíonn chomh dona leis an tsamhail is measa, ach nach bhfuil sé chomh maith agus a d'fhéadfadh an tsamhail is fearr a dhéanamh.

Is mór an t-iontas a bhí orm, ach fuarthas R² de 0,95 mar mheán na dtuartha. 

Ar dtús thosaigh mé ag lorg an earráid, ach ansin shíl mé go bhféadfadh go mbeadh roinnt draíochta i bhfolach anseo!

Cad is Foghlaim Ensemble ann

Le EL, is féidir leat réamh-mheastacháin dhá mhúnla nó níos mó a chomhcheangal chun múnla níos láidre agus níos feidhmiúla a tháirgeadh. Tá go leor modheolaíochtaí ann chun oibriú le ensembles samhlacha. Anseo déanfaidh mé teagmháil leis an dá cheann is úsáidí chun forbhreathnú a thabhairt.

Le aischéimniú is féidir meánfheidhmíocht na múnlaí atá ar fáil.

Le aicmiú Is féidir leat deis a thabhairt do mhúnlaí lipéid a roghnú. Is é an lipéad is minice a roghnóidh an tsamhail nua.

Cén fáth go n-oibríonn EL níos fearr

Is é an phríomhchúis go bhfeidhmíonn EL níos fearr ná go bhfuil earráid ag gach tuar (tá a fhios againn ó theoiric na dóchúlachta), má chuirtear dhá thuar le chéile is féidir an earráid a laghdú, agus dá bhrí sin méadracht feidhmíochta a fheabhsú (RMSE, R², etc. d.).

Taispeánann an léaráid seo a leanas conas a fheidhmíonn dhá algartam lag ar thacar sonraí. Tá fána níos mó ag an gcéad algartam ná mar is gá, agus tá beagnach nialas ag an dara ceann (b'fhéidir mar gheall ar ró-rialú). Ach ensemble léiríonn torthaí i bhfad níos fearr. 

Má fhéachann tú ar an táscaire R², ansin don chéad agus an dara algartam oiliúna beidh sé comhionann le -0.01¹, 0.22, faoi seach, agus don ensemble beidh sé cothrom le 0.73.

Foghlaim Ensemble Draíochta

Tá go leor cúiseanna ann gur féidir le algartam a bheith ina mhúnla olc fiú ar shampla bunúsach mar seo: b'fhéidir gur shocraigh tú úsáid a bhaint as rialtacht chun rófheisteas a sheachaint, nó gur shocraigh tú gan roinnt aimhrialtachtaí a chur as an áireamh, nó b'fhéidir gur bhain tú úsáid as aischéimniú iltéarmach agus go bhfuair tú an mícheart. céime (mar shampla , d'úsáideamar ilchineálach den dara céim, agus léiríonn na sonraí tástála neamhshiméadracht shoiléir a mbeadh an tríú céim níos oiriúnaí dó).

Nuair a oibríonn EL níos fearr

Breathnaímid ar dhá algartam foghlama ag obair leis na sonraí céanna.

Foghlaim Ensemble Draíochta

Anseo, is féidir leat a fheiceáil nár fheabhsaigh an dá mhúnla an fheidhmíocht i bhfad. Ar dtús, don dá algartam oiliúna, bhí na táscairí R² comhionann le -0,37 agus 0,22, faoi seach, agus don ensemble d'éirigh sé amach a bheith -0,04. Is é sin, fuair an tsamhail EL meánluach na dtáscairí.

Mar sin féin, tá difríocht mhór idir an dá shampla seo: sa chéad shampla, bhí comhghaolú diúltach idir na hearráidí sa tsamhail, agus sa dara ceann, comhghaolaíodh iad go dearfach (níor measadh comhéifeachtaí na dtrí mhúnla, ach roghnaigh siad go simplí iad. údar mar shampla.)

Mar sin, is féidir Ensemble Learning a úsáid chun an chothromaíocht claonta/athraitheas a fheabhsú ar aon nós, ach nuair Níl comhghaolú dearfach idir earráidí sa tsamhail, d’fhéadfadh feidhmíocht fheabhsaithe a bheith mar thoradh ar úsáid EL.

Samhlacha aonchineálacha agus ilchineálacha

Go minic úsáidtear EL ar mhúnlaí aonchineálacha (mar atá sa sampla seo nó foraoise randamach), ach i ndáiríre is féidir leat samhlacha éagsúla (aischéimniú líneach + líonra neural + XGBoost) a chomhcheangal le tacair éagsúla d’athróga míniúcháin. Is dócha go mbeidh earráidí neamh-chomhghaolmhara agus feidhmíocht fheabhsaithe mar thoradh air seo.

Comparáid le héagsúlú punainne

Oibríonn EL mar an gcéanna le héagsúlú i dteoiric punainne, ach is amhlaidh is fearr dúinne. 

Agus tú ag déanamh éagsúlú, déanann tú iarracht an éagsúlacht i do fheidhmíocht a laghdú trí infheistíocht a dhéanamh i stoic neamhchomhghaolmhara. Feidhmeoidh punann dea-éagsúlaithe stoic níos fearr ná an stoc aonair is measa, ach ní bheidh sé riamh níos fearr ná an stoc is fearr.

Chun Warren Buffett a lua: 

“Is cosaint é éagsúlú ar aineolas; do dhuine nach bhfuil a fhios aige cad atá ar siúl aige, is beag ciall atá leis [éagsúlú].”

I meaisínfhoghlama, cabhraíonn EL leis an éagsúlacht i do mhúnla a laghdú, ach d'fhéadfadh go mbeadh múnla le feidhmíocht fhoriomlán níos fearr ná an tsamhail bhunaidh is fearr mar thoradh air.

Suim suas

Is teicníocht réasúnta simplí é samhlacha iolracha a chomhcheangal i gceann amháin, rud a d'fhéadfadh fadhb na laofachta athraitheas a réiteach agus feidhmíocht a fheabhsú.

Má tá dhá mhúnla nó níos mó agat a oibríonn go maith, ná roghnaigh idir iad: bain úsáid as iad go léir (ach go cúramach)!

An bhfuil spéis agat forbairt sa treo seo? Cláraigh le haghaidh ceacht taispeána saor in aisce “Aschur samhlacha ML isteach i dtimpeallacht thionsclaíoch ag baint úsáide as sampla na moltaí ar líne” agus páirt a ghlacadh i cruinniú ar líne le Andrey Kuznetsov — Innealtóir Foghlama Meaisín ag Mail.ru Group.

Foinse: will.com

Add a comment