Draoidheachd Ionnsachadh Ensemble

Hi Habr! Bidh sinn a’ toirt cuireadh do Einnseanairean Dàta agus eòlaichean Ionnsachadh Inneal gu leasan Demo an-asgaidh "Tòiseachadh mhodalan ML don àrainneachd gnìomhachais a’ cleachdadh eisimpleir de mholaidhean air-loidhne". Bidh sinn cuideachd a’ foillseachadh an artaigil Luca Monno - Ceannard Mion-sgrùdadh Ionmhais aig CDP SpA.

Is e aon de na dòighean ionnsachaidh inneal as fheumaile agus as sìmplidh Ionnsachadh Ensemble. Is e Ensemble Learning an dòigh air cùl XGBoost, Bagging, Random Forest agus mòran algorithms eile.

Tha tòrr artaigilean sgoinneil air Towards Data Science, ach thagh mi dà sgeulachd (an toiseach и an dàrna fear) a bu mhotha a chòrd rium. Mar sin carson a sgrìobhas tu artaigil eile mu EL? A chionn gu bheil mi airson sealltainn dhut mar a tha e ag obair le eisimpleir shìmplidh, rud a thug orm a thuigsinn nach eil draoidheachd an seo.

Nuair a chunnaic mi EL ann an gnìomh an toiseach (ag obair le cuid de mhodalan ath-thòiseachaidh gu math sìmplidh) cha b’ urrainn dhomh mo shùilean a chreidsinn, agus tha cuimhne agam fhathast air an àrd-ollamh a theagaisg an dòigh seo dhomh.

Bha dà mhodail eadar-dhealaichte agam (dà algorithm ionnsachaidh lag) le luchd-labhairt a-mach às an t-sampall R² co-ionann ri 0,90 agus 0,93, fa leth. Mus coimhead mi air a’ bhuil, shaoil ​​​​mi gum faigheadh ​​​​mi R² an àiteigin eadar an dà luach tùsail. Ann am faclan eile, bha mi a 'creidsinn gum faodadh EL a bhith air a chleachdadh gus modail a dhèanamh nach eil cho dona ris a' mhodail as miosa, ach nach robh e cho math ris a 'mhodail as fheàrr.

Gu mo iongnadh mòr, thug dìreach cuibheasachd de na fàisneachdan R² de 0,95. 

An toiseach thòisich mi a’ coimhead airson a’ mhearachd, ach an uairsin shaoil ​​​​mi gur dòcha gu robh beagan draoidheachd am falach an seo!

Dè th’ ann an Ionnsachadh Ensemble

Le EL, faodaidh tu ro-innse dà mhodail no barrachd a chur còmhla gus modal nas làidire agus nas gnìomhaiche a thoirt gu buil. Tha mòran dhòighean-obrach ann airson a bhith ag obair le ensembles modail. An seo bruidhnidh mi air an dà fhear as fheumaile gus sealladh farsaing a thoirt seachad.

Le cuideachadh bho ais-tharraing faodaidh tu coileanadh nam modalan a tha rim faighinn gu cuibheasach.

Le cuideachadh bho seòrsachadh Faodaidh tu cothrom a thoirt do mhodalan bileagan a thaghadh. Is e an leubail a chaidh a thaghadh as trice am fear a thèid a thaghadh leis a’ mhodail ùr.

Carson a tha EL ag obair nas fheàrr

Is e am prìomh adhbhar gu bheil EL a’ coileanadh nas fheàrr gu bheil mearachd aig a h-uile ro-innse (tha fios againn air seo bho theòiridh coltachd), le bhith a’ cothlamadh dà ro-innse cuidichidh sin le bhith a’ lughdachadh na mearachd, agus mar sin a’ leasachadh metrics dèanadais (RMSE, R², msaa. d.).

Tha an diagram a leanas a’ sealltainn mar a tha dà algorithm lag ag obrachadh air seata dàta. Tha leathad nas motha aig a’ chiad algairim na tha a dhìth, agus tha cha mhòr neoni aig an dàrna fear (is dòcha mar thoradh air cus cunbhalachd). Ach ensemble a’ nochdadh toraidhean nas fheàrr. 

Ma choimheadas tu air an comharra R², an uairsin airson a ’chiad agus an dàrna algairim trèanaidh bidh e co-ionann ri -0.01¹, 0.22, fa leth, agus airson an ensemble bidh e co-ionann ri 0.73.

Draoidheachd Ionnsachadh Ensemble

Tha iomadh adhbhar ann airson gum faod algorithm a bhith na dhroch mhodail eadhon air eisimpleir bunaiteach mar seo: is dòcha gun do chuir thu romhpa riaghailteachadh a chleachdadh gus cus uidheamachadh a sheachnadh, no gun do chuir thu romhpa gun a bhith a’ cuir às do chuid neo-riaghailteachdan, no is dòcha gun do chleachd thu ath-thilleadh polynomial agus gun d’ fhuair thu ceàrr. ceum (mar eisimpleir, chleachd sinn polynomial den dàrna ìre, agus tha dàta an deuchainn a’ sealltainn neo-chunbhalachd soilleir airson am biodh an treas ìre nas freagarraiche).

Nuair a bhios EL ag obair nas fheàrr

Bheir sinn sùil air dà algorithm ionnsachaidh a bhios ag obair air an aon dàta.

Draoidheachd Ionnsachadh Ensemble

An seo chì thu nach do leasaich an dà mhodail coileanadh mòran. An toiseach, airson an dà algairim trèanaidh, bha na comharran R² co-ionann ri -0,37 agus 0,22, fa leth, agus airson an ensemble thionndaidh e a-mach gu bhith -0,04. Is e sin, fhuair am modail EL luach cuibheasach nan comharran.

Ach, tha eadar-dhealachadh mòr eadar an dà eisimpleir seo: anns a 'chiad eisimpleir, bha mearachdan a' mhodail air an co-cheangal gu h-àicheil, agus anns an dàrna fear, bha iad air an co-cheangal gu dearbhach (cha deach co-èifeachdan nan trì modalan a mheasadh, ach chaidh an taghadh gu sìmplidh leis a 'mhodail. ùghdar mar eisimpleir.)

Mar sin, faodar Ionnsachadh Ensemble a chleachdadh gus cothromachadh bias/caochlaideachd a leasachadh co-dhiù, ach cuin Chan eil mearachdan modail air an ceangal gu dearbhach, is dòcha gun lean cleachdadh EL gu coileanadh nas fheàrr.

Modailean aon-ghnèitheach agus heterogeneous

Glè thric bidh EL air a chleachdadh air modalan aon-ghnèitheach (mar a tha san eisimpleir seo no coille air thuaiream), ach gu dearbh faodaidh tu diofar mhodalan a chur còmhla (tilleadh sreathach + lìonra neural + XGBoost) le diofar sheataichean de chaochladairean mìneachaidh. Tha e coltach gun lean seo gu mearachdan neo-cheangailte agus coileanadh nas fheàrr.

Dèan coimeas ri iomadachadh portfolio

Tha EL ag obair san aon dòigh ri iomadachadh ann an teòiridh cùram-roinne, ach mar sin tha e nas fheàrr dhuinne. 

Nuair a bhios tu ag iomadachadh, bidh thu a’ feuchainn ris an eadar-dhealachadh ann an do choileanadh a lughdachadh le bhith a’ tasgadh ann an stocan gun cheangal. Coileanaidh pasgan de stoc le deagh iomadachd nas fheàrr na an stoc fa leth as miosa, ach cha bhith e nas fheàrr na an fheadhainn as fheàrr.

Gus luaidh a thoirt air Warren Buffett: 

“Tha iomadachadh na dhìon an aghaidh aineolais; dha cuideigin aig nach eil fios dè a tha e a’ dèanamh, chan eil e [iomadachadh] a’ dèanamh mòran ciall. ”

Ann an ionnsachadh innealan, bidh EL a 'cuideachadh le bhith a' lùghdachadh an eadar-dhealachaidh sa mhodail agad, ach dh'fhaodadh gum bi modail le coileanadh iomlan nas fheàrr na am modail tùsail as fheàrr.

Leigamaid a-steach na toraidhean

Is e dòigh gu math sìmplidh a th’ ann a bhith a’ cothlamadh grunn mhodalan ann an aon a dh’ fhaodadh fuasgladh fhaighinn air duilgheadas claonadh caochladair agus coileanadh adhartachadh.

Ma tha dà mhodail no barrachd agad a tha ag obair gu math, na tagh eatorra: cleachd iad uile (ach le cùram)!

A bheil ùidh agad ann an leasachadh a thaobh seo? Luchdaich a-nuas an-asgaidh gun chlàradh demo "Tòiseachadh mhodalan ML don àrainneachd gnìomhachais a’ cleachdadh eisimpleir de mholaidhean air-loidhne" agus pàirt a ghabhail ann Coinneamh air-loidhne le Andrey Kuznetsov - Einnseanair Ionnsachadh Inneal aig Mail.ru Group.

Source: www.habr.com

Cuir beachd ann