Magic Ensemble Fêrbûna

Hey Habr! Em Endezyarên Daneyê û pisporên Fêrbûna Makîneyê vedixwînin dersek Demo belaş "Derketina modelên ML-ê li hawîrdorek pîşesaziyê bi mînaka pêşniyarên serhêl bikar tîne". Em di heman demê de gotara Luca Monno - Serokê Analîtîka Fînansî li CDP SpA diweşînin.

Yek ji rêbazên fêrbûna makîneyê ya herî bikêr û hêsan Fêrbûna Ensembleyê ye. Fêrbûna Ensembleyê rêbaza li pişt XGBoost, Bagging, Random Forest û gelek algorîtmayên din e.

Li ser Towards Data Science gelek gotarên hêja hene, lê min du çîrok hilbijart (yekem и duyem) ya ku min herî zêde jê hez kir. Ji ber vê yekê çima gotarek din li ser EL binivîse? Ji ber ku ez dixwazim nîşanî we bidim ew çawa bi mînakek hêsan dixebite, ku min fêm kir ku li vir sêhr tune.

Gava ku min cara yekem EL di çalakiyê de dît (bi hin modelên regresyonê yên pir hêsan re dixebitî) min ji çavên xwe bawer nedikir, û hîn jî profesorê ku ev rêbaz hînî min kir tê bîra min.

Min du modelên cûda (du algorîtmayên perwerdehiya qels) bi metrîkan hebûn derveyî nimûne R² bi rêzdarî 0,90 û 0,93 wekhev e. Berî ku li encamê binihêrim, min fikirîn ku ez ê R²-yek di navbera du nirxên orîjînal de bistînim. Bi gotineke din, min bawer kir ku EL dikare were bikar anîn da ku modelek ne bi qasî modela herî xirab, lê ne bi qasî ku modela çêtirîn karibe performansê bike, were bikar anîn.

Bi ecêba min a mezin, bi tenê navînîkirina pêşbîniyan R² ya 0,95 derxist. 

Di destpêkê de min dest bi lêgerîna xeletiyê kir, lê dûv re min fikirîn ku dibe ku li vir hin sêrbaz veşêre!

Fêrbûna Ensembleyê çi ye

Bi EL re, hûn dikarin pêşbîniyên du an bêtir modelan bihev bikin da ku modelek bihêztir û performansa hilberînin. Gelek metodolojî hene ku ji bo xebata bi komên modelan re dixebitin. Li vir ez ê li ser her du yên herî bikêr bisekinim da ku ravekekê bidim.

Bi alîkariya alîkariya paşveçûn gengaz e ku meriv performansa modelên berdest navînî bike.

Bi alîkariya alîkariya bisinifkirinî Hûn dikarin fersendê bidin modelan ku etîketan hilbijêrin. Labelê ku pir caran hate hilbijartin ew e ku dê ji hêla modela nû ve were hilbijartin.

Çima EL çêtir dixebite

Sedema bingehîn a ku EL çêtir performans dike ev e ku her pêşbîniyek xeletiyek heye (em vê yekê ji teoriya îhtîmalê dizanin), berhevkirina du pêşbîniyan dikare bibe alîkar ku xeletiyê kêm bike, û ji ber vê yekê metrîkên performansê baştir bike (RMSE, R², hwd.). d.).

Diagrama jêrîn nîşan dide ka du algorîtmayên qels çawa li ser komek daneyê dixebitin. Algorîtmaya yekem ji pêdivî mezintir e, lê ya duyemîn hema hema sifir e (dibe ku ji ber zêde-rêkûpêkbûnê be). Lebê ensemble encamên pir çêtir nîşan dide. 

Ger hûn li nîşana R² binêrin, wê hingê ji bo algorîtmaya perwerdehiya yekem û duyemîn ew ê bi rêzê -0.01¹, 0.22 wekhev be, dema ku ji bo ensembleyê ew ê bibe 0.73.

Magic Ensemble Fêrbûna

Gelek sedem hene ku çima algorîtmayek dikare bibe modelek xirab tewra li ser mînakek bingehîn a bi vî rengî: dibe ku we biryar da ku hûn rêkûpêk bikar bînin da ku ji zêdebûnê dûr nekevin, an we biryar da ku hûn hin anomaliyan ji holê ranekin, an jî dibe ku we paşvekêşana pirnomî bikar aniye û xeletî kiriye. derece (mînakî, me polînomîlek pileya duyemîn bikar anî, û daneyên ceribandinê asîmetrîyek zelal nîşan dide ku pileya sêyem çêtir e).

Dema ku EL çêtir dixebite

Werin em li du algorîtmayên fêrbûnê ku bi heman daneyê dixebitin binêrin.

Magic Ensemble Fêrbûna

Li vir hûn dikarin bibînin ku berhevkirina her du modelan performansê pir çêtir nekir. Di destpêkê de, ji bo du algorîtmayên perwerdehiyê, nîşaneyên R² bi rêzê -0,37 û 0,22 wekhev bûn, û ji bo ensembleyê ew derket -0,04. Ango, modela EL nirxa navînî ya nîşankeran wergirt.

Lêbelê, di navbera van her du mînakan de ferqek mezin heye: di mînaka yekem de, xeletiyên modelê bi neyînî hatine girêdan, û di ya duyemîn de, ew bi erênî hatine girêdan (hevberên her sê modelan nehatine texmîn kirin, lê tenê ji hêla nimûneyê ve hatine hilbijartin. nivîskar wek nimûne.)

Ji ber vê yekê, Fêrbûna Ensembleyê dikare di her rewşê de ji bo baştirkirina hevsengiya bias/variance were bikar anîn, lê kengê Çewtiyên modelê bi erênî ve girêdayî ne, karanîna EL dikare bibe sedema performansa çêtir.

Modelên homojen û heterojen

Pir caran EL li ser modelên homojen tê bikar anîn (wek vê nimûneyê an daristana rasthatî), lê di rastiyê de hûn dikarin modelên cihêreng (regresîyona xêzik + tora neuralî + XGBoost) bi komên cûda yên guhêrbarên raveker re bikin yek. Ev dibe sedema xeletiyên negirêdayî û performansa çêtir.

Berawirdkirina bi cihêrengiya portfoliyoyê re

EL di teoriya portfoliyoyê de bi cihêrengiyê re bi heman rengî dixebite, lê ji bo me ew qas çêtir e. 

Dema ku cûrbecûr dikin, hûn hewl didin ku bi veberhênana li stokên negirêdayî cûdahiya performansa xwe kêm bikin. Portfoliyoyek stokên baş-cudakirî dê ji stokên kesane yên herî xirab çêtir bixebite, lê qet ji ya çêtirîn çêtir nake.

Ji bo gotina Warren Buffett: 

"Cirengrengî parastinek li dijî nezaniyê ye; ji bo kesê ku nizane çi dike, ew [cudabûn] pir hindik watedar e."

Di fêrbûna makîneyê de, EL dibe alîkar ku cûdahiya modela we kêm bike, lê dibe ku ew modelek bi performansa giştî ji modela orjînal a çêtirîn çêtir bibe.

Bila encama encam bikin

Tevhevkirina gelek modelan di yek de teknîkek nisbeten hêsan e ku dikare bibe sedema çareserkirina pirsgirêka guhastinê û başkirina performansê.

Ger du an bêtir modelên we hene ku baş dixebitin, di navbera wan de hilbijêrin: wan hemî bikar bînin (lê bi hişyarî)!

Ma hûn dixwazin di vî alî de pêşve bibin? Ji bo dersek demo ya belaş qeyd bikin "Derketina modelên ML-ê li hawîrdorek pîşesaziyê bi mînaka pêşniyarên serhêl bikar tîne" û beşdar bibin bi Andrey Kuznetsov re hevdîtinek online - Endezyarê Fêrbûna Makîneyê li Koma Mail.ru.

Source: www.habr.com

Add a comment