Kujifunza kwa Kukusanya Uchawi

Habari Habr! Tunawaalika Wahandisi wa Data na wataalamu wa Kujifunza kwa Mashine kwenye somo la Onyesho lisilolipishwa "Kuanzishwa kwa mifano ya ML kwa mazingira ya viwanda kwa kutumia mfano wa mapendekezo ya mtandaoni". Pia tunachapisha makala ya Luca Monno - Mkuu wa Uchanganuzi wa Fedha katika CDP SpA.

Mojawapo ya njia muhimu na rahisi za kujifunza kwa mashine ni Kujifunza kwa Ensemble. Ensemble Learning ndiyo mbinu ya msingi ya XGBoost, Bagging, Random Forest, na algoriti nyingine nyingi.

Kuna nakala nyingi nzuri juu ya Sayansi ya Takwimu, lakini nilichagua hadithi mbili (kwanza ΠΈ pili) ambayo niliipenda zaidi. Kwa hivyo kwa nini uandike nakala nyingine kuhusu EL? Kwa sababu nataka kukuonyesha jinsi inavyofanya kazi kwenye mfano rahisi, ambayo ilinifanya nielewe kuwa hakuna uchawi hapa.

Nilipoona EL akifanya kazi kwa mara ya kwanza (akifanya kazi na mifano rahisi ya rejista) sikuamini macho yangu, na bado namkumbuka profesa aliyenifundisha njia hii.

Nilikuwa na mifano miwili tofauti (algorithms mbili dhaifu za kujifunza) na watangazaji nje ya sampuli RΒ² sawa na 0,90 na 0,93 mtawalia. Kabla ya kuangalia matokeo, nilidhani kwamba ningepata RΒ² mahali fulani kati ya maadili mawili ya awali. Kwa maneno mengine, nilidhani kwamba EL inaweza kutumika kufanya mfano usifanye vibaya kama mfano mbaya zaidi, lakini sio vile vile mfano bora unaweza.

Kwa mshangao wangu mkubwa, matokeo ya wastani rahisi wa utabiri yalitoa RΒ² ya 0,95. 

Mwanzoni nilianza kutafuta hitilafu, lakini nilifikiri kwamba kunaweza kuwa na uchawi fulani umefichwa hapa!

Kujifunza kwa Ensemble ni nini

Ukiwa na EL, unaweza kuchanganya utabiri wa miundo miwili au zaidi ili kupata kielelezo cha kuaminika zaidi na tendaji. Kuna mbinu nyingi za kufanya kazi na ensembles ya mifano. Hapa nitagusa mbili muhimu zaidi kukupa wazo.

Pamoja na kurudi nyuma unaweza wastani wa utendaji wa mifano inapatikana.

Pamoja na uainishaji unaweza kuruhusu wanamitindo kuchagua lebo. Lebo iliyochaguliwa mara nyingi zaidi ndiyo itakayochaguliwa na mtindo mpya.

Kwa nini EL inafanya kazi vizuri zaidi

Sababu kuu kwa nini EL inafanya kazi vyema zaidi ni kwa sababu kila utabiri una hitilafu (tunajua hili kutokana na nadharia ya uwezekano), kuchanganya ubashiri mbili kunaweza kusaidia kupunguza hitilafu, na hivyo kuboresha viashiria vya utendakazi (RMSE, RΒ², n.k.). d.).

Mchoro ufuatao unaonyesha jinsi algoriti mbili dhaifu zinavyofanya kazi kwenye mkusanyiko wa data. Algorithm ya kwanza ina mteremko mkubwa kuliko lazima, wakati ya pili ina karibu sifuri (labda kwa sababu ya urekebishaji mwingi). Lakini Ensemble inaonyesha matokeo bora. 

Ukiangalia RΒ², basi algorithm ya mafunzo ya kwanza na ya pili itakuwa sawa na -0.01ΒΉ, 0.22, mtawaliwa, wakati kwa kusanyiko itakuwa sawa na 0.73.

Kujifunza kwa Kukusanya Uchawi

Kuna sababu nyingi kwa nini algorithm inaweza kuwa mfano duni hata kwa mfano wa kimsingi kama huu: labda uliamua kutumia urekebishaji ili kuzuia kupita kiasi, au uliamua kutoondoa kasoro kadhaa, au labda ulitumia hali ya kumbukumbu ya polynomial na ukachukua digrii mbaya. (kwa mfano , ilitumia polynomial ya shahada ya pili, na data ya mtihani inaonyesha asymmetry wazi, ambayo shahada ya tatu ingefaa zaidi).

Wakati EL Inafanya Kazi Bora

Hebu tuangalie algorithms mbili za kujifunza zinazofanya kazi kwenye data sawa.

Kujifunza kwa Kukusanya Uchawi

Hapa unaweza kuona kwamba kuchanganya mifano miwili haikuboresha utendaji sana. Hapo awali, kwa algorithms mbili za mafunzo, maadili ya RΒ² yalikuwa -0,37 na 0,22, mtawaliwa, na kwa kusanyiko iligeuka kuwa -0,04. Hiyo ni, mfano wa EL ulipokea thamani ya wastani ya viashiria.

Hata hivyo, kuna tofauti kubwa kati ya mifano hii miwili: katika mfano wa kwanza, makosa ya mifano yaliunganishwa vibaya, na kwa pili - vyema (coefficients ya mifano mitatu haikukadiriwa, lakini ilichaguliwa tu na mwandishi. kama mfano.)

Kwa hivyo, Kujifunza kwa Ensemble kunaweza kutumiwa kuboresha usawa wa upendeleo/utawanyiko katika hali zote, lakini lini makosa ya mfano hayajaunganishwa vyema, kutumia EL kunaweza kusababisha utendaji bora.

Mifano ya homogeneous na tofauti

Mara nyingi sana EL hutumiwa kwenye mifano ya homogeneous (kama katika mfano huu au msitu wa random), lakini kwa kweli unaweza kuchanganya mifano tofauti (regression linear + neural network + XGBoost) na seti tofauti za vigezo vya maelezo. Hii inaweza kusababisha makosa ambayo hayajaunganishwa na kuboresha utendakazi.

Kulinganisha na mseto kwingineko

EL hufanya kazi kwa njia sawa na mseto katika nadharia ya kwingineko, lakini ni bora zaidi kwetu. 

Unapobadilisha, unajaribu kupunguza tofauti katika utendakazi wako kwa kuwekeza katika hisa zisizohusiana. Kwingineko iliyo na aina nyingi ya hisa itafanya vizuri zaidi kuliko hisa moja mbaya zaidi, lakini haitakuwa bora zaidi kuliko bora zaidi.

Akimnukuu Warren Buffett: 

"Mseto ni ulinzi dhidi ya ujinga, kwa mtu ambaye hajui anachofanya, [mseto] haina maana sana."

Katika kujifunza kwa mashine, EL husaidia kupunguza utofauti wa muundo wako, lakini hii inaweza kusababisha muundo wenye utendaji bora wa jumla kuliko muundo bora wa awali.

Jumla juu

Kuchanganya miundo mingi kuwa moja ni mbinu rahisi kiasi inayoweza kusababisha suluhu la tatizo la upendeleo wa tofauti na utendakazi ulioboreshwa.

Ikiwa una mifano miwili au zaidi inayofanya kazi vizuri, usichague kati yao: tumia zote (lakini kwa tahadhari)!

Je, una nia ya kuendeleza katika mwelekeo huu? Jisajili kwa somo la onyesho lisilolipishwa "Kuanzishwa kwa mifano ya ML kwa mazingira ya viwanda kwa kutumia mfano wa mapendekezo ya mtandaoni" na kushiriki katika mkutano wa mtandaoni na Andrey Kuznetsov - Mhandisi wa Kujifunza kwa Mashine katika Kikundi cha Mail.ru.

Chanzo: mapenzi.com

Kuongeza maoni