Majik nan aprantisaj ansanbl

Hey Habr! Nou envite enjenyè done yo ak espesyalis aprantisaj machin nan yon leson Demo gratis "Pòti modèl ML nan yon anviwònman endistriyèl lè l sèvi avèk egzanp rekòmandasyon sou entènèt la". Nou menm tou nou pibliye atik la Luca Monno - Head of Financial Analytics nan CDP SpA.

Youn nan metòd aprantisaj machin ki pi itil ak senp se Ensemble Learning. Ensemble Learning se metòd dèyè XGBoost, Bagage, Random Forest ak anpil lòt algoritm.

Gen anpil bèl atik sou Towards Data Science, men mwen te chwazi de istwa (premye и dezyèm fwa) ki mwen te renmen plis. Se konsa, poukisa ekri yon lòt atik sou EL? Paske mwen vle montre w ki jan li fonksyone ak yon egzanp senp, ki fè m konprann ke pa gen okenn maji isit la.

Lè mwen te fèk wè EL nan aksyon (k ap travay ak kèk modèl regression trè senp) mwen pa t 'kapab kwè je m', epi mwen toujou sonje pwofesè a ki te anseye m 'metòd sa a.

Mwen te gen de modèl diferan (de algoritm fòmasyon fèb) ak metrik soti nan echantiyon R² egal a 0,90 ak 0,93, respektivman. Anvan gade rezilta a, mwen te panse mwen ta jwenn yon R² yon kote ant de valè orijinal yo. Nan lòt mo, mwen te kwè ke EL te kapab itilize pou fè yon modèl fè pa osi mal ke modèl ki pi mal la, men pa osi byen ke pi bon modèl la te kapab fè.

Nan gwo sipriz mwen, tou senpleman mwayèn prediksyon yo bay yon R² nan 0,95. 

Okòmansman mwen te kòmanse chèche erè a, men Lè sa a, mwen te panse ke ta ka gen kèk majik kache isit la!

Ki sa ki Ensemble Learning

Avèk EL, ou ka konbine prediksyon de oswa plis modèl pou pwodwi yon modèl ki pi solid ak pi efikas. Gen anpil metodoloji pou travay ak ansanbl modèl. Isit la mwen pral manyen sou de sa yo ki pi itil yo bay yon apèsi.

Avèk regression li posib fè mwayèn pèfòmans nan modèl ki disponib.

Avèk klasifikasyon Ou ka bay modèl opòtinite pou yo chwazi etikèt. Etikèt la ki te chwazi pi souvan se youn nan ki pral chwazi pa nouvo modèl la.

Poukisa EL travay pi byen

Rezon prensipal ki fè EL fè pi byen se ke chak prediksyon gen yon erè (nou konnen sa a nan teyori pwobabilite), konbine de prediksyon ka ede diminye erè a, epi kidonk amelyore mezi pèfòmans (RMSE, R², elatriye). d.).

Dyagram sa a montre kouman de algoritm fèb opere sou yon seri done. Premye algorithm la gen yon pant pi gwo pase sa nesesè, pandan y ap dezyèm lan gen prèske zewo (pètèt akòz regilasyon twòp). Men ansanbl montre pi bon rezilta. 

Si ou gade nan endikatè R² a, Lè sa a, pou algorithm fòmasyon an premye ak dezyèm li pral egal a -0.01¹, 0.22, respektivman, pandan y ap pou ansanbl la li pral egal a 0.73.

Majik nan aprantisaj ansanbl

Gen anpil rezon ki fè yon algorithm ka yon move modèl menm sou yon egzanp debaz tankou sa a: petèt ou deside sèvi ak regilarize pou evite twòp, oswa ou deside pa eskli kèk anomali, oswa petèt ou te itilize regression polinòm epi ou te fè sa ki mal. degre (pa egzanp, nou itilize yon polinòm nan dezyèm degre, ak done tès yo montre yon asimetri klè pou ki twazyèm degre nan ta pi byen adapte).

Lè EL travay pi byen

Ann gade de algorithm aprantisaj k ap travay ak menm done yo.

Majik nan aprantisaj ansanbl

Isit la ou ka wè ke konbine de modèl yo pa t 'amelyore pèfòmans anpil. Okòmansman, pou de algoritm fòmasyon yo, endikatè R² yo te egal a -0,37 ak 0,22, respektivman, ak pou ansanbl la li te tounen soti yo dwe -0,04. Sa vle di, modèl EL a te resevwa valè mwayèn endikatè yo.

Sepandan, gen yon gwo diferans ant de egzanp sa yo: nan premye egzanp, erè modèl yo te korelasyon negatif, ak nan dezyèm lan, yo te korelasyon pozitivman (koefisyan yo nan twa modèl yo pa te estime, men yo te tou senpleman chwazi pa la. otè kòm yon egzanp.)

Se poutèt sa, Ensemble Learning ka itilize pou amelyore balans patipri/divèjans nan nenpòt ka, men ki lè Erè modèl yo pa gen rapò pozitif, lè l sèvi avèk EL ka mennen nan amelyore pèfòmans.

Modèl omojèn ak etewojèn

Trè souvan EL yo itilize sou modèl omojèn (tankou nan egzanp sa a oswa forè o aza), men an reyalite ou ka konbine modèl diferan (regression lineyè + rezo neral + XGBoost) ak diferan seri varyab eksplikasyon. Sa a pral gen anpil chans lakòz erè ki pa korel ak pèfòmans amelyore.

Konparezon ak diversification portefeuille

EL travay menm jan ak diversification nan teyori pòtfolyo, men tèlman pi bon pou nou. 

Lè divèsifye, ou eseye diminye divèjans nan pèfòmans ou pa envesti nan aksyon ki pa korelasyon. Yon pòtfolyo byen divèsifye nan aksyon pral fè pi bon pase pi move aksyon endividyèl la, men pa janm pi bon pase pi bon an.

Pou site Warren Buffett: 

"Divèsifikasyon se yon defans kont inyorans; pou yon moun ki pa konnen sa l ap fè, li [divèsifikasyon] pa gen anpil sans."

Nan aprantisaj machin, EL ede diminye divèjans nan modèl ou a, men li ka lakòz yon modèl ki gen pèfòmans jeneral pi bon pase pi bon modèl orijinal la.

Sòm moute

Konbine plizyè modèl nan yon sèl se yon teknik relativman senp ki ka mennen nan rezoud pwoblèm nan nan patipri divèjans ak amelyore pèfòmans.

Si ou gen de oswa plis modèl ki travay byen, pa chwazi ant yo: sèvi ak yo tout (men ak prekosyon)!

Èske w enterese devlope nan direksyon sa a? Enskri pou yon leson Demo gratis "Pòti modèl ML nan yon anviwònman endistriyèl lè l sèvi avèk egzanp rekòmandasyon sou entènèt la" epi patisipe nan reyinyon sou entènèt ak Andrey Kuznetsov — Machine Learning Engineer nan Mail.ru Group.

Sous: www.habr.com

Add nouvo kòmantè