A magia di l'apprendimentu d'ensemble

Ehi Habr! Invitemu Data Engineers è Specialists Machine Learning à una lezione Demo gratuita "Output di mudelli ML in un ambiente industriale cù l'esempiu di cunsiglii in linea". Publicemu dinò l'articulu Luca Monno - Head of Financial Analytics in CDP SpA.

Unu di i metudi di machine learning più utili è simplici hè Ensemble Learning. Ensemble Learning hè u metudu daretu à XGBoost, Bagging, Random Forest è parechji altri algoritmi.

Ci sò assai articuli fantastichi nantu à Towards Data Science, ma aghju sceltu duie storie (u primu и u sicondu) chì mi piace u più. Allora perchè scrive un altru articulu nantu à EL? Perchè vi vogliu mustrà cumu si travaglia cù un esempiu simplice, chì m'hà fattu capisce chì ùn ci hè micca magia quì.

Quandu aghju vistu prima EL in azzione (travagliu cù qualchi mudelli di regressione assai simplice) ùn pudia micca crede à i mo ochji, è mi ricordu sempre di u prufessore chì m'hà amparatu stu metudu.

Aviu avutu dui mudelli diffirenti (dui algoritmi di furmazione debuli) cù metrica fora di campionu R² uguali à 0,90 è 0,93, rispettivamente. Prima di guardà u risultatu, aghju pensatu chì avissi da ottene un R² in qualchì locu trà i dui valori originali. In altri palori, aghju cridutu chì l'EL puderia esse aduprata per fà chì un mudellu ùn sia micca pocu cum'è u peghju mudellu, ma micca cusì bè chì u megliu mudellu puderia fà.

À a mo grande sorpresa, solu una media di e previsioni hà datu un R² di 0,95. 

À u principiu, aghju cuminciatu à circà l'errore, ma dopu aghju pensatu chì puderia esse una magia chì si nasconde quì!

Cosa hè Ensemble Learning

Cù EL, pudete combine e previsioni di dui o più mudelli per pruduce un mudellu più robustu è performante. Ci hè parechje metodulugia per travaglià cù insemi di mudelli. Quì tocca à i dui più utili per dà una visione generale.

Cù l'aiutu di regressione hè pussibule di mediu u rendiment di mudelli dispunibili.

Cù l'aiutu di classificazione Pudete dà mudelli l'uppurtunità di sceglie etichette. L'etichetta chì hè stata scelta più spessu hè quella chì serà sceltu da u novu mudellu.

Perchè EL funziona megliu

U mutivu principalu per quessa EL rende megliu hè chì ogni prediczione hà un errore (sapemu questu da a teoria di probabilità), cumminendu dui predizioni pò aiutà à riduce l'errore, è dunque migliurà e metriche di rendiment (RMSE, R², etc.). d.).

U schema seguente mostra cumu dui algoritmi debuli operanu nantu à un settore di dati. U primu algoritmu hà una pendenza più grande di ciò chì hè necessariu, mentre chì u sicondu hà quasi zero (possibilmente per via di una regulazione eccessiva). Ma ducali mostra risultati assai megliu. 

Se guardate l'indicatore R², allora per u primu è u sicondu algoritmu di furmazione serà uguale à -0.01¹, 0.22, rispettivamente, mentre chì per l'inseme serà uguale à 0.73.

A magia di l'apprendimentu d'ensemble

Ci hè parechje ragioni per quessa chì un algoritmu pò esse un mudellu cattivu ancu nantu à un esempiu basicu cum'è questu: forse avete decisu di utilizà a regularizazione per evità l'overfitting, o avete decisu di ùn escludiri alcune anomalie, o forse avete usatu a regressione polinomiale è avete sbagliatu. gradu (per esempiu, avemu usatu un polinomiu di u sicondu gradu, è i dati di teste mostranu una asimmetria chjara per quale u terzu gradu seria megliu adattatu).

Quandu EL travaglia megliu

Fighjemu dui algoritmi di apprendimentu chì travaglianu cù i stessi dati.

A magia di l'apprendimentu d'ensemble

Quì pudete vede chì cumminendu i dui mudelli ùn hà micca migliuratu assai u rendiment. Inizialmente, per i dui algoritmi di furmazione, l'indicatori R² eranu uguali à -0,37 è 0,22, rispettivamente, è per l'inseme hè stata -0,04. Questu hè, u mudellu EL hà ricevutu u valore mediu di l'indicatori.

In ogni casu, ci hè una grande diferenza trà sti dui esempii: in u primu esempiu, l'errore di mudellu sò stati correlati negativamente, è in u sicondu, sò stati correlati positivamente (i coefficienti di i trè mudelli ùn sò micca stati stimati, ma sò stati simpliciamente scelti da u autore per esempiu).

Per quessa, Ensemble Learning pò ièssiri usatu a migliurà u equilibriu bias / varianza in ogni casu, ma quandu L'errori di mudellu ùn sò micca correlati positivamente, l'usu di EL pò purtà à un rendimentu migliuratu.

Modelli omogenei è eterogenei

Moltu spessu EL hè utilizatu nantu à mudelli homogenei (cum'è in questu esempiu o furesta aleatoria), ma in fatti pudete cumminà mudelli diffirenti (regressione lineale + rete neurale + XGBoost) cù diversi setti di variabili esplicative. Questu prubabilmente risulterà in errori senza correlazioni è prestazioni migliorate.

Comparazione cù a diversificazione di cartera

EL travaglia in modu simile à a diversificazione in a teoria di cartera, ma tantu megliu per noi. 

Quandu si diversificate, pruvate di riduce a varianza di u vostru rendimentu invistisce in stocks senza correlazioni. Una cartera ben diversificata di azzioni farà megliu cà u peghju stock individuale, ma mai megliu cà u megliu.

Per citari Warren Buffett: 

"A diversificazione hè una difesa contr'à l'ignuranza; à qualchissia chì ùn sapi micca ciò chì face, [a diversificazione] hà pocu sensu".

In l'apprendimentu automaticu, EL aiuta à riduce a varianza di u vostru mudellu, ma pò esse risultatu in un mudellu cù prestazioni generale megliu cà u megliu mudellu originale.

Immaimu i risultati

Cumminendu parechji mudelli in unu hè una tecnica relativamente simplice chì pò guidà à risolve u prublema di u bias di varianza è à migliurà u rendiment.

Sì avete dui o più mudelli chì funzionanu bè, ùn sceglite micca trà elli : aduprate tutti (ma cun prudenza) !

Avete interessatu à sviluppà in questa direzzione? Iscriviti per una lezione Demo gratuita "Output di mudelli ML in un ambiente industriale cù l'esempiu di cunsiglii in linea" è participà riunione in linea cù Andrey Kuznetsov — Machine Learning Engineer à Mail.ru Group.

Source: www.habr.com

Add a comment