Apprendimento dell'ensemble magico

Ehi Habr! Invitiamo i Data Engineer e gli specialisti di Machine Learning a una lezione demo gratuita "Introduzione di modelli ML nell'ambiente industriale utilizzando l'esempio delle raccomandazioni online". Pubblichiamo anche un articolo di Luca Monno - Head of Financial Analytics di CDP SpA.

Uno dei metodi di machine learning più utili e semplici è l'Ensemble Learning. Ensemble Learning è la tecnica alla base di XGBoost, Bagging, Random Forest e molti altri algoritmi.

Ci sono molti ottimi articoli su Towards Data Science, ma ho scelto due storie (prima и secondo) che mi è piaciuto di più. Allora perché scrivere un altro articolo su EL? Perché voglio mostrartelo come funziona su un semplice esempio, il che mi ha fatto capire che qui non c'è magia.

Quando ho visto per la prima volta EL in azione (lavorando con alcuni semplicissimi modelli di regressione) non potevo credere ai miei occhi, e ricordo ancora il professore che mi ha insegnato questo metodo.

Avevo due modelli diversi (due algoritmi di apprendimento deboli) con esponenti fuori campione R² pari rispettivamente a 0,90 e 0,93. Prima di guardare il risultato, ho pensato che avrei ottenuto R² da qualche parte tra i due valori iniziali. In altre parole, ho pensato che EL potesse essere utilizzato per fare in modo che il modello non si comportasse così male come il modello peggiore, ma non così bene come potrebbe fare il modello migliore.

Con mia grande sorpresa, i risultati di una semplice media delle previsioni hanno dato un R² di 0,95. 

All'inizio ho iniziato a cercare un errore, ma poi ho pensato che potesse esserci della magia nascosta qui!

Cos'è l'apprendimento d'insieme

Con EL, puoi combinare le previsioni di due o più modelli per ottenere un modello più affidabile e performante. Esistono molte metodologie per lavorare con insiemi di modelli. Qui toccherò i due più utili per darvi un'idea.

Con regressione puoi fare la media delle prestazioni dei modelli disponibili.

Con classificazione puoi lasciare che i modelli scelgano le etichette. L'etichetta che è stata scelta più spesso è quella che verrà scelta dal nuovo modello.

Perché EL funziona meglio

Il motivo principale per cui EL funziona meglio è perché ogni previsione ha un errore (lo sappiamo dalla teoria della probabilità), la combinazione di due previsioni può aiutare a ridurre l'errore e quindi a migliorare gli indicatori di prestazione (RMSE, R², ecc.). d.).

Il diagramma seguente mostra il funzionamento di due algoritmi deboli su un set di dati. Il primo algoritmo ha una pendenza maggiore del necessario, mentre il secondo ne ha quasi zero (probabilmente a causa di un'eccessiva regolarizzazione). Ma insieme mostra risultati migliori. 

Se guardi l'R², il primo e il secondo algoritmo di addestramento lo avranno rispettivamente pari a -0.01¹, 0.22, mentre per l'insieme sarà uguale a 0.73.

Apprendimento dell'ensemble magico

Ci sono molte ragioni per cui un algoritmo può essere un modello scadente anche per un esempio di base come questo: forse hai deciso di usare la regolarizzazione per evitare l'overfitting, o hai deciso di non eliminare alcune anomalie, o forse hai usato la regressione polinomiale e hai scelto il grado sbagliato (ad esempio , utilizzato un polinomio di secondo grado, ei dati del test mostrano una chiara asimmetria, per la quale sarebbe più adatto il terzo grado).

Quando EL funziona meglio

Diamo un'occhiata a due algoritmi di apprendimento che lavorano sugli stessi dati.

Apprendimento dell'ensemble magico

Qui puoi vedere che la combinazione dei due modelli non ha migliorato molto le prestazioni. Inizialmente, per i due algoritmi di addestramento, i valori R² erano rispettivamente -0,37 e 0,22, mentre per l'insieme risultava essere -0,04. Cioè, il modello EL ha ricevuto il valore medio degli indicatori.

Tuttavia, c'è una grande differenza tra questi due esempi: nel primo esempio, gli errori dei modelli erano correlati negativamente, e nel secondo - positivamente (i coefficienti dei tre modelli non sono stati stimati, ma sono stati semplicemente scelti dall'autore come esempio.)

Pertanto, l'Ensemble Learning può essere utilizzato per migliorare l'equilibrio bias/dispersione in tutti i casi, ma quando gli errori del modello non sono correlati positivamente, l'utilizzo di EL può portare a prestazioni migliori.

Modelli omogenei ed eterogenei

Molto spesso EL viene utilizzato su modelli omogenei (come in questo esempio o foresta casuale), ma in realtà è possibile combinare diversi modelli (regressione lineare + rete neurale + XGBoost) con diversi set di variabili esplicative. È probabile che ciò porti a errori non correlati e migliori le prestazioni.

Confronto con la diversificazione del portafoglio

EL funziona in modo simile alla diversificazione nella teoria del portafoglio, ma tanto meglio per noi. 

Quando diversifichi, cerchi di ridurre la varianza della tua performance investendo in azioni non correlate. Un portafoglio di azioni ben diversificato avrà un rendimento migliore del peggior singolo titolo, ma mai migliore del migliore.

Citando Warren Buffett: 

"La diversificazione è una difesa contro l'ignoranza, per qualcuno che non sa cosa sta facendo, [la diversificazione] ha molto poco senso".

Nell'apprendimento automatico, EL aiuta a ridurre la varianza del modello, ma ciò può comportare un modello con prestazioni complessive migliori rispetto al miglior modello iniziale.

Riassumere

La combinazione di più modelli in uno è una tecnica relativamente semplice che può portare a una soluzione al problema della distorsione della varianza e a prestazioni migliori.

Se hai due o più modelli che funzionano bene, non scegliere tra di loro: usali tutti (ma con cautela)!

Sei interessato a svilupparti in questa direzione? Iscriviti per una lezione demo gratuita "Introduzione di modelli ML nell'ambiente industriale utilizzando l'esempio delle raccomandazioni online" e partecipare a incontro online con Andrey Kuznetsov — Ingegnere di Machine Learning presso Mail.ru Group.

Fonte: habr.com

Aggiungi un commento