La màgia de l'aprenentatge conjunt

Hola Habr! Convidem els enginyers de dades i els especialistes en aprenentatge automàtic a una lliçó de demostració gratuïta "Producció de models ML a un entorn industrial utilitzant l'exemple de recomanacions en línia". També publiquem l'article Luca Monno - Head of Financial Analytics at CDP SpA.

Un dels mètodes d'aprenentatge automàtic més útils i senzills és Ensemble Learning. Ensemble Learning és el mètode darrere de XGBoost, Bagging, Random Forest i molts altres algorismes.

Hi ha molts articles fantàstics sobre Towards Data Science, però vaig triar dues històries (primer и segon) que més m'ha agradat. Aleshores, per què escriure un altre article sobre EL? Perquè us vull mostrar com funciona amb un exemple senzill, que em va fer entendre que aquí no hi ha màgia.

La primera vegada que vaig veure EL en acció (treballant amb uns models de regressió molt senzills) no em podia creure els meus ulls, i encara recordo el professor que em va ensenyar aquest mètode.

Tenia dos models diferents (dos algorismes d'entrenament febles) amb mètriques fora de mostra R² igual a 0,90 i 0,93, respectivament. Abans de mirar el resultat, vaig pensar que obtindria una R² entre els dos valors originals. En altres paraules, vaig creure que el EL es podria utilitzar per fer que un model funcioni no tan malament com el pitjor model, però no tan bé com podria tenir el millor model.

Per a la meva gran sorpresa, només fent una mitjana de les prediccions va obtenir un R² de 0,95. 

Al principi vaig començar a buscar l'error, però després vaig pensar que hi podria haver alguna màgia amagada aquí!

Què és l'aprenentatge conjunt

Amb EL, podeu combinar les prediccions de dos o més models per produir un model més robust i amb més rendiment. Hi ha moltes metodologies per treballar amb conjunts de models. Aquí tocaré els dos més útils per donar una visió general.

Amb regressió és possible fer una mitjana del rendiment dels models disponibles.

Amb classificació Podeu donar als models l'oportunitat de triar etiquetes. L'etiqueta que s'ha escollit més sovint és la que escollirà el nou model.

Per què EL funciona millor

El principal motiu pel qual EL funciona millor és que cada predicció té un error (ho sabem per la teoria de la probabilitat), combinar dues prediccions pot ajudar a reduir l'error i, per tant, millorar les mètriques de rendiment (RMSE, R², etc.). d.).

El diagrama següent mostra com funcionen dos algorismes febles en un conjunt de dades. El primer algorisme té un pendent més gran del necessari, mentre que el segon té gairebé zero (possiblement a causa de la sobreregularització). Però conjunt mostra resultats molt millors. 

Si observeu l'indicador R², per al primer i segon algorisme d'entrenament serà igual a -0.01¹, 0.22, respectivament, mentre que per al conjunt serà igual a 0.73.

La màgia de l'aprenentatge conjunt

Hi ha moltes raons per les quals un algorisme pot ser un mal model fins i tot en un exemple bàsic com aquest: potser heu decidit fer servir la regularització per evitar l'ajustament excessiu, o heu decidit no descartar algunes anomalies, o potser heu utilitzat la regressió polinòmica i us heu equivocat. grau (per exemple, hem utilitzat un polinomi de segon grau, i les dades de la prova mostren una clara asimetria per a la qual seria més adequat el tercer grau).

Quan EL funciona millor

Vegem dos algorismes d'aprenentatge que funcionen amb les mateixes dades.

La màgia de l'aprenentatge conjunt

Aquí podeu veure que la combinació dels dos models no va millorar gaire el rendiment. Inicialment, per als dos algorismes d'entrenament, els indicadors R² eren iguals a -0,37 i 0,22, respectivament, i per al conjunt va resultar ser -0,04. És a dir, el model EL va rebre el valor mitjà dels indicadors.

Tanmateix, hi ha una gran diferència entre aquests dos exemples: en el primer exemple, els errors del model estaven correlacionats negativament, i en el segon, estaven correlacionats positivament (els coeficients dels tres models no es van estimar, sinó que simplement van ser escollits pel autor com a exemple).

Per tant, Ensemble Learning es pot utilitzar per millorar l'equilibri de biaix/variància en qualsevol cas, però quan Els errors del model no estan correlacionats positivament, l'ús d'EL pot millorar el rendiment.

Models homogenis i heterogenis

Molt sovint EL s'utilitza en models homogenis (com en aquest exemple o bosc aleatori), però de fet podeu combinar diferents models (regressió lineal + xarxa neuronal + XGBoost) amb diferents conjunts de variables explicatives. Això probablement donarà lloc a errors no correlacionats i a un rendiment millorat.

Comparació amb la diversificació de la cartera

EL funciona de manera similar a la diversificació en teoria de carteres, però tant millor per a nosaltres. 

En diversificar, intenteu reduir la variació del vostre rendiment invertint en accions no correlacionades. Una cartera d'accions ben diversificada funcionarà millor que la pitjor accions individuals, però mai millor que la millor.

Citant a Warren Buffett: 

"La diversificació és una defensa contra la ignorància; per a algú que no sap el que està fent, [la diversificació] té molt poc sentit".

En l'aprenentatge automàtic, EL ajuda a reduir la variància del vostre model, però pot resultar en un model amb un rendiment global millor que el millor model original.

Resumir

La combinació de diversos models en un és una tècnica relativament senzilla que pot conduir a resoldre el problema del biaix de la variància i millorar el rendiment.

Si teniu dos o més models que funcionen bé, no trieu entre ells: feu servir-los tots (però amb precaució)!

T'interessa desenvolupar-te en aquesta direcció? Inscriu-te per a una lliçó de demostració gratuïta "Producció de models ML a un entorn industrial utilitzant l'exemple de recomanacions en línia" i participar-hi reunió en línia amb Andrey Kuznetsov — Enginyer d'aprenentatge automàtic a Mail.ru Group.

Font: www.habr.com

Afegeix comentari