A maxia da aprendizaxe en conxunto

Ola Habr! Convidamos enxeñeiros de datos e especialistas en Machine Learning a unha lección de demostración gratuíta "Saída de modelos de ML nun ambiente industrial usando o exemplo de recomendacións en liña". Tamén publicamos o artigo Luca Monno - Xefe de Analítica Financeira de CDP SpA.

Un dos métodos de aprendizaxe automática máis útiles e sinxelos é o Ensemble Learning. Ensemble Learning é o método detrás de XGBoost, Bagging, Random Forest e moitos outros algoritmos.

Hai moitos artigos xeniais sobre Towards Data Science, pero escollín dúas historias (primeiro и segundo) que máis me gustou. Entón, por que escribir outro artigo sobre EL? Porque quero amosarche como funciona cun exemplo sinxelo, o que me fixo entender que aquí non hai maxia.

Cando vin por primeira vez a EL en acción (traballando con modelos de regresión moi sinxelos) non podía crer os meus ollos, e aínda recordo ao profesor que me ensinou este método.

Tiven dous modelos diferentes (dous algoritmos de adestramento débiles) con métricas fóra da mostra R² igual a 0,90 e 0,93, respectivamente. Antes de mirar o resultado, pensei que obtería un R² nalgún lugar entre os dous valores orixinais. Noutras palabras, eu cría que EL podería usarse para que un modelo funcione non tan mal como o peor modelo, pero non tan ben como o mellor modelo.

Para a miña gran sorpresa, simplemente facer unha media das predicións deu un R² de 0,95. 

Ao principio comecei a buscar o erro, pero despois pensei que podería haber algo de maxia escondido aquí!

Que é a aprendizaxe de conxunto

Con EL, podes combinar as predicións de dous ou máis modelos para producir un modelo máis robusto e eficaz. Existen moitas metodoloxías para traballar con conxuntos de modelos. Aquí tocarei os dous máis útiles para dar unha visión xeral.

Con regresión é posible facer unha media do rendemento dos modelos dispoñibles.

Con clasificación Podes dar aos modelos a oportunidade de escoller etiquetas. A etiqueta que se elixiu con máis frecuencia é a que elixirá o novo modelo.

Por que EL funciona mellor

O principal motivo polo que EL funciona mellor é que cada predición ten un erro (sabémolo pola teoría da probabilidade), a combinación de dúas predicións pode axudar a reducir o erro e, polo tanto, mellorar as métricas de rendemento (RMSE, R², etc.). d.).

O seguinte diagrama mostra como funcionan dous algoritmos débiles nun conxunto de datos. O primeiro algoritmo ten unha pendente maior da necesaria, mentres que o segundo ten case cero (posiblemente debido a unha sobreregularización). Pero conxunto mostra resultados moito mellores. 

Se observa o indicador R², entón para o primeiro e segundo algoritmo de adestramento será igual a -0.01¹, 0.22, respectivamente, mentres que para o conxunto será igual a 0.73.

A maxia da aprendizaxe en conxunto

Hai moitas razóns polas que un algoritmo pode ser un mal modelo mesmo nun exemplo básico como este: quizais decidiches usar a regularización para evitar un sobreajuste, ou decidiches non descartar algunhas anomalías, ou quizais utilizaches a regresión polinómica e equivocácheste. grao (por exemplo, usamos un polinomio de segundo grao, e os datos da proba mostran unha clara asimetría para a que sería máis adecuado o terceiro grao).

Cando EL funciona mellor

Vexamos dous algoritmos de aprendizaxe que traballan cos mesmos datos.

A maxia da aprendizaxe en conxunto

Aquí podes ver que a combinación dos dous modelos non mellorou moito o rendemento. Inicialmente, para os dous algoritmos de adestramento, os indicadores R² foron iguais a -0,37 e 0,22, respectivamente, e para o conxunto resultou ser -0,04. É dicir, o modelo EL recibiu o valor medio dos indicadores.

Non obstante, hai unha gran diferenza entre estes dous exemplos: no primeiro exemplo, os erros do modelo estaban correlacionados negativamente, e no segundo, estaban correlacionados positivamente (os coeficientes dos tres modelos non foron estimados, senón que simplemente foron escollidos pola autor como exemplo).

Polo tanto, o Ensemble Learning pódese utilizar para mellorar o equilibrio de sesgo/varianza en calquera caso, pero cando Os erros do modelo non están correlacionados positivamente, o uso de EL pode mellorar o rendemento.

Modelos homoxéneos e heteroxéneos

Moi a miúdo úsase EL en modelos homoxéneos (como neste exemplo ou bosque aleatorio), pero de feito pódese combinar diferentes modelos (regresión lineal + rede neuronal + XGBoost) con diferentes conxuntos de variables explicativas. Isto probablemente provocará erros sen correlación e un rendemento mellorado.

Comparación coa diversificación da carteira

EL funciona de forma similar á diversificación na teoría de carteiras, pero moito mellor para nós. 

Ao diversificar, intenta reducir a varianza do seu rendemento investindo en accións non correlacionadas. Unha carteira de accións ben diversificada terá un mellor rendemento que as peores accións individuais, pero nunca mellor que as mellores.

Para citar a Warren Buffett: 

"A diversificación é unha defensa contra a ignorancia; para alguén que non sabe o que está a facer, [a diversificación] ten moi pouco sentido".

Na aprendizaxe automática, EL axuda a reducir a varianza do teu modelo, pero pode producir un modelo cun rendemento xeral mellor que o mellor modelo orixinal.

Resumir

Combinar varios modelos nun só é unha técnica relativamente sinxela que pode levar a resolver o problema do sesgo de varianza e mellorar o rendemento.

Se tes dous ou máis modelos que funcionan ben, non escollas entre eles: úsaos todos (pero con precaución)!

Estás interesado en desenvolverte nesta dirección? Rexístrate para unha lección de demostración gratuíta "Saída de modelos de ML nun ambiente industrial usando o exemplo de recomendacións en liña" e participar reunión en liña con Andrey Kuznetsov — Enxeñeiro de aprendizaxe automática en Mail.ru Group.

Fonte: www.habr.com

Engadir un comentario