Apprentissage de l'Ensemble Magique

Hé Habr ! Nous invitons les ingénieurs de données et les spécialistes de l'apprentissage automatique à une leçon de démonstration gratuite "Introduction des modèles ML à l'environnement industriel à l'aide de l'exemple des recommandations en ligne". Nous publions également un article de Luca Monno - Head of Financial Analytics chez CDP SpA.

L'apprentissage d'ensemble est l'une des méthodes d'apprentissage automatique les plus utiles et les plus simples. Ensemble Learning est la technique sous-jacente pour XGBoost, Bagging, Random Forest et de nombreux autres algorithmes.

Il y a beaucoup d'excellents articles sur Vers la science des données, mais j'ai choisi deux histoires (premier и deuxième) que j'ai le plus aimé. Alors pourquoi écrire un autre article sur EL ? Parce que je veux te montrer comment ça marche sur un exemple simple, ce qui m'a fait comprendre qu'il n'y a pas de magie ici.

Quand j'ai vu EL pour la première fois en action (travaillant avec des modèles de régression très simples), je n'en croyais pas mes yeux, et je me souviens encore du professeur qui m'a enseigné cette méthode.

J'avais deux modèles différents (deux algorithmes d'apprentissage faibles) avec des exposants hors échantillon R² égal à 0,90 et 0,93 respectivement. Avant de regarder le résultat, je pensais que j'obtiendrais un R² quelque part entre les deux valeurs initiales. En d'autres termes, je pensais que EL pouvait être utilisé pour que le modèle ne fonctionne pas aussi mal que le pire modèle, mais pas aussi bien que le meilleur modèle le pouvait.

A ma grande surprise, les résultats d'une simple moyenne des prédictions ont donné un R² de 0,95. 

Au début, j'ai commencé à chercher une erreur, mais ensuite j'ai pensé qu'il pourrait y avoir de la magie cachée ici !

Qu'est-ce que l'apprentissage d'ensemble

Avec EL, vous pouvez combiner les prédictions de deux modèles ou plus pour obtenir un modèle plus fiable et plus performant. Il existe de nombreuses méthodologies pour travailler avec des ensembles de modèles. Ici, je vais aborder les deux plus utiles pour vous donner une idée.

Avec régression vous pouvez faire la moyenne des performances des modèles disponibles.

Avec classifications vous pouvez laisser les modèles choisir les étiquettes. L'étiquette qui a été choisie le plus souvent est celle qui sera choisie par le nouveau modèle.

Pourquoi EL fonctionne mieux

La raison principale pour laquelle EL fonctionne mieux est que chaque prédiction a une erreur (nous le savons grâce à la théorie des probabilités), la combinaison de deux prédictions peut aider à réduire l'erreur, et ainsi améliorer les indicateurs de performance (RMSE, R², etc.). d.).

Le diagramme suivant montre comment deux algorithmes faibles fonctionnent sur un ensemble de données. Le premier algorithme a une pente plus grande que nécessaire, tandis que le second a presque zéro (peut-être en raison d'une régularisation excessive). Mais ensemble montre de meilleurs résultats. 

Si vous regardez le R², alors le premier et le deuxième algorithme d'entraînement l'auront égal à -0.01¹, 0.22, respectivement, tandis que pour l'ensemble, il sera égal à 0.73.

Apprentissage de l'Ensemble Magique

Il existe de nombreuses raisons pour lesquelles un algorithme peut être un mauvais modèle, même pour un exemple basique comme celui-ci : peut-être avez-vous décidé d'utiliser la régularisation pour éviter le surajustement, ou vous avez décidé de ne pas éliminer certaines anomalies, ou peut-être avez-vous utilisé la régression polynomiale et choisi le mauvais degré (par exemple, utilisé un polynôme du second degré, et les données de test montrent une nette asymétrie, pour laquelle le troisième degré serait mieux adapté).

Quand EL fonctionne le mieux

Regardons deux algorithmes d'apprentissage qui fonctionnent sur les mêmes données.

Apprentissage de l'Ensemble Magique

Ici, vous pouvez voir que la combinaison des deux modèles n'a pas beaucoup amélioré les performances. Initialement, pour les deux algorithmes d'entraînement, les valeurs R² étaient respectivement de -0,37 et 0,22, et pour l'ensemble, elles se sont avérées être de -0,04. Autrement dit, le modèle EL a reçu la valeur moyenne des indicateurs.

Cependant, il y a une grande différence entre ces deux exemples : dans le premier exemple, les erreurs des modèles étaient corrélées négativement, et dans le second - positivement (les coefficients des trois modèles n'ont pas été estimés, mais ont simplement été choisis par l'auteur par exemple.)

Par conséquent, Ensemble Learning peut être utilisé pour améliorer l'équilibre biais/dispersion dans tous les cas, mais lorsque les erreurs de modèle ne sont pas positivement corrélées, l'utilisation d'EL peut conduire à de meilleures performances.

Modèles homogènes et hétérogènes

Très souvent, EL est utilisé sur des modèles homogènes (comme dans cet exemple ou forêt aléatoire), mais en fait, vous pouvez combiner différents modèles (régression linéaire + réseau de neurones + XGBoost) avec différents ensembles de variables explicatives. Cela est susceptible d'entraîner des erreurs non corrélées et d'améliorer les performances.

Comparaison avec la diversification du portefeuille

EL fonctionne de manière similaire à la diversification dans la théorie du portefeuille, mais tant mieux pour nous. 

Lorsque vous diversifiez, vous essayez de réduire la variance de vos performances en investissant dans des actions non corrélées. Un portefeuille d'actions bien diversifié se comportera mieux que la pire action individuelle, mais jamais mieux que la meilleure.

Citant Warren Buffett : 

"La diversification est une défense contre l'ignorance, pour quelqu'un qui ne sait pas ce qu'il fait, cela [la diversification] n'a que peu de sens."

Dans l'apprentissage automatique, EL aide à réduire la variance de votre modèle, mais cela peut se traduire par un modèle avec de meilleures performances globales que le meilleur modèle initial.

Récapituler

La combinaison de plusieurs modèles en un seul est une technique relativement simple qui peut conduire à une solution au problème de biais de variance et à une amélioration des performances.

Si vous avez deux ou plusieurs modèles qui fonctionnent bien, ne choisissez pas entre eux : utilisez-les tous (mais avec prudence) !

Êtes-vous intéressé à développer dans cette direction? Inscrivez-vous pour une leçon de démonstration gratuite "Introduction des modèles ML à l'environnement industriel à l'aide de l'exemple des recommandations en ligne" et participer à rencontre en ligne avec Andrey Kuznetsov — Ingénieur en apprentissage automatique chez Mail.ru Group.

Source: habr.com

Ajouter un commentaire