Apprentissage par renforcement ou stratégies évolutives ? - Les deux

Hé Habr !

Nous ne décidons pas souvent de publier ici des traductions de textes vieux de deux ans, sans code et clairement de nature académique - mais aujourd'hui nous ferons une exception. Nous espérons que le dilemme posé dans le titre de l'article inquiète beaucoup de nos lecteurs, et vous avez déjà lu le travail fondamental sur les stratégies évolutives avec lequel cet article argumente dans l'original ou vous le lirez maintenant. Bienvenue chez le chat !

Apprentissage par renforcement ou stratégies évolutives ? - Les deux

En mars 2017, OpenAI a fait des vagues dans la communauté du deep learning avec le document «Les stratégies d'évolution comme alternative évolutive à l'apprentissage par renforcement.» Ce travail a décrit des résultats impressionnants en faveur du fait que l'apprentissage par renforcement (RL) n'est pas devenu un coin, et lors de la formation de réseaux neuronaux complexes, il est conseillé d'essayer d'autres méthodes. Un débat a alors éclaté sur l’importance de l’apprentissage par renforcement et sur la manière dont il méritait son statut de technologie « incontournable » pour enseigner la résolution de problèmes. Je tiens ici à dire qu'il ne faut pas considérer comme concurrentes ces deux technologies dont l'une est nettement meilleure que l'autre ; au contraire, ils se complètent en fin de compte. En effet, si vous réfléchissez un peu à ce qu'il faut pour créer IA générale et de tels systèmes, qui tout au long de leur existence seraient capables d'apprendre, de juger et de planifier, alors nous arriverons presque certainement à la conclusion que telle ou telle solution combinée sera nécessaire. D'ailleurs, c'est précisément cette solution combinée à laquelle est parvenue la nature, qui a doté les mammifères et autres animaux supérieurs d'une intelligence complexe au cours de l'évolution.

Stratégies évolutives

La thèse principale de l'article d'OpenAI était qu'au lieu d'utiliser l'apprentissage par renforcement combiné à la rétropropagation traditionnelle, ils ont réussi à former un réseau de neurones pour résoudre des problèmes complexes en utilisant ce qu'ils ont appelé une « stratégie évolutive » (ES). Cette approche ES consiste à maintenir une distribution de poids à l'échelle du réseau, impliquant plusieurs agents travaillant en parallèle et utilisant des paramètres sélectionnés dans cette distribution. Chaque agent opère dans son propre environnement et, à la fin d'un nombre spécifié d'épisodes ou d'étapes d'un épisode, l'algorithme renvoie une récompense cumulative, exprimée sous la forme d'un score de condition physique. En tenant compte de cette valeur, la distribution des paramètres peut être déplacée vers les agents les plus performants, privant ainsi les agents les moins performants. En répétant une telle opération des millions de fois avec la participation de centaines d'agents, il est possible de déplacer la répartition des poids vers un espace qui permettra aux agents de formuler une politique de qualité pour résoudre la tâche qui leur est assignée. En effet, les résultats présentés dans l'article sont impressionnants : il est démontré que si l'on fait fonctionner un millier d'agents en parallèle, alors la locomotion anthropomorphique sur deux jambes peut être apprise en moins d'une demi-heure (alors que même les méthodes RL les plus avancées nécessitent de dépenser plus plus d'une heure là-dessus). Pour des informations plus détaillées, je vous recommande de lire l'excellent poster des auteurs de l'expérience, ainsi que article scientifique.

Apprentissage par renforcement ou stratégies évolutives ? - Les deux

Différentes stratégies d'enseignement de la marche debout anthropomorphe, étudiées grâce à la méthode ES d'OpenAI.

Boîte noire

Le grand avantage de cette méthode est qu’elle peut être facilement parallélisée. Alors que les méthodes RL, telles que A3C, nécessitent l'échange d'informations entre les threads de travail et un serveur de paramètres, ES n'a besoin que d'estimations de fitness et d'informations généralisées sur la distribution des paramètres. C’est grâce à cette simplicité que cette méthode est bien en avance sur les méthodes RL modernes en termes de capacités de mise à l’échelle. Cependant, tout cela n’est pas vain : il faut optimiser le réseau selon le principe de la boîte noire. Dans ce cas, la « boîte noire » signifie que lors de la formation, la structure interne du réseau est complètement ignorée, et seul le résultat global (récompense pour l'épisode) est utilisé, et cela dépend si les poids d'un réseau particulier seront être hérité par les générations suivantes. Dans les situations où nous ne recevons pas beaucoup de retours de l’environnement – ​​et dans de nombreux problèmes RL traditionnels, le flux de récompenses est très clairsemé – le problème passe d’une « boîte partiellement noire » à une « boîte complètement noire ». Dans ce cas, vous pouvez augmenter considérablement la productivité, donc, bien sûr, un tel compromis est justifié. « Qui a besoin de dégradés s’ils sont désespérément bruyants ? » - c'est l'opinion générale.

Cependant, dans les situations où le feedback est plus actif, les choses commencent à mal tourner pour le SE. L'équipe OpenAI décrit comment un simple réseau de classification MNIST a été formé à l'aide d'ES, et cette fois, la formation a été 1000 XNUMX fois plus lente. Le fait est que le signal de gradient dans la classification d’images est extrêmement informatif sur la manière d’enseigner une meilleure classification au réseau. Ainsi, le problème concerne moins la technique RL que les récompenses éparses dans des environnements produisant des gradients bruyants.

La solution de la nature

Si nous essayons de tirer les leçons de l’exemple de la nature, en réfléchissant aux moyens de développer l’IA, alors dans certains cas, l’IA peut être considérée comme approche orientée problème. Après tout, la nature fonctionne dans le cadre de contraintes que les informaticiens n’ont tout simplement pas. Il existe une opinion selon laquelle une approche purement théorique pour résoudre un problème particulier peut fournir des solutions plus efficaces que des alternatives empiriques. Cependant, je pense toujours qu'il serait intéressant de tester comment un système dynamique fonctionnant sous certaines contraintes (la Terre) a généré des agents (des animaux, notamment des mammifères) capables d'avoir des comportements flexibles et complexes. Bien que certaines de ces contraintes ne s’appliquent pas aux mondes simulés de la science des données, d’autres conviennent parfaitement.

Après avoir examiné le comportement intellectuel des mammifères, nous voyons qu'il se forme à la suite de l'influence mutuelle complexe de deux processus étroitement liés : apprendre des expériences des autres и apprentissage par la pratique. La première est souvent assimilée à une évolution induite par la sélection naturelle, mais j’utilise ici un terme plus large pour prendre en compte l’épigénétique, les microbiomes et d’autres mécanismes qui permettent le partage d’expériences entre des organismes génétiquement non liés. Le deuxième processus, l'apprentissage par l'expérience, concerne toutes les informations qu'un animal parvient à apprendre tout au long de sa vie, et ces informations sont directement déterminées par l'interaction de cet animal avec le monde extérieur. Cette catégorie comprend tout, depuis l'apprentissage de la reconnaissance des objets jusqu'à la maîtrise de la communication inhérente au processus d'apprentissage.

En gros, ces deux processus naturels peuvent être comparés à deux options d'optimisation des réseaux de neurones. Les stratégies évolutives, dans lesquelles les informations sur les gradients sont utilisées pour mettre à jour les informations sur l’organisme, se rapprochent de l’apprentissage de l’expérience des autres. De même, les méthodes de gradient, où l’obtention de telle ou telle expérience conduit à tel ou tel changement de comportement de l’agent, sont assimilables à l’apprentissage de sa propre expérience. Si l’on réfléchit aux types de comportements ou de capacités intelligents que chacune de ces deux approches développe chez les animaux, la comparaison devient plus prononcée. Dans les deux cas, les « méthodes évolutives » favorisent l’étude de comportements réactifs qui permettent de développer une certaine forme physique (suffisante pour rester en vie). Apprendre à marcher ou à s’échapper de la captivité équivaut dans de nombreux cas à des comportements plus « instinctifs » qui sont « câblés » chez de nombreux animaux au niveau génétique. De plus, cet exemple confirme que les méthodes évolutives sont applicables dans les cas où le signal de récompense est extrêmement rare (par exemple, le fait d'élever avec succès un bébé). Dans un tel cas, il est impossible de corréler la récompense avec un ensemble spécifique d'actions qui auraient pu être accomplies plusieurs années avant que ce fait ne se produise. D’un autre côté, si l’on considère un cas dans lequel l’ES échoue, à savoir la classification d’images, les résultats sont remarquablement comparables aux résultats de l’apprentissage animal obtenus dans d’innombrables expériences de psychologie comportementale menées sur plus de 100 ans.

Apprendre des animaux

Les méthodes utilisées dans l’apprentissage par renforcement sont dans de nombreux cas directement tirées de la littérature psychologique sur conditionnement opérant, et le conditionnement opérant a été étudié en utilisant la psychologie animale. D’ailleurs, Richard Sutton, l’un des deux fondateurs de l’apprentissage par renforcement, est titulaire d’un baccalauréat en psychologie. Dans le contexte du conditionnement opérant, les animaux apprennent à associer la récompense ou la punition à des modèles comportementaux spécifiques. Les dresseurs et les chercheurs peuvent manipuler cette association de récompense d’une manière ou d’une autre, incitant les animaux à faire preuve d’intelligence ou à certains comportements. Cependant, le conditionnement opérant, tel qu'utilisé dans la recherche animale, n'est rien d'autre qu'une forme plus prononcée du même conditionnement sur la base duquel les animaux apprennent tout au long de leur vie. Nous recevons constamment des signaux de renforcement positif de l’environnement et ajustons notre comportement en conséquence. En fait, de nombreux neuroscientifiques et spécialistes des sciences cognitives croient que les humains et les autres animaux opèrent à un niveau encore plus élevé et apprennent continuellement à prédire l’issue de leur comportement dans des situations futures en fonction des récompenses potentielles.

Le rôle central de la prédiction dans l’apprentissage à partir de l’expérience modifie de manière significative la dynamique décrite ci-dessus. Le signal qui était auparavant considéré comme très clairsemé (récompense épisodique) s’avère très dense. Théoriquement, la situation ressemble à ceci : à un moment donné, le cerveau du mammifère calcule des résultats basés sur un flux complexe de stimuli et d'actions sensorielles, tandis que l'animal est simplement immergé dans ce flux. Dans ce cas, le comportement final de l’animal donne un signal fort qui doit servir à orienter l’ajustement des prévisions et l’évolution du comportement. Le cerveau utilise tous ces signaux afin d'optimiser les prévisions (et, par conséquent, la qualité des actions entreprises) dans le futur. Un aperçu de cette approche est donné dans l’excellent livre «Incertitude du surf» Andy Clark, scientifique cognitif et philosophe. Si l’on extrapole un tel raisonnement à l’entraînement d’agents artificiels, alors un défaut fondamental de l’apprentissage par renforcement apparaît : le signal utilisé dans ce paradigme est désespérément faible par rapport à ce qu’il pourrait (ou devrait être). Dans les cas où il est impossible d'augmenter la saturation du signal (peut-être parce qu'elle est intrinsèquement faible ou associée à une faible réactivité), il est probablement préférable de préférer une méthode d'entraînement bien parallélisée, par exemple ES.

Entraînement plus riche des réseaux de neurones

S'appuyant sur les principes d'une activité neuronale supérieure inhérente au cerveau des mammifères, constamment occupé à faire des prédictions, des progrès récents ont été réalisés dans l'apprentissage par renforcement, qui prend désormais en compte l'importance de telles prédictions. Je peux immédiatement vous recommander deux ouvrages similaires :

Dans ces deux articles, les auteurs complètent la politique par défaut typique de leurs réseaux de neurones avec des résultats de prédiction sur l'état de l'environnement dans le futur. Dans le premier article, la prévision est appliquée à une variété de variables de mesure, et dans le second, la prévision est appliquée aux changements dans l'environnement et au comportement de l'agent en tant que tel. Dans les deux cas, le signal clairsemé associé au renforcement positif devient beaucoup plus riche et informatif, permettant à la fois un apprentissage plus rapide et l’acquisition de comportements plus complexes. De telles améliorations ne sont disponibles qu’avec les méthodes utilisant un signal de gradient, et non avec les méthodes fonctionnant selon le principe de la « boîte noire », comme ES.

De plus, l’apprentissage par l’expérience et les méthodes de gradient sont bien plus efficaces. Même dans les cas où il était possible d'étudier un problème particulier en utilisant la méthode ES plus rapidement qu'en utilisant l'apprentissage par renforcement, le gain a été obtenu grâce au fait que la stratégie ES impliquait beaucoup plus de données qu'avec RL. En réfléchissant dans ce cas sur les principes de l'apprentissage chez les animaux, nous constatons que le résultat de l'apprentissage de l'exemple de quelqu'un d'autre se manifeste après plusieurs générations, alors que parfois un seul événement vécu par lui-même suffit pour que l'animal apprenne la leçon pour toujours. Tandis que comme formation sans exemples Bien qu’il ne corresponde pas tout à fait aux méthodes de gradient traditionnelles, il est beaucoup plus intelligible que l’ES. Il existe par exemple des approches telles que contrôle épisodique neuronal, où les valeurs Q sont stockées pendant l'entraînement, après quoi le programme les vérifie avant d'agir. Le résultat est une méthode de gradient qui vous permet d’apprendre à résoudre des problèmes beaucoup plus rapidement qu’auparavant. Dans un article sur le contrôle épisodique neuronal, les auteurs mentionnent l'hippocampe humain, qui est capable de conserver des informations sur un événement même après une seule expérience et, par conséquent, joue Rôle critique en train de se souvenir. De tels mécanismes nécessitent un accès à l’organisation interne de l’agent, ce qui est également, par définition, impossible dans le paradigme ES.

Alors pourquoi ne pas les combiner ?

Il est probable qu'une grande partie de cet article donne l'impression que je préconise les méthodes RL. Cependant, je pense effectivement qu'à long terme, la meilleure solution est de combiner les deux méthodes, afin que chacune soit utilisée dans les situations qui lui conviennent le mieux. Évidemment, dans le cas de nombreuses politiques réactives ou dans des situations avec des signaux de renforcement positif très clairsemés, l'ES gagne, surtout si vous disposez de la puissance de calcul sur laquelle vous pouvez exécuter des formations massivement parallèles. D’un autre côté, les méthodes de gradient utilisant l’apprentissage par renforcement ou l’apprentissage supervisé seront utiles lorsque nous avons accès à un retour d’information approfondi et que nous devons apprendre à résoudre un problème rapidement et avec moins de données.

En ce qui concerne la nature, nous constatons que la première méthode pose essentiellement les bases de la seconde. C’est pourquoi, au cours de leur évolution, les mammifères ont développé un cerveau qui leur permet d’apprendre de manière extrêmement efficace à partir de signaux complexes provenant de l’environnement. La question reste donc ouverte. Peut-être que les stratégies évolutives nous aideront à inventer des architectures d’apprentissage efficaces qui seront également utiles pour les méthodes d’apprentissage par gradient. Après tout, la solution trouvée par la nature est effectivement très réussie.

Source: habr.com

Ajouter un commentaire