OpenAI enseigne le travail d'équipe en matière d'IA dans un jeu de cache-cache

Un bon vieux jeu de cache-cache peut être un excellent test pour les robots d’intelligence artificielle (IA) afin de démontrer comment ils prennent des décisions et interagissent les uns avec les autres et avec les divers objets qui les entourent.

Dans son Nouvel article, publié par des chercheurs d'OpenAI, une organisation de recherche en intelligence artificielle à but non lucratif devenue célèbre victoire sur les champions du monde dans le jeu informatique Dota 2, les scientifiques décrivent comment des agents contrôlés par l'intelligence artificielle ont été formés pour être plus sophistiqués dans la recherche et la dissimulation les uns des autres dans un environnement virtuel. Les résultats de l’étude ont démontré qu’une équipe de deux robots apprend plus efficacement et plus rapidement que n’importe quel agent seul sans alliés.

OpenAI enseigne le travail d'équipe en matière d'IA dans un jeu de cache-cache

Les scientifiques ont utilisé une méthode qui a depuis longtemps gagné sa renommée apprentissage automatique avec renforcement, dans lequel l'intelligence artificielle est placée dans un environnement qui lui est inconnu, tout en disposant de certaines manières d'interagir avec lui, ainsi que d'un système de récompenses et d'amendes pour l'un ou l'autre résultat de ses actions. Cette méthode est très efficace en raison de la capacité de l'IA à effectuer diverses actions dans un environnement virtuel à une vitesse énorme, des millions de fois plus rapide qu'une personne ne peut l'imaginer. Cela permet d’effectuer des essais et des erreurs pour trouver les stratégies les plus efficaces pour résoudre un problème donné. Mais cette approche présente également certaines limites, par exemple, la création d'un environnement et la réalisation de nombreux cycles de formation nécessitent d'énormes ressources informatiques, et le processus lui-même nécessite un système précis pour comparer les résultats des actions de l'IA avec son objectif. De plus, les compétences ainsi acquises par l'agent sont limitées à la tâche décrite et, une fois que l'IA aura appris à y faire face, il n'y aura plus d'améliorations.

Pour entraîner l’IA à jouer à cache-cache, les scientifiques ont utilisé une approche appelée « exploration non dirigée », dans laquelle les agents ont toute liberté pour développer leur compréhension du monde du jeu et développer des stratégies gagnantes. Ceci est similaire à l'approche d'apprentissage multi-agents utilisée par les chercheurs de DeepMind lorsque plusieurs systèmes d'intelligence artificielle ont été formés pour jouer au mode capture du drapeau dans Quake III Arena. Comme dans ce cas, les agents d’IA n’étaient pas préalablement formés aux règles du jeu, mais au fil du temps, ils ont appris des stratégies de base et ont même pu surprendre les chercheurs avec des solutions non triviales.

Dans un jeu de cache-cache, plusieurs agents dont le rôle était de se cacher devaient éviter le champ de vision de leurs adversaires après une légère longueur d'avance alors que l'équipe d'agents de recherche était immobilisée. De plus, la « ligne de mire » dans ce contexte est un cône de 135 degrés devant un robot individuel. Les agents ne pouvaient pas s'aventurer trop loin en dehors de l'aire de jeu et étaient obligés de parcourir des pièces générées aléatoirement avec la possibilité d'utiliser des objets externes (boîtes, murs mobiles, rampes spéciales) dispersés qui pouvaient être utilisés à la fois pour créer une couverture et pour s'y infiltrer. .

OpenAI enseigne le travail d'équipe en matière d'IA dans un jeu de cache-cache

Grâce à un long processus d'apprentissage, les agents d'IA ont appris six stratégies uniques, dont chacune les a aidés à passer à l'étape suivante du jeu. Au début, les équipes de chercheurs et de cacheurs se sont simplement enfuies et se sont pourchassés, mais après environ 25 millions de matchs, l'équipe des cacheurs a appris à bloquer les passages avec des boîtes et à en construire des abris. Après 75 millions de matchs supplémentaires, l'équipe a découvert des moyens d'utiliser des rampes pour accéder à ces cachettes. Après 10 millions de tours supplémentaires, les cacheurs ont appris à faire glisser les rampes jusqu'au bord de l'aire de jeu et à les verrouiller en place pour empêcher leurs adversaires de les utiliser.

OpenAI enseigne le travail d'équipe en matière d'IA dans un jeu de cache-cache

Après 388 millions de matchs, les chercheurs ont appris à utiliser des rampes bloquées pour grimper sur les caisses qui leur ont été apportées, puis, en se déplaçant directement sur elles, à pénétrer dans les cachettes ennemies créées à partir de murs portables. Et finalement, après 458 millions de matchs, l'équipe cachée a conclu qu'elle devait bloquer tous les objets puis construire un abri, ce qui a apparemment conduit à sa victoire finale.

Ce qui est particulièrement impressionnant, c'est qu'après 22 millions de matchs, les agents ont appris à coordonner leurs actions et l'efficacité de leur collaboration n'a fait qu'augmenter dans le futur. Par exemple, chacun a apporté sa propre boîte ou son propre mur pour créer un abri et a choisi sa part d'objets à placer. bloquer, pour compliquer le jeu de difficulté aux adversaires.

OpenAI enseigne le travail d'équipe en matière d'IA dans un jeu de cache-cache

Les scientifiques ont également noté un point important lié à l'influence du nombre d'objets d'entraînement (la quantité de données transitant par le réseau neuronal - « Batch Size ») sur la vitesse d'apprentissage. Le modèle par défaut a nécessité 132,3 millions de matchs sur 34 heures d'entraînement pour atteindre le point où l'équipe cachée a appris à bloquer les rampes, tandis que davantage de données ont entraîné une réduction notable du temps d'entraînement. Par exemple, l'augmentation du nombre de paramètres (une partie des données obtenues pendant tout le processus de formation) de 0,5 million à 5,8 millions a augmenté l'efficacité de l'échantillonnage de 2,2 fois, et l'augmentation de la taille des données d'entrée de 64 Ko à 128 Ko a réduit la formation. temps presque une fois et demie.

OpenAI enseigne le travail d'équipe en matière d'IA dans un jeu de cache-cache

À la fin de leurs travaux, les chercheurs ont décidé de tester dans quelle mesure la formation en jeu pouvait aider les agents à accomplir des tâches similaires en dehors du jeu. Il y a eu cinq tests au total : conscience du nombre d'objets (comprendre qu'un objet continue d'exister même s'il est hors de vue et non utilisé) ; « verrouiller et revenir » - la capacité de se souvenir de sa position d'origine et d'y revenir après avoir accompli une tâche supplémentaire ; "blocage séquentiel" - 4 boîtes étaient situées au hasard dans trois pièces sans portes, mais avec des rampes pour entrer, les agents devaient toutes les trouver et les bloquer ; placement de cartons sur des emplacements prédéterminés ; créer un abri autour d'un objet en forme de cylindre.

En conséquence, dans trois tâches sur cinq, les robots ayant suivi une formation préliminaire dans le jeu ont appris plus rapidement et ont montré de meilleurs résultats que l'IA entraînée à résoudre des problèmes à partir de zéro. Ils ont obtenu des résultats légèrement meilleurs pour accomplir la tâche et revenir à la position de départ, bloquant séquentiellement des boîtes dans des pièces fermées et plaçant des boîtes dans des zones données, mais ont obtenu des résultats légèrement plus faibles pour reconnaître le nombre d'objets et créer une couverture autour d'un autre objet.

Les chercheurs attribuent des résultats mitigés à la manière dont l’IA apprend et mémorise certaines compétences. "Nous pensons que les tâches pour lesquelles la pré-formation en jeu s'est déroulée le mieux impliquaient la réutilisation des compétences précédemment acquises d'une manière familière, tandis que l'exécution des tâches restantes mieux que l'IA formée à partir de zéro nécessiterait de les utiliser d'une manière différente, ce qui est d'autant plus important. plus difficile », écrivent les co-auteurs de l’ouvrage. « Ce résultat souligne la nécessité de développer des méthodes permettant de réutiliser efficacement les compétences acquises lors de la formation lors de leur transfert d’un environnement à un autre. »

Le travail effectué est vraiment impressionnant, car la perspective d'utiliser cette méthode d'enseignement dépasse largement les limites de n'importe quel jeu. Les chercheurs affirment que leurs travaux constituent une étape importante vers la création d’une IA dotée d’un comportement « basé sur la physique » et « semblable à celui de l’humain », capable de diagnostiquer des maladies, de prédire les structures de molécules protéiques complexes et d’analyser des tomodensitogrammes.

Dans la vidéo ci-dessous, vous pouvez clairement voir comment s'est déroulé l'ensemble du processus d'apprentissage, comment l'IA a appris le travail d'équipe et ses stratégies sont devenues de plus en plus astucieuses et complexes.



Source: 3dnews.ru

Ajouter un commentaire