Un bon vieux jeu de cache-cache peut être un excellent test pour les robots d’intelligence artificielle (IA) afin de démontrer comment ils prennent des décisions et interagissent les uns avec les autres et avec les divers objets qui les entourent.
Dans son
Les scientifiques ont utilisé une méthode qui a depuis longtemps gagné sa renommée
Pour entraîner l’IA à jouer à cache-cache, les scientifiques ont utilisé une approche appelée « exploration non dirigée », dans laquelle les agents ont toute liberté pour développer leur compréhension du monde du jeu et développer des stratégies gagnantes. Ceci est similaire à l'approche d'apprentissage multi-agents utilisée par les chercheurs de DeepMind lorsque plusieurs systèmes d'intelligence artificielle
Dans un jeu de cache-cache, plusieurs agents dont le rôle était de se cacher devaient éviter le champ de vision de leurs adversaires après une légère longueur d'avance alors que l'équipe d'agents de recherche était immobilisée. De plus, la « ligne de mire » dans ce contexte est un cône de 135 degrés devant un robot individuel. Les agents ne pouvaient pas s'aventurer trop loin en dehors de l'aire de jeu et étaient obligés de parcourir des pièces générées aléatoirement avec la possibilité d'utiliser des objets externes (boîtes, murs mobiles, rampes spéciales) dispersés qui pouvaient être utilisés à la fois pour créer une couverture et pour s'y infiltrer. .
Grâce à un long processus d'apprentissage, les agents d'IA ont appris six stratégies uniques, dont chacune les a aidés à passer à l'étape suivante du jeu. Au début, les équipes de chercheurs et de cacheurs se sont simplement enfuies et se sont pourchassés, mais après environ 25 millions de matchs, l'équipe des cacheurs a appris à bloquer les passages avec des boîtes et à en construire des abris. Après 75 millions de matchs supplémentaires, l'équipe a découvert des moyens d'utiliser des rampes pour accéder à ces cachettes. Après 10 millions de tours supplémentaires, les cacheurs ont appris à faire glisser les rampes jusqu'au bord de l'aire de jeu et à les verrouiller en place pour empêcher leurs adversaires de les utiliser.
Après 388 millions de matchs, les chercheurs ont appris à utiliser des rampes bloquées pour grimper sur les caisses qui leur ont été apportées, puis, en se déplaçant directement sur elles, à pénétrer dans les cachettes ennemies créées à partir de murs portables. Et finalement, après 458 millions de matchs, l'équipe cachée a conclu qu'elle devait bloquer tous les objets puis construire un abri, ce qui a apparemment conduit à sa victoire finale.
Ce qui est particulièrement impressionnant, c'est qu'après 22 millions de matchs, les agents ont appris à coordonner leurs actions et l'efficacité de leur collaboration n'a fait qu'augmenter dans le futur. Par exemple, chacun a apporté sa propre boîte ou son propre mur pour créer un abri et a choisi sa part d'objets à placer. bloquer, pour compliquer le jeu de difficulté aux adversaires.
Les scientifiques ont également noté un point important lié à l'influence du nombre d'objets d'entraînement (la quantité de données transitant par le réseau neuronal - « Batch Size ») sur la vitesse d'apprentissage. Le modèle par défaut a nécessité 132,3 millions de matchs sur 34 heures d'entraînement pour atteindre le point où l'équipe cachée a appris à bloquer les rampes, tandis que davantage de données ont entraîné une réduction notable du temps d'entraînement. Par exemple, l'augmentation du nombre de paramètres (une partie des données obtenues pendant tout le processus de formation) de 0,5 million à 5,8 millions a augmenté l'efficacité de l'échantillonnage de 2,2 fois, et l'augmentation de la taille des données d'entrée de 64 Ko à 128 Ko a réduit la formation. temps presque une fois et demie.
À la fin de leurs travaux, les chercheurs ont décidé de tester dans quelle mesure la formation en jeu pouvait aider les agents à accomplir des tâches similaires en dehors du jeu. Il y a eu cinq tests au total : conscience du nombre d'objets (comprendre qu'un objet continue d'exister même s'il est hors de vue et non utilisé) ; « verrouiller et revenir » - la capacité de se souvenir de sa position d'origine et d'y revenir après avoir accompli une tâche supplémentaire ; "blocage séquentiel" - 4 boîtes étaient situées au hasard dans trois pièces sans portes, mais avec des rampes pour entrer, les agents devaient toutes les trouver et les bloquer ; placement de cartons sur des emplacements prédéterminés ; créer un abri autour d'un objet en forme de cylindre.
En conséquence, dans trois tâches sur cinq, les robots ayant suivi une formation préliminaire dans le jeu ont appris plus rapidement et ont montré de meilleurs résultats que l'IA entraînée à résoudre des problèmes à partir de zéro. Ils ont obtenu des résultats légèrement meilleurs pour accomplir la tâche et revenir à la position de départ, bloquant séquentiellement des boîtes dans des pièces fermées et plaçant des boîtes dans des zones données, mais ont obtenu des résultats légèrement plus faibles pour reconnaître le nombre d'objets et créer une couverture autour d'un autre objet.
Les chercheurs attribuent des résultats mitigés à la manière dont l’IA apprend et mémorise certaines compétences. "Nous pensons que les tâches pour lesquelles la pré-formation en jeu s'est déroulée le mieux impliquaient la réutilisation des compétences précédemment acquises d'une manière familière, tandis que l'exécution des tâches restantes mieux que l'IA formée à partir de zéro nécessiterait de les utiliser d'une manière différente, ce qui est d'autant plus important. plus difficile », écrivent les co-auteurs de l’ouvrage. « Ce résultat souligne la nécessité de développer des méthodes permettant de réutiliser efficacement les compétences acquises lors de la formation lors de leur transfert d’un environnement à un autre. »
Le travail effectué est vraiment impressionnant, car la perspective d'utiliser cette méthode d'enseignement dépasse largement les limites de n'importe quel jeu. Les chercheurs affirment que leurs travaux constituent une étape importante vers la création d’une IA dotée d’un comportement « basé sur la physique » et « semblable à celui de l’humain », capable de diagnostiquer des maladies, de prédire les structures de molécules protéiques complexes et d’analyser des tomodensitogrammes.
Dans la vidéo ci-dessous, vous pouvez clairement voir comment s'est déroulé l'ensemble du processus d'apprentissage, comment l'IA a appris le travail d'équipe et ses stratégies sont devenues de plus en plus astucieuses et complexes.
Source: 3dnews.ru