DeepMind AI maîtrise le jeu en équipe et surpasse les humains dans Quake III

Capturer le drapeau est un mode compétitif assez simple que l'on retrouve dans de nombreux jeux de tir populaires. Chaque équipe dispose d'un marqueur situé à sa base, et le but est de capturer le marqueur de l'équipe adverse et de réussir à le ramener à elle. Cependant, ce qui est facile à comprendre pour les humains ne l’est pas si facilement pour les machines. Pour capturer le drapeau, les personnages non-joueurs (bots) sont traditionnellement programmés à l'aide d'heuristiques et d'algorithmes simples qui offrent une liberté de choix limitée et sont nettement inférieurs aux humains. Mais l’intelligence artificielle et l’apprentissage automatique promettent de changer complètement cette situation.

В article, publié cette semaine dans la revue Science environ un an après préimpression, ainsi que dans votre blog, des chercheurs de DeepMind, une filiale londonienne d'Alphabet, décrivent un système qui peut non seulement apprendre à capturer le drapeau sur les cartes Quake III Arena d'id Software, mais également développer des stratégies d'équipe entièrement nouvelles, en rien inférieures à celles d'un humain.

DeepMind AI maîtrise le jeu en équipe et surpasse les humains dans Quake III

"Personne n'a dit à l'IA comment jouer à ce jeu, il n'y avait que le résultat - que l'IA batte son adversaire ou non. La beauté de cette approche est que vous ne savez jamais quel comportement émergera lorsque vous formez des agents », explique Max Jaderberg, chercheur scientifique chez DeepMind qui a déjà travaillé sur le système d'apprentissage automatique AlphaStar (plus récemment dépassé équipe humaine de professionnels dans StarCraft II). Il a en outre expliqué que la méthode clé de leur nouveau travail est, premièrement, l'apprentissage renforcé, qui utilise une sorte de système de récompense pour pousser les agents logiciels à atteindre les objectifs fixés, et que le système de récompense fonctionne indépendamment du fait que l'équipe d'IA ait gagné ou non. , mais d'autre part, les agents étaient formés en groupes, ce qui obligeait l'IA à maîtriser dès le début l'interaction en équipe.

"D'un point de vue recherche, il s'agit d'une nouveauté pour une approche algorithmique vraiment passionnante", a ajouté Max. "La façon dont nous avons entraîné notre IA montre bien comment mettre à l'échelle et mettre en œuvre certaines idées évolutives classiques."

DeepMind AI maîtrise le jeu en équipe et surpasse les humains dans Quake III

Nommés de manière provocante For The Win (FTW), les agents de DeepMind apprennent directement à partir des pixels de l'écran à l'aide d'un réseau neuronal convolutif, un ensemble de fonctions mathématiques (neurones) disposées en couches calquées sur le cortex visuel humain. Les données reçues sont transmises à deux réseaux dotés de multiples mémoires à court terme (anglais long short-term memory - LSTM), capables de reconnaître les dépendances à long terme. L’un d’eux gère les données opérationnelles avec une vitesse de réponse rapide, tandis que l’autre travaille lentement pour analyser et formuler des stratégies. Les deux sont associés à une mémoire variationnelle, qu’ils utilisent ensemble pour prédire les changements dans le monde du jeu et effectuer des actions via le contrôleur de jeu émulé.

DeepMind AI maîtrise le jeu en équipe et surpasse les humains dans Quake III

Au total, DeepMind a formé 30 agents, leur a donné une gamme de coéquipiers et d'adversaires avec lesquels jouer, et des cartes de jeu sélectionnées au hasard pour empêcher l'IA de s'en souvenir. Chaque agent avait son propre signal de récompense, lui permettant de créer ses propres objectifs internes, comme capturer le drapeau. Chaque IA a joué individuellement environ 450 XNUMX parties de capture du drapeau, ce qui équivaut à environ quatre années d'expérience de jeu.

Les agents FTW entièrement formés ont appris à appliquer des stratégies communes à n’importe quelle carte, composition d’équipe et taille d’équipe. Ils ont appris des comportements humains, comme suivre leurs coéquipiers, camper dans une base ennemie et défendre leur base contre les attaquants, et ils ont progressivement perdu des habitudes moins bénéfiques, comme surveiller un allié de trop près.

Alors, quels résultats ont été obtenus ? Dans un tournoi de 40 personnes dans lequel des humains et des agents ont joué ensemble et les uns contre les autres au hasard, les agents FTW ont largement surpassé le taux de victoire des joueurs humains. L'indice Elo de l'IA, qui correspond à la probabilité de gagner, était de 1600 1300, contre 1050 XNUMX pour les joueurs humains « forts » et XNUMX XNUMX pour le joueur humain « moyen ».

DeepMind AI maîtrise le jeu en équipe et surpasse les humains dans Quake III

Cela n’est pas surprenant, puisque la vitesse de réaction de l’IA est nettement supérieure à celle d’un humain, ce qui lui a conféré un avantage significatif lors des premières expériences. Mais même lorsque la précision des agents a été réduite et que le temps de réaction a augmenté grâce à la latence intégrée de 257 millisecondes, l'IA a toujours surpassé les humains. Les joueurs avancés et occasionnels n’ont remporté respectivement que 21 % et 12 % du total des parties.

De plus, après la publication de l'étude, les scientifiques ont décidé de tester des agents sur des cartes Quake III Arena à part entière avec une architecture de niveau complexe et des objets supplémentaires, tels que Future Crossings et Ironwood, où l'IA a commencé à défier avec succès les humains dans des matchs tests. . Lorsque les chercheurs ont examiné les modèles d'activation du réseau neuronal des agents, c'est-à-dire les fonctions des neurones chargés de déterminer les résultats en fonction des informations entrantes, ils ont trouvé des groupes représentant les pièces, l'état des drapeaux, la visibilité des coéquipiers et des adversaires, et la présence ou l'absence d'agents dans la base ennemie, ou en équipe, et d'autres aspects importants du gameplay. Les agents entraînés contenaient même des neurones qui codaient directement des situations spécifiques, par exemple lorsqu'un drapeau était pris par un agent ou lorsqu'un allié le tenait.

« Je pense que l’une des choses à considérer est que ces équipes multi-agents sont extrêmement puissantes, et notre étude le démontre », déclare Jaderberg. « C’est ce que nous avons appris à faire de mieux en mieux au cours des dernières années : comment résoudre le problème de l’apprentissage par renforcement. » Et la formation améliorée a vraiment fonctionné à merveille.

Thore Graepel, professeur d'informatique à l'University College de Londres et scientifique de DeepMind, estime que leurs travaux mettent en évidence le potentiel de l'apprentissage multi-agents pour l'avenir de l'IA. Il peut également servir de base à des recherches sur les interactions homme-machine et les systèmes qui se complètent ou fonctionnent ensemble.

« Nos résultats montrent que l’apprentissage par renforcement multi-agents peut maîtriser avec succès un jeu complexe au point que les joueurs humains en viennent même à croire que les joueurs informatiques font de meilleurs coéquipiers. L'étude fournit également une analyse approfondie extrêmement intéressante de la manière dont les agents formés se comportent et travaillent ensemble, explique Grapel. « Ce qui rend ces résultats si passionnants, c’est que ces agents perçoivent leur environnement à la première personne, [c’est-à-dire] tout comme un joueur humain. Pour apprendre à jouer tactiquement et à coopérer avec leurs coéquipiers, ces agents ont dû s'appuyer sur les retours des résultats du match, sans qu'aucun professeur ou entraîneur ne leur montre quoi faire.



Source: 3dnews.ru

Ajouter un commentaire