DeepMind AI domina el joc en equip i supera els humans a Quake III

Captura la bandera és un mode competitiu bastant senzill que es troba en molts jocs de trets populars. Cada equip té un marcador situat a la seva base, i l'objectiu és capturar el marcador de l'equip contrari i portar-lo amb èxit. Tanmateix, el que és fàcil d'entendre per als humans no ho és tan fàcil per a les màquines. Per capturar la bandera, els personatges que no són jugadors (bots) es programen tradicionalment mitjançant heurístiques i algorismes senzills que proporcionen una llibertat limitada d'elecció i són significativament inferiors als humans. Però la intel·ligència artificial i l'aprenentatge automàtic prometen canviar completament aquesta situació.

В article, publicat aquesta setmana a la revista Science aproximadament un any després preimpressióaixí com a el teu bloc, els investigadors de DeepMind, una filial d'Alphabet amb seu a Londres, descriuen un sistema que no només pot aprendre a jugar a capturar la bandera als mapes de Quake III Arena d'id Software, sinó que també pot desenvolupar estratègies d'equip completament noves, en cap cas inferiors a les d'un humà.

DeepMind AI domina el joc en equip i supera els humans a Quake III

"Ningú va dir a la IA com jugar aquest joc, només va tenir el resultat, tant si l'IA va vèncer al seu oponent com si no. La bellesa d'utilitzar aquest enfocament és que mai no saps quin comportament apareixerà quan entrenes agents", diu Max Jaderberg, un científic investigador de DeepMind que va treballar anteriorment en el sistema d'aprenentatge automàtic AlphaStar (més recentment). superat equip humà de professionals de StarCraft II). A més, va explicar que el mètode clau del seu nou treball és, en primer lloc, l'aprenentatge reforçat, que utilitza una mena de sistema de recompensa per empènyer els agents de programari a assolir els objectius establerts, i el sistema de recompensa va funcionar independentment de si l'equip d'IA va guanyar o no. , però en segon lloc, els agents es van formar en grups, cosa que va obligar a la IA a dominar la interacció de l'equip des del principi.

"Des del punt de vista de la investigació, aquesta és una novetat per a un enfocament algorítmic que és realment emocionant", va afegir Max. "La manera com vam entrenar la nostra IA mostra bé com escalar i implementar algunes idees evolutives clàssiques".

DeepMind AI domina el joc en equip i supera els humans a Quake III

Anomenats de manera provocativa For The Win (FTW), els agents de DeepMind aprenen directament dels píxels de la pantalla mitjançant una xarxa neuronal convolucional, un conjunt de funcions matemàtiques (neurones) disposades en capes modelades a partir de l'escorça visual humana. Les dades rebudes es transmeten a dues xarxes amb múltiples memòria a curt termini (anglès long short-term memory - LSTM), capaços de reconèixer dependències a llarg termini. Un d'ells gestiona les dades operatives amb una ràpida velocitat de resposta, mentre que l'altre treballa lentament per analitzar i formular estratègies. Tots dos estan associats a la memòria variacional, que utilitzen conjuntament per predir els canvis en el món del joc i realitzar accions mitjançant el controlador de joc emulat.

DeepMind AI domina el joc en equip i supera els humans a Quake III

En total, DeepMind va entrenar 30 agents, els va donar una varietat de companys i oponents per jugar i va seleccionar cartes de joc aleatòriament per evitar que la IA les recordés. Cada agent tenia el seu propi senyal de recompensa, que li permetia crear els seus propis objectius interns, com ara capturar la bandera. Cada IA ​​individualment va jugar uns 450 mil jocs de captura de la bandera, el que equival a uns quatre anys d'experiència de joc.

Els agents de FTW totalment entrenats han après a aplicar estratègies comunes a qualsevol mapa, llista d'equips i mida d'equip. Van aprendre comportaments humans com ara seguir els companys d'equip, acampar en una base enemiga i defensar la seva base dels atacants, i a poc a poc van anar perdent patrons menys beneficiosos com observar massa de prop un aliat.

Aleshores, quins resultats es van aconseguir? En un torneig de 40 persones en què humans i agents van jugar aleatòriament junts i entre ells, els agents de FTW van superar significativament el percentatge de victòries dels jugadors humans. La qualificació Elo de l'IA, que és la probabilitat de guanyar, era de 1600, en comparació amb 1300 per als jugadors humans "forts" i 1050 per al jugador humà "mitjana".

DeepMind AI domina el joc en equip i supera els humans a Quake III

Això no és d'estranyar, ja que la velocitat de reacció de la IA és significativament més alta que la d'un humà, la qual cosa va donar al primer un avantatge significatiu en els experiments inicials. Però fins i tot quan la precisió dels agents es va reduir i el temps de reacció va augmentar gràcies a la latència integrada de 257 mil·lisegons, la IA encara va superar els humans. Els jugadors avançats i casuals només van guanyar el 21% i el 12% del total de jocs, respectivament.

A més, després de la publicació de l'estudi, els científics van decidir provar agents en mapes complets de Quake III Arena amb una arquitectura de nivell complex i objectes addicionals, com Future Crossings i Ironwood, on l'IA va començar a desafiar amb èxit els humans en partits de prova. . Quan els investigadors van analitzar els patrons d'activació de la xarxa neuronal dels agents, és a dir, les funcions de les neurones encarregades de determinar la sortida en funció de la informació entrant, van trobar grups que representaven sales, l'estat de les banderes, la visibilitat dels companys d'equip i dels oponents, i la presència o absència d'agents a la base enemiga, o en equip, i altres aspectes significatius del joc. Els agents entrenats contenien fins i tot neurones que codificaven directament situacions específiques, com quan un agent va agafar una bandera o quan un aliat la sostenia.

"Crec que una de les coses a tenir en compte és que aquests equips multiagent són extremadament poderosos, i el nostre estudi ho demostra", diu Jaderberg. "Això és el que hem anat aprenent a fer cada cop millor durant els últims anys: com resoldre el problema de l'aprenentatge de reforç". I l'entrenament millorat va funcionar realment de manera brillant".

Thore Graepel, professor d'informàtica a la University College London i científic de DeepMind, creu que el seu treball destaca el potencial de l'aprenentatge multiagent per al futur de la IA. També pot servir de base per a la investigació sobre la interacció home-màquina i els sistemes que es complementen o treballen conjuntament.

"Els nostres resultats mostren que l'aprenentatge de reforç multiagent pot dominar amb èxit un joc complex fins al punt que els jugadors humans fins i tot arriben a creure que els jugadors d'ordinador són millors companys d'equip. L'estudi també proporciona una anàlisi en profunditat extremadament interessant de com es comporten i treballen junts els agents entrenats, diu Grapel. "El que fa que aquests resultats siguin tan emocionants és que aquests agents perceben el seu entorn en primera persona, [és a dir] com un jugador humà. Per aprendre a jugar tàcticament i cooperar amb els seus companys, aquests agents van haver de confiar en el feedback dels resultats del partit, sense que cap professor o entrenador els mostrés què havien de fer".



Font: 3dnews.ru

Afegeix comentari