OpenAI ensenya el treball en equip d'IA en un joc d'amagatalls

Un bon joc d'amagatall antic pot ser una gran prova per als robots d'intel·ligència artificial (IA) per demostrar com prenen decisions i interactuen entre ells i amb diversos objectes que els envolten.

En el seu nou article, publicat per investigadors d'OpenAI, una organització de recerca en intel·ligència artificial sense ànim de lucre que s'ha fet famosa victòria sobre campions del món al joc d'ordinador Dota 2, els científics descriuen com els agents controlats per la intel·ligència artificial van ser entrenats per ser més sofisticats a l'hora de buscar i amagar-se els uns dels altres en un entorn virtual. Els resultats de l'estudi van demostrar que un equip de dos robots aprèn de manera més eficaç i ràpida que qualsevol agent únic sense aliats.

OpenAI ensenya el treball en equip d'IA en un joc d'amagatalls

Els científics han utilitzat un mètode que fa temps que ha guanyat la seva fama aprenentatge automàtic amb reforç, en què la intel·ligència artificial se situa en un entorn desconegut per a ella, tot i que té determinades maneres d'interaccionar amb ella, així com un sistema de recompenses i multes per un o altre resultat de les seves accions. Aquest mètode és bastant efectiu a causa de la capacitat de la IA per realitzar diverses accions en un entorn virtual a una velocitat enorme, milions de vegades més ràpid del que una persona pot imaginar. Això permet a prova i error trobar les estratègies més efectives per resoldre un problema determinat. Però aquest enfocament també té algunes limitacions, per exemple, la creació d'un entorn i la realització de nombrosos cicles formatius requereixen enormes recursos informàtics, i el procés en si requereix un sistema precís per comparar els resultats de les accions d'IA amb el seu objectiu. A més, les habilitats adquirides per l'agent d'aquesta manera es limiten a la tasca descrita i, tan bon punt l'IA aprengui a fer-hi front, no hi haurà més millores.

Per entrenar la IA perquè jugui a amagar i amagar, els científics van utilitzar un enfocament anomenat "Exploració no dirigida", que és on els agents tenen total llibertat per desenvolupar la seva comprensió del món del joc i desenvolupar estratègies guanyadores. Això és similar a l'enfocament d'aprenentatge multiagent que van utilitzar els investigadors de DeepMind quan hi havia diversos sistemes d'intel·ligència artificial van ser entrenats per jugar a capturar el mode bandera a Quake III Arena. Com en aquest cas, els agents d'IA no estaven prèviament entrenats en les regles del joc, però amb el temps van aprendre estratègies bàsiques i fins i tot van poder sorprendre els investigadors amb solucions no trivials.

En un joc d'amagatall, diversos agents que tenien com a missió amagar-se van haver d'evitar la línia de visió dels seus oponents després d'un lleuger avantatge mentre l'equip d'agents de recerca estava immobilitzat. A més, la "línia de visió" en aquest context és un con de 135 graus davant d'un bot individual. Els agents no podien aventurar-se massa fora de l'àrea de joc i es van veure obligats a navegar per sales generades aleatòriament amb la possibilitat d'utilitzar alguns objectes externs (caixes, parets mòbils, rampes especials) escampats al voltant que es podien utilitzar tant per crear coberta com per infiltrar-s'hi. .

OpenAI ensenya el treball en equip d'IA en un joc d'amagatalls

A través d'un llarg procés d'aprenentatge, els agents d'IA van aprendre sis estratègies úniques, cadascuna de les quals els va ajudar a avançar a la següent etapa del joc. Al principi, els equips de cercadors i ocultadors simplement van fugir i es van perseguir, però després d'uns 25 milions de partits, l'equip d'ocultadors va aprendre a bloquejar els passatges amb caixes i construir-hi refugis. Després de 75 milions de partits més, l'equip va descobrir maneres d'utilitzar rampes per entrar a aquests amagatalls. Després de 10 milions de rondes més, els ocultadors van aprendre a arrossegar rampes fins a la vora de l'àrea de joc i bloquejar-les al seu lloc per evitar que els oponents les fessin servir.

OpenAI ensenya el treball en equip d'IA en un joc d'amagatalls

Després de 388 milions de partits, els cercadors han après a utilitzar rampes bloquejades per enfilar-se a les caixes que els van portar i, després, movent-se directament sobre elles, penetrar en els amagatalls enemics creats a partir de parets portàtils. I finalment, després de 458 milions de partits, l'equip amagat va concloure que havien de bloquejar tots els objectes i després construir un refugi, cosa que aparentment va portar a la seva victòria final.

El que és especialment impressionant és que després de 22 milions de partits, els agents van aprendre a coordinar les seves accions i l'eficiència de la seva col·laboració només va augmentar en el futur, per exemple, cadascun va portar la seva pròpia caixa o paret per crear un refugi i va triar la seva part d'objectes per bloquejar, per complicar el joc de dificultat als oponents.

OpenAI ensenya el treball en equip d'IA en un joc d'amagatalls

Els científics també van assenyalar un punt important relacionat amb la influència del nombre d'objectes d'entrenament (la quantitat de dades passades per la xarxa neuronal - "Mida del lot") en la velocitat d'aprenentatge. El model predeterminat va requerir 132,3 milions de partits durant 34 hores d'entrenament per arribar al punt en què l'equip amagat va aprendre a bloquejar les rampes, mentre que més dades van donar lloc a una reducció notable del temps d'entrenament. Per exemple, augmentar el nombre de paràmetres (part de les dades obtingudes durant tot el procés d'entrenament) de 0,5 milions a 5,8 milions va augmentar l'eficiència del mostreig en 2,2 vegades i augmentar la mida de les dades d'entrada de 64 KB a 128 KB va reduir l'entrenament. temps gairebé una vegada i mitja.

OpenAI ensenya el treball en equip d'IA en un joc d'amagatalls

Al final del seu treball, els investigadors van decidir provar fins a quin punt l'entrenament dins del joc podria ajudar els agents a fer front a tasques similars fora del joc. Es van fer cinc proves en total: consciència del nombre d'objectes (entendre que un objecte continua existint encara que estigui fora de la vista i no s'utilitzi); "bloquejar i tornar": la capacitat de recordar la posició original i tornar-hi després de completar alguna tasca addicional; "bloqueig seqüencial" - 4 caixes es van situar aleatòriament en tres habitacions sense portes, però amb rampes per entrar, els agents van necessitar trobar-les i bloquejar-les totes; col·locació de caixes en llocs predeterminats; creant un refugi al voltant d'un objecte en forma de cilindre.

Com a resultat, en tres de cada cinc tasques, els robots que s'havien sotmès a una formació preliminar en el joc van aprendre més ràpidament i van mostrar millors resultats que la IA que es va entrenar per resoldre problemes des de zero. Van tenir un rendiment lleugerament millor en completar la tasca i tornar a la posició inicial, bloquejant seqüencialment caixes a sales tancades i col·locant caixes en àrees determinades, però van tenir un rendiment lleugerament més feble en reconèixer el nombre d'objectes i crear coberta al voltant d'un altre objecte.

Els investigadors atribueixen resultats mixts a com l'IA aprèn i recorda certes habilitats. "Pensem que les tasques on la formació prèvia al joc es va comportar millor implicaven reutilitzar les habilitats apreses anteriorment d'una manera familiar, mentre que la realització de les tasques restants millor que una IA entrenada amb scratch requeriria utilitzar-les d'una manera diferent, cosa que és molt més complicada. ”, escriuen els coautors del treball. "Aquest resultat posa de manifest la necessitat de desenvolupar mètodes per reutilitzar eficaçment les habilitats adquirides a través de la formació a l'hora de transferir-les d'un entorn a un altre".

La feina feta és realment impressionant, ja que la perspectiva d'utilitzar aquest mètode d'ensenyament va molt més enllà dels límits de qualsevol joc. Els investigadors diuen que el seu treball és un pas important cap a la creació d'IA amb un comportament "basat en la física" i "similar a l'humà" que pugui diagnosticar malalties, predir les estructures de molècules de proteïnes complexes i analitzar exploracions de TC.

En el vídeo següent podeu veure clarament com es va desenvolupar tot el procés d'aprenentatge, com la IA va aprendre a treballar en equip i les seves estratègies es van fer cada cop més astúcies i complexes.

Reprodueix un vídeo



Font: 3dnews.ru
Compreu allotjament fiable per a llocs amb protecció DDoS, servidors VPS VDS 🔥 Compra allotjament web fiable amb protecció DDoS, servidors VPS VDS | ProHoster