DeepMind AI Meestersspan speel en presteer beter as mense in Quake III

Vang die vlag is 'n redelik eenvoudige mededingende modus wat in baie gewilde skuts voorkom. Elke span het 'n merker op sy basis, en die doel is om die opponerende span se merker vas te vang en suksesvol na homself te bring. Wat vir mense maklik is om te verstaan, is egter nie so maklik vir masjiene nie. Om die vlag vas te vang, word nie-speler karakters (bots) tradisioneel geprogrammeer met behulp van heuristieke en eenvoudige algoritmes wat beperkte vryheid van keuse bied en aansienlik minderwaardig is as mense. Maar kunsmatige intelligensie en masjienleer beloof om hierdie situasie heeltemal te verander.

В Artikel, gepubliseer vandeesweek in die joernaal Science sowat 'n jaar daarna voordruksowel as jou blog, navorsers van DeepMind, 'n Londen-gebaseerde filiaal van Alphabet, beskryf 'n stelsel wat nie net kan leer om die vlag op id Software se Quake III Arena-kaarte te speel nie, maar ook heeltemal nuwe spanstrategieë ontwikkel, op geen manier minderwaardig as 'n mens nie.

DeepMind AI Meestersspan speel en presteer beter as mense in Quake III

“Niemand het vir die KI vertel hoe om hierdie speletjie te speel nie, dit het net die resultaat gehad – of die KI sy teenstander geklop het of nie. Die skoonheid van die gebruik van hierdie benadering is dat jy nooit weet watter gedrag sal na vore kom wanneer jy agente oplei nie,” sê Max Jaderberg, ’n navorsingswetenskaplike by DeepMind wat voorheen aan die masjienleerstelsel AlphaStar gewerk het (meer onlangs oortref menslike span professionele persone in StarCraft II). Hy het verder verduidelik dat die sleutelmetode van hul nuwe werk, eerstens, versterkte leer is, wat 'n soort beloningstelsel gebruik om sagteware-agente te stoot om gestelde doelwitte te bereik, en die beloningstelsel het gewerk ongeag of die KI-span gewen het of nie , maar in die tweede plek is agente in groepe opgelei, wat die KI gedwing het om spaninteraksie van die begin af te bemeester.

"Vanuit 'n navorsingsoogpunt is dit 'n nuwigheid vir 'n algoritmiese benadering wat regtig opwindend is," het Max bygevoeg. "Die manier waarop ons ons KI opgelei het, wys goed hoe om 'n paar klassieke evolusionêre idees te skaal en te implementeer."

DeepMind AI Meestersspan speel en presteer beter as mense in Quake III

Uitdagend genoem For The Win (FTW), DeepMind se agente leer direk vanaf skermpiksels deur gebruik te maak van 'n konvolusionele neurale netwerk, 'n stel wiskundige funksies (neurone) wat in lae gerangskik is volgens die menslike visuele korteks. Die ontvangde data word oorgedra na twee netwerke met veelvuldige korttermyngeheue (Engels lang korttermyngeheue - LSTM), wat in staat is om langtermynafhanklikhede te herken. Een van hulle bestuur operasionele data met 'n vinnige reaksiespoed, terwyl die ander stadig werk om strategieë te ontleed en te formuleer. Albei word geassosieer met variasiegeheue, wat hulle saam gebruik om veranderinge in die spelwêreld te voorspel en aksies uit te voer deur die nagebootste spelbeheerder.

DeepMind AI Meestersspan speel en presteer beter as mense in Quake III

In totaal het DeepMind 30 agente opgelei, vir hulle 'n reeks spanmaats en teenstanders gegee om mee te speel, en lukraak speletjiekaarte gekies om te verhoed dat die KI hulle onthou. Elke agent het sy eie beloningsein gehad, wat hom in staat gestel het om sy eie interne doelwitte te skep, soos om die vlag vas te vang. Elke KI het individueel ongeveer 450 duisend speletjies gespeel om die vlag vas te vang, wat gelykstaande is aan ongeveer vier jaar se spelervaring.

Ten volle opgeleide FTW-agente het geleer om strategieë wat algemeen is op enige kaart, spanrooster en spangrootte toe te pas. Hulle het menslike gedrag aangeleer soos om spanmaats te volg, in 'n vyandelike basis te kamp en hul basis teen aanvallers te verdedig, en hulle het geleidelik minder voordelige patrone verloor, soos om 'n bondgenoot te noukeurig dop te hou.

So watter resultate is behaal? In 'n 40-persoon toernooi waarin mense en agente lukraak saam en teen mekaar gespeel het, het FTW-agente aansienlik beter gevaar as die wenkoers van menslike spelers. Die KI se Elo-gradering, wat die waarskynlikheid is om te wen, was 1600, vergeleke met 1300 vir "sterk" menslike spelers en 1050 vir die "gemiddelde" menslike speler.

DeepMind AI Meestersspan speel en presteer beter as mense in Quake III

Dit is nie verbasend nie, aangesien die reaksiespoed van KI aansienlik hoër is as dié van 'n mens, wat eersgenoemde 'n aansienlike voordeel in die aanvanklike eksperimente gegee het. Maar selfs toe die agente se akkuraatheid verminder is en reaksietyd toegeneem het danksy die ingeboude 257 millisekonde latency, het die KI steeds beter gevaar as mense. Gevorderde en gemaklike spelers het onderskeidelik slegs 21% en 12% van die totale speletjies gewen.

Verder, na die publikasie van die studie, het wetenskaplikes besluit om agente te toets op volwaardige Quake III Arena-kaarte met komplekse vlak argitektuur en bykomende voorwerpe, soos Future Crossings en Ironwood, waar die KI mense suksesvol in toetswedstryde begin uitdaag het. . Toe die navorsers na die neurale netwerkaktiveringspatrone van die agente gekyk het, dit wil sê die funksies van die neurone wat verantwoordelik is vir die bepaling van uitset gebaseer op inkomende inligting, het hulle groepe gevind wat kamers verteenwoordig, die toestand van vlae, die sigbaarheid van spanmaats en teenstanders, en die teenwoordigheid of afwesigheid van agente by die vyandbasis, of spangebaseerd, en ander belangrike aspekte van spel. Die opgeleide agente het selfs neurone bevat wat spesifieke situasies direk gekodeer het, soos wanneer 'n vlag deur 'n agent geneem is of wanneer 'n bondgenoot dit vasgehou het.

"Ek dink een van die dinge om na te kyk, is dat hierdie multi-agent-spanne uiters kragtig is, en ons studie toon dit," sê Jaderberg. "Dit is wat ons die afgelope paar jaar geleer het om beter en beter te doen - hoe om die probleem van versterkingsleer op te los." En die verbeterde opleiding het regtig briljant gewerk.”

Thore Graepel, professor in rekenaarwetenskap aan University College London en 'n DeepMind-wetenskaplike, glo dat hul werk die potensiaal van multi-agent-leer vir die toekoms van KI uitlig. Dit kan ook as basis dien vir navorsing oor mens-masjien-interaksie en sisteme wat mekaar aanvul of saamwerk.

“Ons resultate toon dat multi-agent versterkingsleer 'n komplekse speletjie suksesvol kan bemeester tot die punt waar menslike spelers selfs begin glo dat rekenaarspelers beter spanmaats maak. Die studie verskaf ook uiters interessante in-diepte ontleding van hoe opgeleide agente optree en saamwerk, sê Grapel. “Wat hierdie resultate so opwindend maak, is dat hierdie agente hul omgewing in die eerste persoon waarneem, [dit is] net soos 'n menslike speler. Om te leer hoe om takties te speel en met hul spanmaats saam te werk, moes hierdie agente staatmaak op terugvoer van die wedstryd se uitslae, sonder dat enige onderwyser of afrigter vir hulle gewys het wat om te doen.”



Bron: 3dnews.ru

Voeg 'n opmerking