DeepMind AI mestrer holdspil og overgår mennesker i Quake III

Capture the flag er en ret simpel konkurrencetilstand, der findes i mange populære skydespil. Hvert hold har en markør placeret ved sin base, og målet er at fange modstanderholdets markør og med succes bringe den til sig selv. Hvad der er let for mennesker at forstå, er dog ikke så nemt for maskiner. For at fange flaget programmeres ikke-spillerfigurer (bots) traditionelt ved hjælp af heuristik og simple algoritmer, der giver begrænset valgfrihed og er væsentligt ringere end mennesker. Men kunstig intelligens og maskinlæring lover fuldstændig at ændre denne situation.

В artiklen, offentliggjort i denne uge i tidsskriftet Science omkring et år efter fortryk, såvel som i din blog, beskriver forskere fra DeepMind, et London-baseret datterselskab af Alphabet, et system, der ikke kun kan lære at spille fange flaget på id Softwares Quake III Arena-kort, men også udvikle helt nye teamstrategier, på ingen måde ringere end et menneske.

DeepMind AI mestrer holdspil og overgår mennesker i Quake III

"Ingen fortalte AI'en, hvordan den skulle spille dette spil, det havde kun resultatet - uanset om AI'en slog sin modstander eller ej. Det smukke ved at bruge denne tilgang er, at du aldrig ved, hvilken adfærd der vil opstå, når du træner agenter," siger Max Jaderberg, en forsker ved DeepMind, som tidligere har arbejdet på maskinlæringssystemet AlphaStar (senere for nylig). overgået menneskeligt team af fagfolk i StarCraft II). Han forklarede yderligere, at nøglemetoden for deres nye arbejde for det første er forstærket læring, som bruger en slags belønningssystem til at presse softwareagenter til at nå opstillede mål, og belønningssystemet fungerede, uanset om AI-teamet vandt eller ej , men for det andet blev agenter trænet i grupper, hvilket tvang AI til at mestre teaminteraktion helt fra begyndelsen.

"Fra et forskningsmæssigt synspunkt er dette en nyhed for en algoritmisk tilgang, der er virkelig spændende," tilføjede Max. "Den måde, vi trænede vores AI på, viser godt, hvordan man skalerer og implementerer nogle klassiske evolutionære ideer."

DeepMind AI mestrer holdspil og overgår mennesker i Quake III

Provocerende navngivet For The Win (FTW), DeepMinds agenter lærer direkte fra skærmpixel ved hjælp af et foldet neuralt netværk, et sæt matematiske funktioner (neuroner) arrangeret i lag modelleret efter den menneskelige visuelle cortex. De modtagne data sendes til to netværk med multipel korttidshukommelse (engelsk langtidshukommelse - LSTM), der er i stand til at genkende langsigtede afhængigheder. Den ene håndterer driftsdata med en hurtig responshastighed, mens den anden arbejder langsomt med at analysere og formulere strategier. Begge er forbundet med variationshukommelse, som de bruger sammen til at forudsige ændringer i spilverdenen og udføre handlinger gennem den emulerede spilcontroller.

DeepMind AI mestrer holdspil og overgår mennesker i Quake III

I alt trænede DeepMind 30 agenter, gav dem en række holdkammerater og modstandere at spille med og tilfældigt udvalgte spilkort for at forhindre AI i at huske dem. Hver agent havde sit eget belønningssignal, så den kunne skabe sine egne interne mål, såsom at fange flaget. Hver AI spillede individuelt omkring 450 tusind spil med capture the flag, hvilket svarer til omkring fire års spilerfaring.

Fuldt uddannede FTW-agenter har lært at anvende strategier, der er fælles for ethvert kort, holdliste og holdstørrelse. De lærte menneskelig adfærd såsom at følge holdkammerater, campere i en fjendtlig base og forsvare deres base mod angribere, og de mistede gradvist mindre gavnlige mønstre, såsom at se en allieret for tæt.

Så hvilke resultater blev opnået? I en 40-personers turnering, hvor mennesker og agenter tilfældigt spillede både sammen og mod hinanden, overgik FTW-agenter markant gevinstraten for menneskelige spillere. AI's Elo-rating, som er sandsynligheden for at vinde, var 1600 sammenlignet med 1300 for "stærke" menneskelige spillere og 1050 for den "gennemsnitlige" menneskelige spiller.

DeepMind AI mestrer holdspil og overgår mennesker i Quake III

Dette er ikke overraskende, da reaktionshastigheden af ​​AI er betydeligt højere end et menneskes, hvilket gav førstnævnte en betydelig fordel i de indledende eksperimenter. Men selv når agenternes nøjagtighed blev reduceret og reaktionstiden øget takket være den indbyggede 257 millisekunders latency, overgik AI stadig mennesker. Avancerede og afslappede spillere vandt kun henholdsvis 21 % og 12 % af de samlede spil.

Desuden besluttede forskere efter offentliggørelsen af ​​undersøgelsen at teste agenter på fuldgyldige Quake III Arena-kort med kompleks niveauarkitektur og yderligere objekter, såsom Future Crossings og Ironwood, hvor AI med succes begyndte at udfordre mennesker i testkampe . Da forskerne så på agenternes neurale netværksaktiveringsmønstre, det vil sige funktionerne af neuronerne, der er ansvarlige for at bestemme output baseret på indkommende information, fandt de klynger, der repræsenterede rum, flagtilstanden, synligheden af ​​holdkammerater og modstandere og tilstedeværelsen eller fraværet af agenter på fjendens base eller teambaseret og andre væsentlige aspekter af gameplay. De trænede agenter indeholdt endda neuroner, der kodede specifikke situationer direkte, såsom når et flag blev taget af en agent, eller når en allieret holdt det.

"Jeg tror, ​​at en af ​​de ting, man skal se på, er, at disse multi-agent teams er ekstremt stærke, og vores undersøgelse viser det," siger Jaderberg. "Det er det, vi har lært at gøre bedre og bedre i løbet af de sidste par år - hvordan man løser problemet med forstærkningslæring." Og den forbedrede træning fungerede virkelig glimrende.”

Thore Graepel, professor i datalogi ved University College London og DeepMind-forsker, mener, at deres arbejde fremhæver potentialet ved multi-agent læring for fremtidens AI. Det kan også tjene som grundlag for forskning i menneske-maskine interaktion og systemer, der komplementerer hinanden eller arbejder sammen.

"Vores resultater viser, at multi-agent forstærkningslæring med succes kan mestre et komplekst spil til det punkt, at menneskelige spillere endda kommer til at tro, at computerspillere bliver bedre holdkammerater. Undersøgelsen giver også yderst interessant dybdegående analyse af, hvordan trænede agenter opfører sig og arbejder sammen, siger Grapel. "Det, der gør disse resultater så spændende, er, at disse agenter opfatter deres miljø i første person, [det vil sige] ligesom en menneskelig spiller. For at lære at spille taktisk og samarbejde med deres holdkammerater, var disse agenter nødt til at stole på feedback fra spillets resultater, uden at nogen lærer eller træner viste dem, hvad de skulle gøre."



Kilde: 3dnews.ru

Tilføj en kommentar