Vang die vlag is 'n redelik eenvoudige mededingende modus wat in baie gewilde skuts voorkom. Elke span het 'n merker op sy basis, en die doel is om die opponerende span se merker vas te vang en suksesvol na homself te bring. Wat vir mense maklik is om te verstaan, is egter nie so maklik vir masjiene nie. Om die vlag vas te vang, word nie-speler karakters (bots) tradisioneel geprogrammeer met behulp van heuristieke en eenvoudige algoritmes wat beperkte vryheid van keuse bied en aansienlik minderwaardig is as mense. Maar kunsmatige intelligensie en masjienleer beloof om hierdie situasie heeltemal te verander.
В
“Niemand het vir die KI vertel hoe om hierdie speletjie te speel nie, dit het net die resultaat gehad – of die KI sy teenstander geklop het of nie. Die skoonheid van die gebruik van hierdie benadering is dat jy nooit weet watter gedrag sal na vore kom wanneer jy agente oplei nie,” sê Max Jaderberg, ’n navorsingswetenskaplike by DeepMind wat voorheen aan die masjienleerstelsel AlphaStar gewerk het (meer onlangs
"Vanuit 'n navorsingsoogpunt is dit 'n nuwigheid vir 'n algoritmiese benadering wat regtig opwindend is," het Max bygevoeg. "Die manier waarop ons ons KI opgelei het, wys goed hoe om 'n paar klassieke evolusionêre idees te skaal en te implementeer."
Uitdagend genoem For The Win (FTW), DeepMind se agente leer direk vanaf skermpiksels deur gebruik te maak van 'n konvolusionele neurale netwerk, 'n stel wiskundige funksies (neurone) wat in lae gerangskik is volgens die menslike visuele korteks. Die ontvangde data word oorgedra na twee netwerke met veelvuldige korttermyngeheue (Engels lang korttermyngeheue - LSTM), wat in staat is om langtermynafhanklikhede te herken. Een van hulle bestuur operasionele data met 'n vinnige reaksiespoed, terwyl die ander stadig werk om strategieë te ontleed en te formuleer. Albei word geassosieer met variasiegeheue, wat hulle saam gebruik om veranderinge in die spelwêreld te voorspel en aksies uit te voer deur die nagebootste spelbeheerder.
In totaal het DeepMind 30 agente opgelei, vir hulle 'n reeks spanmaats en teenstanders gegee om mee te speel, en lukraak speletjiekaarte gekies om te verhoed dat die KI hulle onthou. Elke agent het sy eie beloningsein gehad, wat hom in staat gestel het om sy eie interne doelwitte te skep, soos om die vlag vas te vang. Elke KI het individueel ongeveer 450 duisend speletjies gespeel om die vlag vas te vang, wat gelykstaande is aan ongeveer vier jaar se spelervaring.
Ten volle opgeleide FTW-agente het geleer om strategieë wat algemeen is op enige kaart, spanrooster en spangrootte toe te pas. Hulle het menslike gedrag aangeleer soos om spanmaats te volg, in 'n vyandelike basis te kamp en hul basis teen aanvallers te verdedig, en hulle het geleidelik minder voordelige patrone verloor, soos om 'n bondgenoot te noukeurig dop te hou.
So watter resultate is behaal? In 'n 40-persoon toernooi waarin mense en agente lukraak saam en teen mekaar gespeel het, het FTW-agente aansienlik beter gevaar as die wenkoers van menslike spelers. Die KI se Elo-gradering, wat die waarskynlikheid is om te wen, was 1600, vergeleke met 1300 vir "sterk" menslike spelers en 1050 vir die "gemiddelde" menslike speler.
Dit is nie verbasend nie, aangesien die reaksiespoed van KI aansienlik hoër is as dié van 'n mens, wat eersgenoemde 'n aansienlike voordeel in die aanvanklike eksperimente gegee het. Maar selfs toe die agente se akkuraatheid verminder is en reaksietyd toegeneem het danksy die ingeboude 257 millisekonde latency, het die KI steeds beter gevaar as mense. Gevorderde en gemaklike spelers het onderskeidelik slegs 21% en 12% van die totale speletjies gewen.
Verder, na die publikasie van die studie, het wetenskaplikes besluit om agente te toets op volwaardige Quake III Arena-kaarte met komplekse vlak argitektuur en bykomende voorwerpe, soos Future Crossings en Ironwood, waar die KI mense suksesvol in toetswedstryde begin uitdaag het. . Toe die navorsers na die neurale netwerkaktiveringspatrone van die agente gekyk het, dit wil sê die funksies van die neurone wat verantwoordelik is vir die bepaling van uitset gebaseer op inkomende inligting, het hulle groepe gevind wat kamers verteenwoordig, die toestand van vlae, die sigbaarheid van spanmaats en teenstanders, en die teenwoordigheid of afwesigheid van agente by die vyandbasis, of spangebaseerd, en ander belangrike aspekte van spel. Die opgeleide agente het selfs neurone bevat wat spesifieke situasies direk gekodeer het, soos wanneer 'n vlag deur 'n agent geneem is of wanneer 'n bondgenoot dit vasgehou het.
"Ek dink een van die dinge om na te kyk, is dat hierdie multi-agent-spanne uiters kragtig is, en ons studie toon dit," sê Jaderberg. "Dit is wat ons die afgelope paar jaar geleer het om beter en beter te doen - hoe om die probleem van versterkingsleer op te los." En die verbeterde opleiding het regtig briljant gewerk.”
Thore Graepel, professor in rekenaarwetenskap aan University College London en 'n DeepMind-wetenskaplike, glo dat hul werk die potensiaal van multi-agent-leer vir die toekoms van KI uitlig. Dit kan ook as basis dien vir navorsing oor mens-masjien-interaksie en sisteme wat mekaar aanvul of saamwerk.
“Ons resultate toon dat multi-agent versterkingsleer 'n komplekse speletjie suksesvol kan bemeester tot die punt waar menslike spelers selfs begin glo dat rekenaarspelers beter spanmaats maak. Die studie verskaf ook uiters interessante in-diepte ontleding van hoe opgeleide agente optree en saamwerk, sê Grapel. “Wat hierdie resultate so opwindend maak, is dat hierdie agente hul omgewing in die eerste persoon waarneem, [dit is] net soos 'n menslike speler. Om te leer hoe om takties te speel en met hul spanmaats saam te werk, moes hierdie agente staatmaak op terugvoer van die wedstryd se uitslae, sonder dat enige onderwyser of afrigter vir hulle gewys het wat om te doen.”
Bron: 3dnews.ru