OpenAI lär ut AI-lagarbete i ett kurragömmaspel

Ett gammaldags spel kurragömma kan vara ett bra test för artificiell intelligens (AI) bots för att visa hur de fattar beslut och interagerar med varandra och olika objekt runt dem.

I hans ny artikel, publicerad av forskare från OpenAI, en ideell forskningsorganisation för artificiell intelligens som har blivit känd seger över världsmästare i datorspelet Dota 2 beskriver forskare hur agenter styrda av artificiell intelligens tränades för att vara mer sofistikerade i att söka och gömma sig för varandra i en virtuell miljö. Resultaten av studien visade att ett team av två bots lär sig mer effektivt och snabbare än någon enskild agent utan allierade.

OpenAI lär ut AI-lagarbete i ett kurragömmaspel

Forskare har använt en metod som länge vunnit sin berömmelse maskininlärning med förstärkning, där artificiell intelligens placeras i en för den okänd miljö, samtidigt som den har vissa sätt att interagera med den, samt ett system med belöningar och böter för ett eller annat resultat av dess handlingar. Denna metod är ganska effektiv på grund av förmågan hos AI att utföra olika åtgärder i en virtuell miljö med enorm hastighet, miljontals gånger snabbare än en person kan föreställa sig. Detta gör att trial and error kan hitta de mest effektiva strategierna för att lösa ett givet problem. Men detta tillvägagångssätt har också vissa begränsningar, till exempel att skapa en miljö och genomföra många träningscykler kräver enorma datorresurser, och själva processen kräver ett korrekt system för att jämföra resultaten av AI-åtgärder med dess mål. Dessutom är de färdigheter som agenten förvärvat på detta sätt begränsade till den beskrivna uppgiften och när AI:n lär sig att hantera det kommer det inte att ske några ytterligare förbättringar.

För att träna AI att leka kurragömma använde forskare ett tillvägagångssätt som kallas "Oriktad utforskning", vilket är där agenter har fullständig frihet att utveckla sin förståelse för spelvärlden och utveckla vinnande strategier. Detta liknar den multi-agent inlärningsmetod som forskare vid DeepMind använde när flera artificiella intelligenssystem tränades för att spela capture the flag-läge i Quake III Arena. Som i det här fallet var AI-agenterna inte tidigare utbildade i spelets regler, men med tiden lärde de sig grundläggande strategier och kunde till och med överraska forskare med icke-triviala lösningar.

I ett spel med kurragömma krävdes flera agenter vars jobb det var att gömma sig för att undvika sina motståndares synfält efter ett litet försprång medan teamet av letande agenter var immobiliserade. Dessutom är "siktlinjen" i detta sammanhang en 135 graders kon framför en enskild bot. Agenter kunde inte våga sig för långt utanför spelområdet och tvingades navigera i slumpmässigt genererade rum med möjlighet att använda några externa föremål (lådor, rörliga väggar, speciella ramper) utspridda som kunde användas både för att skapa täckning och för att infiltrera i dem .

OpenAI lär ut AI-lagarbete i ett kurragömmaspel

Genom en lång inlärningsprocess lärde sig AI-agenterna sex unika strategier, som var och en hjälpte dem att gå vidare till nästa steg i spelet. Till en början sprang sökar- och gömmerlaget helt enkelt iväg och jagade varandra, men efter cirka 25 miljoner matcher lärde sig gömmerlaget att blockera passager med lådor och bygga skydd av dem. Efter ytterligare 75 miljoner matcher upptäckte laget sätt att använda ramper för att ta sig in i dessa gömmor. Efter ytterligare 10 miljoner omgångar lärde sig gömmor att dra ramper till kanten av spelområdet och låsa dem på plats för att hindra motståndare från att använda dem.

OpenAI lär ut AI-lagarbete i ett kurragömmaspel

Efter 388 miljoner matcher har sökare lärt sig att använda blockerade ramper för att klättra upp på lådor som de kommit till dem, och sedan gå direkt in på dem och penetrera fiendens gömställen skapade av bärbara väggar. Och slutligen, efter 458 miljoner matcher, drog gömningsteamet slutsatsen att de behövde blockera alla föremål och sedan bygga ett skydd, vilket tydligen ledde till deras slutliga seger.

Det som är särskilt imponerande är att agenterna efter 22 miljoner matcher lärde sig att samordna sina handlingar och effektiviteten i deras samarbete ökade bara i framtiden, till exempel tog var och en med sig sin egen låda eller vägg för att skapa ett skydd och valde sin andel av objekten för att blockera, för att komplicera svårighetsspelet för motståndare.

OpenAI lär ut AI-lagarbete i ett kurragömmaspel

Forskare noterade också en viktig punkt relaterad till påverkan av antalet träningsobjekt (mängden data som passerade genom det neurala nätverket - "Batch Size") på inlärningshastigheten. Standardmodellen krävde 132,3 miljoner matcher under 34 timmars träning för att nå den punkt där det gömda laget lärde sig att blockera ramper, medan mer data resulterade i en märkbar minskning av träningstiden. Genom att till exempel öka antalet parametrar (en del av data som erhålls under hela utbildningsprocessen) från 0,5 miljoner till 5,8 miljoner ökade samplingseffektiviteten med 2,2 gånger, och en ökning av storleken på indata från 64 KB till 128 KB minskade träningen gång nästan en och en halv gång.

OpenAI lär ut AI-lagarbete i ett kurragömmaspel

I slutet av sitt arbete bestämde sig forskarna för att testa hur mycket träning i spelet skulle kunna hjälpa agenter att klara av liknande uppgifter utanför spelet. Det var fem tester totalt: medvetenhet om antalet föremål (förstå att ett föremål fortsätter att existera även om det är utom synhåll och inte används); "lås och återvänd" - förmågan att komma ihåg sin ursprungliga position och återgå till den efter att ha slutfört ytterligare en uppgift; "sekventiell blockering" - 4 lådor placerades slumpmässigt i tre rum utan dörrar, men med ramper för att komma in, agenter behövde hitta och blockera dem alla; placering av lådor på förutbestämda platser; skapa ett skydd runt ett föremål i form av en cylinder.

Som ett resultat, i tre av fem uppgifter, lärde sig bots som hade genomgått preliminär träning i spelet snabbare och visade bättre resultat än AI som tränats för att lösa problem från grunden. De presterade något bättre på att slutföra uppgiften och återgå till startpositionen, sekventiellt blockera lådor i slutna rum och placera lådor i givna områden, men presterade något svagare på att känna igen antalet objekt och skapa täckning runt ett annat objekt.

Forskare tillskriver blandade resultat till hur AI lär sig och kommer ihåg vissa färdigheter. "Vi tror att de uppgifter där förträning i spelet fungerade bäst innebar att återanvända tidigare inlärda färdigheter på ett välbekant sätt, samtidigt som att utföra de återstående uppgifterna bättre än den AI som tränats från grunden skulle kräva att de används på ett annat sätt, vilket mycket svårare”, skriver medförfattarna till verket. "Detta resultat belyser behovet av att utveckla metoder för att effektivt återanvända färdigheter som förvärvats genom utbildning när de överförs från en miljö till en annan."

Arbetet som gjorts är verkligen imponerande, eftersom möjligheten att använda denna undervisningsmetod ligger långt bortom gränserna för alla spel. Forskarna säger att deras arbete är ett viktigt steg mot att skapa AI med "fysikbaserat" och "mänskligt" beteende som kan diagnostisera sjukdomar, förutsäga strukturerna hos komplexa proteinmolekyler och analysera CT-skanningar.

I videon nedan kan du tydligt se hur hela inlärningsprocessen ägde rum, hur AI:n lärde sig lagarbete och dess strategier blev mer och mer listiga och komplexa.



Källa: 3dnews.ru

Lägg en kommentar