OpenAI lærer AI-teamarbeid i et spill med gjemsel

Et godt gammeldags spill med gjemsel kan være en flott test for roboter med kunstig intelligens (AI) for å demonstrere hvordan de tar avgjørelser og samhandler med hverandre og ulike objekter rundt dem.

i sin ny artikkel, publisert av forskere fra OpenAI, en non-profit forskningsorganisasjon for kunstig intelligens som har blitt berømt seier over verdensmestere i dataspillet Dota 2 beskriver forskere hvordan agenter kontrollert av kunstig intelligens ble opplært til å være mer sofistikerte i å søke og gjemme seg for hverandre i et virtuelt miljø. Resultatene av studien viste at et team på to roboter lærer mer effektivt og raskere enn noen enkelt agent uten allierte.

OpenAI lærer AI-teamarbeid i et spill med gjemsel

Forskere har brukt en metode som lenge har vunnet sin berømmelse maskinlæring med forsterkning, der kunstig intelligens plasseres i et miljø ukjent for den, mens den har visse måter å samhandle med den på, samt et system med belønninger og bøter for et eller annet resultat av handlingene. Denne metoden er ganske effektiv på grunn av evnen til AI til å utføre ulike handlinger i et virtuelt miljø med enorm hastighet, millioner av ganger raskere enn en person kan forestille seg. Dette lar prøving og feiling finne de mest effektive strategiene for å løse et gitt problem. Men denne tilnærmingen har også noen begrensninger, for eksempel å skape et miljø og gjennomføre en rekke treningssykluser krever enorme dataressurser, og selve prosessen krever et nøyaktig system for å sammenligne resultatene av AI-handlinger med målet. I tillegg er ferdighetene ervervet av agenten på denne måten begrenset til den beskrevne oppgaven, og så snart AI lærer å takle det, vil det ikke være ytterligere forbedringer.

For å trene opp AI til å leke gjemsel, brukte forskere en tilnærming kalt «Udirigert utforskning», som er der agenter har full frihet til å utvikle sin forståelse av spillverdenen og utvikle vinnende strategier. Dette ligner på multi-agent læringsmetoden som forskere ved DeepMind brukte når flere kunstig intelligenssystemer ble trent til å spille capture the flag-modus i Quake III Arena. Som i dette tilfellet var AI-agentene ikke tidligere opplært i spillereglene, men over tid lærte de grunnleggende strategier og var til og med i stand til å overraske forskere med ikke-trivielle løsninger.

I et spill med gjemsel ble flere agenter hvis jobb det var å gjemme seg pålagt å unngå motstandernes siktlinje etter et lite forsprang mens teamet av letende agenter var immobilisert. Dessuten er "siktelinjen" i denne sammenhengen en 135 graders kjegle foran en individuell bot. Agenter kunne ikke våge seg for langt utenfor spilleområdet og ble tvunget til å navigere tilfeldig genererte rom med muligheten til å bruke noen eksterne gjenstander (bokser, bevegelige vegger, spesielle ramper) spredt rundt som kunne brukes både til å skape dekning og til å infiltrere i dem .

OpenAI lærer AI-teamarbeid i et spill med gjemsel

Gjennom en langvarig læringsprosess lærte AI-agentene seks unike strategier, som hver hjalp dem med å gå videre til neste fase av spillet. Til å begynne med løp søke- og gjemmerteamet rett og slett bort og jaget hverandre, men etter omtrent 25 millioner kamper lærte gjemmerteamet å blokkere passasjer med bokser og bygge tilfluktsrom av dem. Etter ytterligere 75 millioner kamper, oppdaget teamet måter å bruke ramper for å komme inn i disse gjemmestedene. Etter ytterligere 10 millioner runder lærte gjemerne å dra ramper til kanten av spilleområdet og låse dem på plass for å hindre motstandere i å bruke dem.

OpenAI lærer AI-teamarbeid i et spill med gjemsel

Etter 388 millioner kamper har søkere lært seg å bruke blokkerte ramper for å klatre opp på kasser som ble brakt til dem, og deretter, ved å bevege seg direkte inn på dem, trenge gjennom fiendens gjemmesteder laget av bærbare vegger. Og til slutt, etter 458 millioner kamper, konkluderte gjemmelaget at de måtte blokkere alle gjenstander og deretter bygge et tilfluktsrom, noe som tilsynelatende førte til deres endelige seier.

Det som er spesielt imponerende er at etter 22 millioner kamper lærte agentene å koordinere handlingene sine, og effektiviteten av samarbeidet økte bare i fremtiden, for eksempel tok hver sin boks eller vegg for å lage et tilfluktsrom og valgte sin andel av gjenstander for å blokkere, for å komplisere vanskelighetsspillet for motstandere.

OpenAI lærer AI-teamarbeid i et spill med gjemsel

Forskere bemerket også et viktig poeng knyttet til påvirkningen av antall treningsobjekter (mengden data som sendes gjennom det nevrale nettverket - "Batch Size") på læringshastigheten. Standardmodellen krevde 132,3 millioner kamper over 34 timers trening for å nå det punktet hvor skjulelaget lærte å blokkere ramper, mens mer data resulterte i en merkbar reduksjon i treningstid. For eksempel økte prøvetakingseffektiviteten med 0,5 ganger ved å øke antallet parametere (en del av dataene som ble innhentet under hele opplæringsprosessen) fra 5,8 millioner til 2,2 millioner, og å øke størrelsen på inngangsdataene fra 64 KB til 128 KB reduserte treningen gang nesten en og en halv gang.

OpenAI lærer AI-teamarbeid i et spill med gjemsel

På slutten av arbeidet bestemte forskerne seg for å teste hvor mye trening i spillet kunne hjelpe agenter med å takle lignende oppgaver utenfor spillet. Det var fem tester totalt: bevissthet om antall objekter (forståelse av at et objekt fortsetter å eksistere selv om det er ute av syne og ikke brukes); "lås og returner" - evnen til å huske sin opprinnelige posisjon og gå tilbake til den etter å ha fullført en ekstra oppgave; "sekvensiell blokkering" - 4 bokser ble tilfeldig plassert i tre rom uten dører, men med ramper for å komme inn, måtte agenter finne og blokkere dem alle; plassering av bokser på forhåndsbestemte steder; skape et ly rundt en gjenstand i form av en sylinder.

Som et resultat, i tre av fem oppgaver, lærte roboter som hadde gjennomgått foropplæring i spillet raskere og viste bedre resultater enn AI som var trent til å løse problemer fra bunnen av. De presterte litt bedre til å fullføre oppgaven og gå tilbake til startposisjonen, sekvensielt blokkere bokser i lukkede rom og plassere bokser i gitte områder, men presterte litt svakere med å gjenkjenne antall objekter og skape dekning rundt et annet objekt.

Forskere tilskriver blandede resultater til hvordan AI lærer og husker visse ferdigheter. "Vi tror at oppgavene der forhåndstrening i spillet fungerte best innebar å gjenbruke tidligere lærte ferdigheter på en kjent måte, mens å utføre de resterende oppgavene bedre enn AI-en som ble trent fra bunnen av, ville kreve å bruke dem på en annen måte, noe som mye vanskeligere», skriver medforfatterne til verket. "Dette resultatet fremhever behovet for å utvikle metoder for effektivt å gjenbruke ferdigheter tilegnet gjennom opplæring når de overføres fra ett miljø til et annet."

Arbeidet som er gjort er virkelig imponerende, siden utsiktene til å bruke denne undervisningsmetoden ligger langt utenfor grensene for noen spill. Forskerne sier arbeidet deres er et betydelig skritt mot å skape AI med "fysikkbasert" og "menneskelignende" atferd som kan diagnostisere sykdommer, forutsi strukturene til komplekse proteinmolekyler og analysere CT-skanninger.

I videoen nedenfor kan du tydelig se hvordan hele læringsprosessen fant sted, hvordan AI'en lærte teamarbeid, og strategiene ble mer og mer utspekulerte og komplekse.



Kilde: 3dnews.ru

Legg til en kommentar