OpenAI uči timskega dela AI v igri skrivalnic

Dobra staromodna igra skrivalnic je lahko odličen preizkus za bote z umetno inteligenco (AI), da pokažejo, kako sprejemajo odločitve in komunicirajo drug z drugim in različnimi predmeti okoli sebe.

v svojem nov članek, ki so ga objavili raziskovalci OpenAI, neprofitne organizacije za raziskovanje umetne inteligence, ki je postala znana zmago nad svetovnimi prvaki v računalniški igri Dota 2 znanstveniki opisujejo, kako so bili agenti, ki jih nadzoruje umetna inteligenca, usposobljeni za bolj sofisticirano iskanje in skrivanje drug pred drugim v virtualnem okolju. Rezultati študije so pokazali, da se ekipa dveh botov uči učinkoviteje in hitreje kot kateri koli posamezen agent brez zaveznikov.

OpenAI uči timskega dela AI v igri skrivalnic

Znanstveniki so uporabili metodo, ki je že dolgo pridobila slavo strojno učenje z okrepitvijo, v katerem je umetna inteligenca postavljena v njej neznano okolje, medtem ko ima določene načine interakcije z njo, pa tudi sistem nagrad in glob za takšne ali drugačne rezultate svojih dejanj. Ta metoda je precej učinkovita zaradi zmožnosti umetne inteligence, da izvaja različna dejanja v virtualnem okolju z ogromno hitrostjo, milijonkrat hitreje, kot si človek lahko predstavlja. To omogoča, da s poskusi in napakami najdemo najučinkovitejše strategije za rešitev danega problema. Toda ta pristop ima tudi nekatere omejitve, na primer ustvarjanje okolja in izvajanje številnih ciklov usposabljanja zahteva ogromne računalniške vire, sam proces pa zahteva natančen sistem za primerjavo rezultatov dejanj AI s ciljem. Poleg tega so veščine, ki jih agent pridobi na ta način, omejene na opisano nalogo in takoj, ko se AI nauči spopasti z njo, ne bo nobenih nadaljnjih izboljšav.

Da bi umetno inteligenco usposobili za igranje skrivalnic, so znanstveniki uporabili pristop, imenovan »Neusmerjeno raziskovanje«, pri katerem imajo agenti popolno svobodo pri razvijanju svojega razumevanja sveta iger in razvijanju zmagovalnih strategij. To je podobno učnemu pristopu z več agenti, ki so ga raziskovalci pri DeepMindu uporabili pri več sistemih umetne inteligence. so bili usposobljeni za igranje načina zajemanja zastave v Quake III Areni. Tako kot v tem primeru agenti AI prej niso bili usposobljeni za pravila igre, vendar so se sčasoma naučili osnovnih strategij in so lahko celo presenetili raziskovalce z netrivialnimi rešitvami.

V igri skrivalnic se je moralo več agentov, katerih naloga je bila skrivanje, izogniti vidnemu polju svojih nasprotnikov po rahli prednosti, medtem ko je bila ekipa iskalnih agentov imobilizirana. Poleg tega je "vidna linija" v tem kontekstu stožec 135 stopinj pred posameznim botom. Agenti si niso mogli upati predaleč izven igralnega območja in so bili prisiljeni krmariti po naključno ustvarjenih sobah z možnostjo uporabe nekaterih zunanjih predmetov (škatle, premične stene, posebne rampe), raztresenih naokoli, ki jih je bilo mogoče uporabiti za ustvarjanje kritja in infiltracijo vanje. .

OpenAI uči timskega dela AI v igri skrivalnic

Skozi dolgotrajen učni proces so se agenti umetne inteligence naučili šestih edinstvenih strategij, od katerih jim je vsaka pomagala napredovati v naslednjo stopnjo igre. Sprva sta ekipi iskalcev in skrivačev preprosto bežali in se lovili, po približno 25 milijonih tekem pa se je ekipa skrivačev naučila zapirati prehode s škatlami in iz njih graditi zavetja. Po nadaljnjih 75 milijonih tekem je ekipa odkrila načine za uporabo klančin, da pridejo v ta skrivališča. Po nadaljnjih 10 milijonih krogov so se skrivači naučili povleči rampe na rob igrišča in jih zakleniti, da preprečijo nasprotnikom, da bi jih uporabili.

OpenAI uči timskega dela AI v igri skrivalnic

Po 388 milijonih tekem so se iskalci naučili uporabljati blokirane rampe, da bi splezali na zaboje, ki so jim jih prinesli, in nato, ko se pomaknejo neposredno nanje, prodrejo v sovražna skrivališča, ustvarjena iz prenosnih sten. In končno, po 458 milijonih tekem, je ekipa skrivačev ugotovila, da morajo blokirati vse predmete in nato zgraditi zavetje, kar je očitno vodilo do njihove končne zmage.

Še posebej impresivno je, da so se agenti po 22 milijonih tekem naučili usklajevati svoja dejanja in učinkovitost njihovega sodelovanja se je v prihodnosti le še povečala, na primer vsak je prinesel svojo škatlo ali steno, da bi ustvaril zavetje, in izbral svoj delež predmetov, ki jih blokirajte, da otežite igro nasprotnikom.

OpenAI uči timskega dela AI v igri skrivalnic

Znanstveniki so opozorili tudi na pomembno točko, povezano z vplivom števila učnih predmetov (količina podatkov, ki se prenašajo skozi nevronsko mrežo - "velikost serije") na hitrost učenja. Privzeti model je zahteval 132,3 milijona tekem v 34 urah usposabljanja, da bi dosegli točko, ko se je skrivajoča ekipa naučila blokirati rampe, medtem ko je več podatkov povzročilo opazno zmanjšanje časa usposabljanja. Na primer, povečanje števila parametrov (del podatkov, pridobljenih med celotnim procesom usposabljanja) z 0,5 milijona na 5,8 milijona je povečalo učinkovitost vzorčenja za 2,2-krat, povečanje velikosti vhodnih podatkov s 64 KB na 128 KB pa zmanjšalo usposabljanje. čas skoraj enkrat in pol.

OpenAI uči timskega dela AI v igri skrivalnic

Na koncu svojega dela so se raziskovalci odločili preizkusiti, koliko usposabljanja v igri bi lahko agentom pomagalo pri spopadanju s podobnimi nalogami zunaj igre. Skupaj je bilo pet testov: zavedanje števila predmetov (razumevanje, da predmet obstaja še naprej, tudi če ni na vidiku in se ne uporablja); "zaklepanje in vrnitev" - sposobnost zapomniti prvotni položaj in se vrniti vanj po opravljeni dodatni nalogi; »zaporedno blokiranje« - 4 škatle so bile naključno nameščene v treh sobah brez vrat, vendar z klančinami za vstop v notranjost, zato so jih morali agenti najti in blokirati vse; postavitev škatel na vnaprej določena mesta; ustvarjanje zavetja okoli predmeta v obliki valja.

Posledično so se pri treh od petih nalog roboti, ki so opravili predhodno usposabljanje v igri, učili hitreje in pokazali boljše rezultate kot AI, ki je bil usposobljen za reševanje problemov iz nič. Nekoliko bolje so se odrezali pri dokončanju naloge in vračanju v začetni položaj, zaporednem blokiranju škatel v zaprtih prostorih in postavljanju škatel na določena območja, nekoliko slabše pa pri prepoznavanju števila predmetov in ustvarjanju pokrova okoli drugega predmeta.

Raziskovalci pripisujejo mešane rezultate temu, kako se AI uči in si zapomni določene veščine. »Menimo, da so naloge, pri katerih je bilo predhodno usposabljanje v igri najboljše, vključevalo ponovno uporabo predhodno naučenih veščin na znan način, medtem ko bi izvajanje preostalih nalog, boljše od umetne inteligence, usposobljene iz nič, zahtevalo njihovo uporabo na drugačen način, kar veliko težje,« pišejo soavtorji dela. "Ta rezultat poudarja potrebo po razvoju metod za učinkovito ponovno uporabo veščin, pridobljenih z usposabljanjem, ko jih prenašamo iz enega okolja v drugega."

Opravljeno delo je resnično impresivno, saj je možnost uporabe te metode poučevanja daleč onkraj meja katere koli igre. Raziskovalci pravijo, da je njihovo delo pomemben korak k ustvarjanju AI z "fizikalnim" in "človeškim" vedenjem, ki lahko diagnosticira bolezni, napove strukture kompleksnih beljakovinskih molekul in analizira CT.

V spodnjem videu si lahko jasno ogledate, kako je potekal celoten učni proces, kako se je AI naučil timskega dela, njegove strategije pa so postajale vse bolj zvite in zapletene.



Vir: 3dnews.ru

Dodaj komentar