OpenAI uči AI timskom radu u igri skrivača

Dobra staromodna igra skrivača može biti izvrstan test za botove umjetne inteligencije (AI) da pokažu kako donose odluke i komuniciraju jedni s drugima i raznim objektima oko sebe.

u svojim novi članak, objavili su istraživači iz OpenAI-a, neprofitne organizacije za istraživanje umjetne inteligencije koja je postala poznata pobjeda nad svjetskim prvacima u računalnoj igrici Dota 2 znanstvenici opisuju kako su agenti kontrolirani umjetnom inteligencijom trenirani da budu sofisticiraniji u traženju i skrivanju jedni od drugih u virtualnom okruženju. Rezultati studije pokazali su da tim od dva bota uči učinkovitije i brže od bilo kojeg pojedinačnog agenta bez saveznika.

OpenAI uči AI timskom radu u igri skrivača

Znanstvenici su koristili metodu koja je odavno stekla slavu strojno učenje s pojačanjem, u kojem je umjetna inteligencija smještena u njoj nepoznato okruženje, a pritom ima određene načine interakcije s njom, kao i sustav nagrada i kazni za ove ili one rezultate njezinih postupaka. Ova metoda je vrlo učinkovita zbog sposobnosti umjetne inteligencije da izvodi razne radnje u virtualnom okruženju ogromnom brzinom, milijunima puta brže nego što osoba može zamisliti. To omogućuje pokušajima i pogreškama pronalaženje najučinkovitijih strategija za rješavanje određenog problema. Ali ovaj pristup ima i neka ograničenja, na primjer, stvaranje okruženja i provođenje brojnih ciklusa obuke zahtijeva ogromne računalne resurse, a sam proces zahtijeva točan sustav za usporedbu rezultata AI akcija sa svojim ciljem. Osim toga, vještine koje je agent stekao na ovaj način ograničene su na opisani zadatak i, nakon što se AI nauči nositi s tim, neće biti daljnjih poboljšanja.

Kako bi uvježbali umjetnu inteligenciju da se igra skrivača, znanstvenici su koristili pristup nazvan "Neusmjereno istraživanje", gdje agenti imaju potpunu slobodu da razviju svoje razumijevanje svijeta igre i razviju pobjedničke strategije. Ovo je slično pristupu učenja s više agenata koji su istraživači u DeepMindu koristili kada su višestruki sustavi umjetne inteligencije obučavani su igrati način hvatanja zastave u Quake III Areni. Kao i u ovom slučaju, agenti umjetne inteligencije nisu prethodno bili obučeni za pravila igre, ali su s vremenom naučili osnovne strategije i čak uspjeli iznenaditi istraživače netrivijalnim rješenjima.

U igri skrivača, nekoliko agenata čiji je zadatak bio skrivanje moralo je izbjeći protivničku liniju vidljivosti nakon laganog starta dok je tim agenata za pretragu bio nepokretan. Štoviše, "linija vidljivosti" u ovom kontekstu je stožac od 135 stupnjeva ispred pojedinačnog bota. Agenti se nisu mogli previše udaljiti izvan igrališta i bili su prisiljeni kretati se nasumično generiranim sobama s mogućnošću korištenja nekih vanjskih objekata (kutije, pomični zidovi, posebne rampe) razbacanih uokolo koji su se mogli koristiti i za stvaranje zaklona i za infiltraciju u njih .

OpenAI uči AI timskom radu u igri skrivača

Kroz dugotrajan proces učenja, AI agenti naučili su šest jedinstvenih strategija, od kojih im je svaka pomogla da napreduju do sljedeće faze igre. Isprva su timovi tragača i skrivača jednostavno bježali i naganjali jedni druge, ali nakon oko 25 milijuna utakmica, tim skrivača je naučio blokirati prolaze kutijama i od njih graditi skloništa. Nakon još 75 milijuna utakmica, tim je otkrio načine kako koristiti rampe za ulazak u ta skrovišta. Nakon još 10 milijuna rundi, skrivači su naučili povući rampe do ruba igrališta i zaključati ih na mjestu kako bi spriječili protivnike da ih koriste.

OpenAI uči AI timskom radu u igri skrivača

Nakon 388 milijuna podudaranja, tragači su naučili koristiti blokirane rampe da se popnu na sanduke koji su im doneseni, a zatim, krećući se izravno na njih, prodrijeti u neprijateljska skrovišta stvorena od prijenosnih zidova. I konačno, nakon 458 milijuna utakmica, tim za skrivanje zaključio je da trebaju blokirati sve objekte i zatim izgraditi sklonište, što je očito dovelo do njihove konačne pobjede.

Ono što je posebno impresivno je da su agenti nakon 22 milijuna poklapanja naučili koordinirati svoje akcije i učinkovitost njihove suradnje u budućnosti se samo povećala, primjerice, svatko je donio svoju kutiju ili zid kako bi napravio sklonište i odabrao svoj dio predmeta za blok, kako bi se protivnicima zakomplicirala igra težine.

OpenAI uči AI timskom radu u igri skrivača

Znanstvenici su također primijetili važnu točku koja se odnosi na utjecaj broja objekata obuke (količina podataka koja prolazi kroz neuronsku mrežu - “Batch Size”) na brzinu učenja. Zadani model zahtijevao je 132,3 milijuna utakmica tijekom 34 sata treninga da bi se došlo do točke u kojoj je tim koji se skriva naučio blokirati rampe, dok je više podataka rezultiralo primjetnim smanjenjem vremena treninga. Na primjer, povećanje broja parametara (dio podataka dobivenih tijekom cijelog procesa obuke) s 0,5 milijuna na 5,8 milijuna povećalo je učinkovitost uzorkovanja za 2,2 puta, a povećanje veličine ulaznih podataka sa 64 KB na 128 KB smanjilo je obuku. vrijeme gotovo jedan i pol puta.

OpenAI uči AI timskom radu u igri skrivača

Na kraju svog rada, istraživači su odlučili testirati koliko obuka u igri može pomoći agentima da se nose sa sličnim zadacima izvan igre. Bilo je ukupno pet testova: svijest o broju predmeta (razumijevanje da predmet nastavlja postojati čak i ako je izvan vidokruga i ne koristi se); "zaključaj i vrati" - sposobnost pamćenja izvornog položaja i vraćanja u njega nakon dovršetka nekog dodatnog zadatka; “sekvencijalno blokiranje” - 4 kutije bile su nasumično smještene u tri sobe bez vrata, ali s rampama za ulazak unutra, agenti su ih morali sve pronaći i blokirati; postavljanje kutija na unaprijed određena mjesta; stvaranje zaklona oko predmeta u obliku valjka.

Kao rezultat toga, u tri od pet zadataka, botovi koji su prošli preliminarnu obuku u igri učili su brže i pokazali bolje rezultate od umjetne inteligencije koja je bila obučena za rješavanje problema od nule. Nešto bolje su se pokazali u izvršavanju zadatka i vraćanju na početnu poziciju, uzastopnom blokiranju kutija u zatvorenim prostorijama i postavljanju kutija u zadana područja, ali nešto slabiji u prepoznavanju broja predmeta i stvaranju zaklona oko drugog predmeta.

Istraživači pripisuju različite rezultate načinu na koji AI uči i pamti određene vještine. „Mislimo da su zadaci kod kojih je prethodna obuka u igri bila najbolja uključivali ponovnu upotrebu prethodno naučenih vještina na poznati način, dok bi izvođenje preostalih zadataka bolje od AI trenirane od nule zahtijevalo njihovo korištenje na drugačiji način, što mnogo teže”, pišu koautori rada. "Ovaj rezultat naglašava potrebu za razvojem metoda za učinkovitu ponovnu upotrebu vještina stečenih kroz obuku pri njihovom prijenosu iz jednog okruženja u drugo."

Obavljeni posao je doista impresivan, budući da je mogućnost korištenja ove metode podučavanja daleko izvan granica bilo koje igre. Istraživači kažu da je njihov rad značajan korak prema stvaranju umjetne inteligencije s "fizičkim" i "ljudskim" ponašanjem koje može dijagnosticirati bolesti, predvidjeti strukture složenih proteinskih molekula i analizirati CT snimke.

U videu ispod možete jasno vidjeti kako se odvijao cijeli proces učenja, kako je AI naučio timski rad, a njegove strategije postajale sve lukavije i složenije.



Izvor: 3dnews.ru

Dodajte komentar