OpenAI uči AI timskom radu u igri skrivača

Dobra staromodna igra skrivača može biti odličan test za botove umjetne inteligencije (AI) da pokažu kako donose odluke i komuniciraju jedni s drugima i raznim objektima oko sebe.

U svom novi članak, koju su objavili istraživači iz OpenAI, neprofitne istraživačke organizacije umjetne inteligencije koja je postala poznata pobeda nad svetskim prvacima u kompjuterskoj igrici Dota 2, naučnici opisuju kako su agenti pod kontrolom vještačke inteligencije bili obučeni da budu sofisticiraniji u traženju i skrivanju jedni od drugih u virtuelnom okruženju. Rezultati studije su pokazali da tim od dva bota uči efikasnije i brže od bilo kojeg pojedinačnog agenta bez saveznika.

OpenAI uči AI timskom radu u igri skrivača

Naučnici su koristili metodu koja je odavno osvojila svoju slavu mašinsko učenje sa pojačanjem, u kojem je umjetna inteligencija smještena u njoj nepoznato okruženje, a ima određene načine interakcije s njom, kao i sistem nagrada i kazni za jedan ili drugi rezultat svog djelovanja. Ova metoda je prilično efikasna zbog sposobnosti umjetne inteligencije da izvodi različite radnje u virtuelnom okruženju ogromnom brzinom, milionima puta brže nego što čovjek može zamisliti. Ovo omogućava pokušajima i greškama da se pronađu najefikasnije strategije za rešavanje datog problema. Ali ovaj pristup ima i neka ograničenja, na primjer, stvaranje okruženja i provođenje brojnih ciklusa obuke zahtijevaju ogromne računarske resurse, a sam proces zahtijeva precizan sistem za poređenje rezultata AI akcija sa svojim ciljem. Osim toga, vještine koje je agent stekao na ovaj način ograničene su na opisani zadatak i, kada AI nauči da se nosi s njim, neće biti daljnjih poboljšanja.

Kako bi obučili AI da igra skrivača, naučnici su koristili pristup nazvan „Neusmjereno istraživanje“, gdje agenti imaju potpunu slobodu da razviju svoje razumijevanje svijeta igre i razviju pobjedničke strategije. Ovo je slično pristupu učenja sa više agenata koji su istraživači u DeepMind-u koristili kada su višestruki sistemi umjetne inteligencije bili su obučeni da igraju način snimanja zastave u Quake III Areni. Kao iu ovom slučaju, AI agenti nisu prethodno bili obučeni za pravila igre, ali su s vremenom naučili osnovne strategije i čak su uspjeli iznenaditi istraživače netrivijalnim rješenjima.

U igri žmurke, nekoliko agenata čiji je posao bio da se sakriju morali su da izbjegnu liniju pogleda svojih protivnika nakon blagog starta dok je tim agenata u potrazi bio imobiliziran. Štaviše, "linija vida" u ovom kontekstu je konus od 135 stepeni ispred pojedinačnog bota. Agenti se nisu mogli upuštati predaleko izvan prostora za igru ​​i bili su primorani da se kreću nasumično generiranim sobama s mogućnošću korištenja nekih vanjskih objekata (kutije, pokretni zidovi, posebne rampe) razbacanih uokolo koji su se mogli koristiti i za stvaranje zaklona i za infiltraciju u njih. .

OpenAI uči AI timskom radu u igri skrivača

Kroz dugotrajan proces učenja, AI agenti su naučili šest jedinstvenih strategija, od kojih im je svaka pomogla da pređu u sljedeću fazu igre. U početku su timovi tragača i skrivača jednostavno bježali i jurili jedni druge, ali nakon oko 25 miliona utakmica, tim skrivača naučio je da blokira prolaze kutijama i da od njih pravi skloništa. Nakon još 75 miliona utakmica, tim je otkrio načine za korištenje rampi za ulazak u ova skrovišta. Nakon još 10 miliona rundi, skrivači su naučili da vuku rampe do ruba područja za igru ​​i zaključavaju ih na mjestu kako bi spriječili protivnike da ih koriste.

OpenAI uči AI timskom radu u igri skrivača

Nakon 388 miliona utakmica, tragaoci su naučili da koriste blokirane rampe da se popnu na sanduke donijete do njih, a zatim, krećući se direktno na njih, prodru u neprijateljska skrovišta napravljena od prenosivih zidova. I konačno, nakon 458 miliona mečeva, tim skrivanja je zaključio da treba blokirati sve objekte i potom izgraditi sklonište, što je očigledno dovelo do njihove konačne pobjede.

Ono što je posebno impresivno je da su nakon 22 miliona mečeva agenti naučili da koordiniraju svoje akcije, a efikasnost njihove saradnje u budućnosti se samo povećavala, na primjer, svaki je donosio svoju kutiju ili zid kako bi napravio sklonište i birao svoj dio predmeta za blok, da zakomplikuje igru ​​težine protivnicima.

OpenAI uči AI timskom radu u igri skrivača

Naučnici su također primijetili važnu tačku koja se odnosi na utjecaj broja objekata za obuku (količina podataka koji se propuštaju kroz neuronsku mrežu - "Batch Size") na brzinu učenja. Zadani model zahtijevao je 132,3 miliona mečeva tokom 34 sata treninga da bi došao do tačke u kojoj je tim za skrivanje naučio blokirati rampe, dok je više podataka rezultiralo primjetnim smanjenjem vremena treninga. Na primjer, povećanje broja parametara (dio podataka dobijenih tokom cijelog procesa obuke) sa 0,5 miliona na 5,8 miliona povećalo je efikasnost uzorkovanja za 2,2 puta, a povećanje veličine ulaznih podataka sa 64 KB na 128 KB smanjilo je obuku vrijeme skoro jedan i po puta.

OpenAI uči AI timskom radu u igri skrivača

Na kraju svog rada, istraživači su odlučili testirati koliko bi trening u igri mogao pomoći agentima da se nose sa sličnim zadacima izvan igre. Ukupno je bilo pet testova: svijest o broju objekata (razumijevanje da objekat nastavlja postojati čak i ako je van vidokruga i nije korišten); "zaključaj i vrati" - sposobnost pamćenja svoje prvobitne pozicije i vraćanja u nju nakon završetka nekog dodatnog zadatka; „uzastopno blokiranje“ - 4 kutije su nasumično locirane u tri prostorije bez vrata, ali sa rampama za ulazak unutra, agenti su trebali da ih sve pronađu i blokiraju; postavljanje kutija na unaprijed određena mjesta; stvaranje zaklona oko objekta u obliku cilindra.

Kao rezultat toga, u tri od pet zadataka, botovi koji su prošli preliminarnu obuku u igrici su brže učili i pokazali bolje rezultate od AI koji je bio obučen da rješava probleme od nule. Nešto bolje su se ponašali u izvršavanju zadatka i vraćanju na početnu poziciju, uzastopno blokirajući kutije u zatvorenim prostorijama i postavljajući kutije u zadate prostore, ali su bili nešto slabije u prepoznavanju broja objekata i stvaranju zaklona oko drugog objekta.

Istraživači pripisuju različite rezultate tome kako AI uči i pamti određene vještine. “Smatramo da su zadaci u kojima se pred-trening u igrici najbolje izveo uključivali ponovno korištenje prethodno naučenih vještina na poznat način, dok bi obavljanje preostalih zadataka bolje od AI obučenog od nule zahtijevalo njihovo korištenje na drugačiji način, što mnogo teže”, pišu koautori rada. „Ovaj rezultat naglašava potrebu za razvojem metoda za efikasnu ponovnu upotrebu vještina stečenih kroz obuku prilikom njihovog prenošenja iz jednog okruženja u drugo.”

Obavljeni posao je zaista impresivan, jer mogućnost korištenja ove nastavne metode leži daleko izvan granica bilo koje igre. Istraživači kažu da je njihov rad značajan korak ka stvaranju AI s ponašanjem "zasnovanim na fizici" i "ljudskim" koje može dijagnosticirati bolesti, predvidjeti strukture složenih proteinskih molekula i analizirati CT skeniranje.

U videu ispod možete jasno vidjeti kako se odvijao cijeli proces učenja, kako je AI naučila timski rad, a njegove strategije su postajale sve lukavije i složenije.



izvor: 3dnews.ru

Dodajte komentar