Dobra staromodna igra skrivača može biti odličan test za botove umjetne inteligencije (AI) da pokažu kako donose odluke i komuniciraju jedni s drugima i raznim objektima oko sebe.
U svom
Naučnici su koristili metodu koja je odavno osvojila svoju slavu
Kako bi obučili AI da igra skrivača, naučnici su koristili pristup nazvan „Neusmjereno istraživanje“, gdje agenti imaju potpunu slobodu da razviju svoje razumijevanje svijeta igre i razviju pobjedničke strategije. Ovo je slično pristupu učenja sa više agenata koji su istraživači u DeepMind-u koristili kada su višestruki sistemi umjetne inteligencije
U igri žmurke, nekoliko agenata čiji je posao bio da se sakriju morali su da izbjegnu liniju pogleda svojih protivnika nakon blagog starta dok je tim agenata u potrazi bio imobiliziran. Štaviše, "linija vida" u ovom kontekstu je konus od 135 stepeni ispred pojedinačnog bota. Agenti se nisu mogli upuštati predaleko izvan prostora za igru i bili su primorani da se kreću nasumično generiranim sobama s mogućnošću korištenja nekih vanjskih objekata (kutije, pokretni zidovi, posebne rampe) razbacanih uokolo koji su se mogli koristiti i za stvaranje zaklona i za infiltraciju u njih. .
Kroz dugotrajan proces učenja, AI agenti su naučili šest jedinstvenih strategija, od kojih im je svaka pomogla da pređu u sljedeću fazu igre. U početku su timovi tragača i skrivača jednostavno bježali i jurili jedni druge, ali nakon oko 25 miliona utakmica, tim skrivača naučio je da blokira prolaze kutijama i da od njih pravi skloništa. Nakon još 75 miliona utakmica, tim je otkrio načine za korištenje rampi za ulazak u ova skrovišta. Nakon još 10 miliona rundi, skrivači su naučili da vuku rampe do ruba područja za igru i zaključavaju ih na mjestu kako bi spriječili protivnike da ih koriste.
Nakon 388 miliona utakmica, tragaoci su naučili da koriste blokirane rampe da se popnu na sanduke donijete do njih, a zatim, krećući se direktno na njih, prodru u neprijateljska skrovišta napravljena od prenosivih zidova. I konačno, nakon 458 miliona mečeva, tim skrivanja je zaključio da treba blokirati sve objekte i potom izgraditi sklonište, što je očigledno dovelo do njihove konačne pobjede.
Ono što je posebno impresivno je da su nakon 22 miliona mečeva agenti naučili da koordiniraju svoje akcije, a efikasnost njihove saradnje u budućnosti se samo povećavala, na primjer, svaki je donosio svoju kutiju ili zid kako bi napravio sklonište i birao svoj dio predmeta za blok, da zakomplikuje igru težine protivnicima.
Naučnici su također primijetili važnu tačku koja se odnosi na utjecaj broja objekata za obuku (količina podataka koji se propuštaju kroz neuronsku mrežu - "Batch Size") na brzinu učenja. Zadani model zahtijevao je 132,3 miliona mečeva tokom 34 sata treninga da bi došao do tačke u kojoj je tim za skrivanje naučio blokirati rampe, dok je više podataka rezultiralo primjetnim smanjenjem vremena treninga. Na primjer, povećanje broja parametara (dio podataka dobijenih tokom cijelog procesa obuke) sa 0,5 miliona na 5,8 miliona povećalo je efikasnost uzorkovanja za 2,2 puta, a povećanje veličine ulaznih podataka sa 64 KB na 128 KB smanjilo je obuku vrijeme skoro jedan i po puta.
Na kraju svog rada, istraživači su odlučili testirati koliko bi trening u igri mogao pomoći agentima da se nose sa sličnim zadacima izvan igre. Ukupno je bilo pet testova: svijest o broju objekata (razumijevanje da objekat nastavlja postojati čak i ako je van vidokruga i nije korišten); "zaključaj i vrati" - sposobnost pamćenja svoje prvobitne pozicije i vraćanja u nju nakon završetka nekog dodatnog zadatka; „uzastopno blokiranje“ - 4 kutije su nasumično locirane u tri prostorije bez vrata, ali sa rampama za ulazak unutra, agenti su trebali da ih sve pronađu i blokiraju; postavljanje kutija na unaprijed određena mjesta; stvaranje zaklona oko objekta u obliku cilindra.
Kao rezultat toga, u tri od pet zadataka, botovi koji su prošli preliminarnu obuku u igrici su brže učili i pokazali bolje rezultate od AI koji je bio obučen da rješava probleme od nule. Nešto bolje su se ponašali u izvršavanju zadatka i vraćanju na početnu poziciju, uzastopno blokirajući kutije u zatvorenim prostorijama i postavljajući kutije u zadate prostore, ali su bili nešto slabije u prepoznavanju broja objekata i stvaranju zaklona oko drugog objekta.
Istraživači pripisuju različite rezultate tome kako AI uči i pamti određene vještine. “Smatramo da su zadaci u kojima se pred-trening u igrici najbolje izveo uključivali ponovno korištenje prethodno naučenih vještina na poznat način, dok bi obavljanje preostalih zadataka bolje od AI obučenog od nule zahtijevalo njihovo korištenje na drugačiji način, što mnogo teže”, pišu koautori rada. „Ovaj rezultat naglašava potrebu za razvojem metoda za efikasnu ponovnu upotrebu vještina stečenih kroz obuku prilikom njihovog prenošenja iz jednog okruženja u drugo.”
Obavljeni posao je zaista impresivan, jer mogućnost korištenja ove nastavne metode leži daleko izvan granica bilo koje igre. Istraživači kažu da je njihov rad značajan korak ka stvaranju AI s ponašanjem "zasnovanim na fizici" i "ljudskim" koje može dijagnosticirati bolesti, predvidjeti strukture složenih proteinskih molekula i analizirati CT skeniranje.
U videu ispod možete jasno vidjeti kako se odvijao cijeli proces učenja, kako je AI naučila timski rad, a njegove strategije su postajale sve lukavije i složenije.
izvor: 3dnews.ru