Dobra staromodna igra skrivača može biti izvrstan test za botove umjetne inteligencije (AI) da pokažu kako donose odluke i komuniciraju jedni s drugima i raznim objektima oko sebe.
u svojim
Znanstvenici su koristili metodu koja je odavno stekla slavu
Kako bi uvježbali umjetnu inteligenciju da se igra skrivača, znanstvenici su koristili pristup nazvan "Neusmjereno istraživanje", gdje agenti imaju potpunu slobodu da razviju svoje razumijevanje svijeta igre i razviju pobjedničke strategije. Ovo je slično pristupu učenja s više agenata koji su istraživači u DeepMindu koristili kada su višestruki sustavi umjetne inteligencije
U igri skrivača, nekoliko agenata čiji je zadatak bio skrivanje moralo je izbjeći protivničku liniju vidljivosti nakon laganog starta dok je tim agenata za pretragu bio nepokretan. Štoviše, "linija vidljivosti" u ovom kontekstu je stožac od 135 stupnjeva ispred pojedinačnog bota. Agenti se nisu mogli previše udaljiti izvan igrališta i bili su prisiljeni kretati se nasumično generiranim sobama s mogućnošću korištenja nekih vanjskih objekata (kutije, pomični zidovi, posebne rampe) razbacanih uokolo koji su se mogli koristiti i za stvaranje zaklona i za infiltraciju u njih .
Kroz dugotrajan proces učenja, AI agenti naučili su šest jedinstvenih strategija, od kojih im je svaka pomogla da napreduju do sljedeće faze igre. Isprva su timovi tragača i skrivača jednostavno bježali i naganjali jedni druge, ali nakon oko 25 milijuna utakmica, tim skrivača je naučio blokirati prolaze kutijama i od njih graditi skloništa. Nakon još 75 milijuna utakmica, tim je otkrio načine kako koristiti rampe za ulazak u ta skrovišta. Nakon još 10 milijuna rundi, skrivači su naučili povući rampe do ruba igrališta i zaključati ih na mjestu kako bi spriječili protivnike da ih koriste.
Nakon 388 milijuna podudaranja, tragači su naučili koristiti blokirane rampe da se popnu na sanduke koji su im doneseni, a zatim, krećući se izravno na njih, prodrijeti u neprijateljska skrovišta stvorena od prijenosnih zidova. I konačno, nakon 458 milijuna utakmica, tim za skrivanje zaključio je da trebaju blokirati sve objekte i zatim izgraditi sklonište, što je očito dovelo do njihove konačne pobjede.
Ono što je posebno impresivno je da su agenti nakon 22 milijuna poklapanja naučili koordinirati svoje akcije i učinkovitost njihove suradnje u budućnosti se samo povećala, primjerice, svatko je donio svoju kutiju ili zid kako bi napravio sklonište i odabrao svoj dio predmeta za blok, kako bi se protivnicima zakomplicirala igra težine.
Znanstvenici su također primijetili važnu točku koja se odnosi na utjecaj broja objekata obuke (količina podataka koja prolazi kroz neuronsku mrežu - “Batch Size”) na brzinu učenja. Zadani model zahtijevao je 132,3 milijuna utakmica tijekom 34 sata treninga da bi se došlo do točke u kojoj je tim koji se skriva naučio blokirati rampe, dok je više podataka rezultiralo primjetnim smanjenjem vremena treninga. Na primjer, povećanje broja parametara (dio podataka dobivenih tijekom cijelog procesa obuke) s 0,5 milijuna na 5,8 milijuna povećalo je učinkovitost uzorkovanja za 2,2 puta, a povećanje veličine ulaznih podataka sa 64 KB na 128 KB smanjilo je obuku. vrijeme gotovo jedan i pol puta.
Na kraju svog rada, istraživači su odlučili testirati koliko obuka u igri može pomoći agentima da se nose sa sličnim zadacima izvan igre. Bilo je ukupno pet testova: svijest o broju predmeta (razumijevanje da predmet nastavlja postojati čak i ako je izvan vidokruga i ne koristi se); "zaključaj i vrati" - sposobnost pamćenja izvornog položaja i vraćanja u njega nakon dovršetka nekog dodatnog zadatka; “sekvencijalno blokiranje” - 4 kutije bile su nasumično smještene u tri sobe bez vrata, ali s rampama za ulazak unutra, agenti su ih morali sve pronaći i blokirati; postavljanje kutija na unaprijed određena mjesta; stvaranje zaklona oko predmeta u obliku valjka.
Kao rezultat toga, u tri od pet zadataka, botovi koji su prošli preliminarnu obuku u igri učili su brže i pokazali bolje rezultate od umjetne inteligencije koja je bila obučena za rješavanje problema od nule. Nešto bolje su se pokazali u izvršavanju zadatka i vraćanju na početnu poziciju, uzastopnom blokiranju kutija u zatvorenim prostorijama i postavljanju kutija u zadana područja, ali nešto slabiji u prepoznavanju broja predmeta i stvaranju zaklona oko drugog predmeta.
Istraživači pripisuju različite rezultate načinu na koji AI uči i pamti određene vještine. „Mislimo da su zadaci kod kojih je prethodna obuka u igri bila najbolja uključivali ponovnu upotrebu prethodno naučenih vještina na poznati način, dok bi izvođenje preostalih zadataka bolje od AI trenirane od nule zahtijevalo njihovo korištenje na drugačiji način, što mnogo teže”, pišu koautori rada. "Ovaj rezultat naglašava potrebu za razvojem metoda za učinkovitu ponovnu upotrebu vještina stečenih kroz obuku pri njihovom prijenosu iz jednog okruženja u drugo."
Obavljeni posao je doista impresivan, budući da je mogućnost korištenja ove metode podučavanja daleko izvan granica bilo koje igre. Istraživači kažu da je njihov rad značajan korak prema stvaranju umjetne inteligencije s "fizičkim" i "ljudskim" ponašanjem koje može dijagnosticirati bolesti, predvidjeti strukture složenih proteinskih molekula i analizirati CT snimke.
U videu ispod možete jasno vidjeti kako se odvijao cijeli proces učenja, kako je AI naučio timski rad, a njegove strategije postajale sve lukavije i složenije.
Izvor: 3dnews.ru