DeepMind AI svladava timsku igru ​​i nadmašuje ljude u igri Quake III

Capture the flag prilično je jednostavan način natjecanja koji se nalazi u mnogim popularnim pucačinama. Svaki tim ima marker smješten u svojoj bazi, a cilj je uhvatiti marker protivničkog tima i uspješno ga dovesti do sebe. Međutim, ono što je ljudima lako razumjeti, strojevima nije tako lako. Da bi uhvatili zastavu, likovi koji nisu igrači (botovi) tradicionalno se programiraju pomoću heuristike i jednostavnih algoritama koji pružaju ograničenu slobodu izbora i znatno su inferiorni u odnosu na ljude. Ali umjetna inteligencija i strojno učenje obećavaju da će u potpunosti promijeniti ovu situaciju.

В članak, objavljen ovaj tjedan u časopisu Science oko godinu dana kasnije predtisakkao i u vaš blog, istraživači iz DeepMinda, londonske podružnice Alphabeta, opisuju sustav koji ne samo da može naučiti igrati hvatanje zastave na mapama Quake III Arene id Software-a, već također može razviti potpuno nove timske strategije, ni na koji način inferiornije od ljudskih.

DeepMind AI svladava timsku igru ​​i nadmašuje ljude u igri Quake III

“Nitko nije rekao umjetnoj inteligenciji kako igrati ovu igru, ona je samo imala rezultat – je li umjetna inteligencija pobijedila svog protivnika ili ne. Ljepota korištenja ovog pristupa je u tome što nikad ne znate kakvo će se ponašanje pojaviti kada obučavate agente,” kaže Max Jaderberg, istraživač u DeepMindu koji je prethodno radio na sustavu strojnog učenja AlphaStar (nedavno nadmašio ljudski tim profesionalaca u StarCraftu II). Nadalje je objasnio da je ključna metoda njihovog novog rada, prvo, pojačano učenje, koje koristi svojevrsni sustav nagrađivanja kako bi tjeralo softverske agente da ostvare zadane ciljeve, a sustav nagrađivanja funkcionirao je bez obzira na to je li AI tim pobijedio ili ne , ali kao drugo, agenti su obučavani u grupama, što je prisililo AI da ovlada timskom interakcijom od samog početka.

"S istraživačkog gledišta, ovo je novost za algoritamski pristup koji je stvarno uzbudljiv", dodao je Max. "Način na koji smo trenirali našu umjetnu inteligenciju dobro pokazuje kako skalirati i implementirati neke klasične evolucijske ideje."

DeepMind AI svladava timsku igru ​​i nadmašuje ljude u igri Quake III

Provokativno nazvani For The Win (FTW), DeepMindovi agenti uče izravno od piksela zaslona pomoću konvolucijske neuronske mreže, skupa matematičkih funkcija (neurona) raspoređenih u slojeve po uzoru na ljudski vizualni korteks. Primljeni podaci se prenose u dvije mreže s višestrukim kratkoročnim pamćenjem (engleski long short-term memory - LSTM), sposobnim za prepoznavanje dugoročnih ovisnosti. Jedan od njih upravlja operativnim podacima s velikom brzinom odgovora, dok drugi radi sporo kako bi analizirao i formulirao strategije. Oba su povezana s varijacijskom memorijom, koju zajedno koriste za predviđanje promjena u svijetu igre i izvođenje radnji putem emuliranog kontrolera igre.

DeepMind AI svladava timsku igru ​​i nadmašuje ljude u igri Quake III

Ukupno je DeepMind istrenirao 30 agenata, dao im niz suigrača i protivnika s kojima su se igrali te nasumično odabrao karte za igru ​​kako bi spriječio AI da ih zapamti. Svaki je agent imao vlastiti signal nagrade, što mu je omogućilo stvaranje vlastitih internih ciljeva, poput hvatanja zastave. Svaki AI pojedinačno odigrao je oko 450 tisuća igara capture the flag, što je ekvivalentno otprilike četiri godine igračkog iskustva.

Potpuno obučeni FTW agenti naučili su primijeniti strategije zajedničke svim kartama, popisima i veličini tima. Naučili su ljudska ponašanja kao što je praćenje suigrača, kampiranje u neprijateljskoj bazi i obrana svoje baze od napadača, a postupno su izgubili manje korisne obrasce kao što je preblizu promatranje saveznika.

Dakle, koji su rezultati postignuti? U turniru od 40 osoba u kojem su ljudi i agenti nasumično igrali zajedno i jedni protiv drugih, agenti FTW-a znatno su nadmašili stopu pobjeda od ljudskih igrača. AI-jeva Elo ocjena, što je vjerojatnost pobjede, bila je 1600, u usporedbi s 1300 za "jake" ljudske igrače i 1050 za "prosječne" ljudske igrače.

DeepMind AI svladava timsku igru ​​i nadmašuje ljude u igri Quake III

To ne čudi, budući da je brzina reakcije umjetne inteligencije znatno veća od ljudske, što je prvoj dalo značajnu prednost u početnim eksperimentima. Ali čak i kada je točnost agenata smanjena, a vrijeme reakcije povećano zahvaljujući ugrađenoj latenciji od 257 milisekundi, AI je i dalje bio bolji od ljudi. Napredni i obični igrači osvojili su samo 21% odnosno 12% ukupnih igara.

Štoviše, nakon objave studije, znanstvenici su odlučili testirati agente na potpunim kartama Quake III Arene sa složenom arhitekturom razine i dodatnim objektima, kao što su Future Crossings i Ironwood, gdje je AI počeo uspješno izazivati ​​ljude u testnim mečevima . Kad su istraživači pogledali obrasce aktivacije neuronske mreže agenata, odnosno funkcije neurona odgovornih za određivanje rezultata na temelju pristiglih informacija, pronašli su klastere koji predstavljaju sobe, stanje zastavica, vidljivost suigrača i protivnika i prisutnost ili odsutnost agenata u neprijateljskoj bazi ili u timu te drugi značajni aspekti igranja. Istrenirani agenti čak su sadržavali neurone koji su izravno kodirali određene situacije, kao što je kada je zastavu uzeo agent ili kada ju je držao saveznik.

"Mislim da je jedna od stvari na koju treba obratiti pažnju da su ovi timovi s više agenata iznimno moćni, a naša studija to pokazuje", kaže Jaderberg. "To je ono što učimo raditi sve bolje i bolje tijekom posljednjih nekoliko godina - kako riješiti problem učenja s potkrepljenjem." A poboljšana obuka doista je djelovala briljantno.”

Thore Graepel, profesor računalnih znanosti na University Collegeu u Londonu i znanstvenik DeepMinda, vjeruje da njihov rad naglašava potencijal učenja više agenata za budućnost umjetne inteligencije. Također može poslužiti kao osnova za istraživanje interakcije čovjeka i stroja i sustava koji se međusobno nadopunjuju ili rade zajedno.

“Naši rezultati pokazuju da učenje pojačanja s više agenata može uspješno savladati složenu igru ​​do te mjere da ljudski igrači čak počnu vjerovati da su računalni igrači bolji suigrači. Studija također pruža izuzetno zanimljivu dubinsku analizu o tome kako se obučeni agenti ponašaju i rade zajedno, kaže Grapel. “Ono što čini ove rezultate tako uzbudljivim je to što ovi agenti percipiraju svoje okruženje u prvom licu, [to jest] baš kao ljudski igrač. Da bi naučili taktički igrati i surađivati ​​sa svojim suigračima, ti su se agenti morali osloniti na povratne informacije iz rezultata igre, bez da im je ikakav učitelj ili trener pokazao što da rade."



Izvor: 3dnews.ru

Dodajte komentar