Capture the flag prilično je jednostavan način natjecanja koji se nalazi u mnogim popularnim pucačinama. Svaki tim ima marker smješten u svojoj bazi, a cilj je uhvatiti marker protivničkog tima i uspješno ga dovesti do sebe. Međutim, ono što je ljudima lako razumjeti, strojevima nije tako lako. Da bi uhvatili zastavu, likovi koji nisu igrači (botovi) tradicionalno se programiraju pomoću heuristike i jednostavnih algoritama koji pružaju ograničenu slobodu izbora i znatno su inferiorni u odnosu na ljude. Ali umjetna inteligencija i strojno učenje obećavaju da će u potpunosti promijeniti ovu situaciju.
В
“Nitko nije rekao umjetnoj inteligenciji kako igrati ovu igru, ona je samo imala rezultat – je li umjetna inteligencija pobijedila svog protivnika ili ne. Ljepota korištenja ovog pristupa je u tome što nikad ne znate kakvo će se ponašanje pojaviti kada obučavate agente,” kaže Max Jaderberg, istraživač u DeepMindu koji je prethodno radio na sustavu strojnog učenja AlphaStar (nedavno
"S istraživačkog gledišta, ovo je novost za algoritamski pristup koji je stvarno uzbudljiv", dodao je Max. "Način na koji smo trenirali našu umjetnu inteligenciju dobro pokazuje kako skalirati i implementirati neke klasične evolucijske ideje."
Provokativno nazvani For The Win (FTW), DeepMindovi agenti uče izravno od piksela zaslona pomoću konvolucijske neuronske mreže, skupa matematičkih funkcija (neurona) raspoređenih u slojeve po uzoru na ljudski vizualni korteks. Primljeni podaci se prenose u dvije mreže s višestrukim kratkoročnim pamćenjem (engleski long short-term memory - LSTM), sposobnim za prepoznavanje dugoročnih ovisnosti. Jedan od njih upravlja operativnim podacima s velikom brzinom odgovora, dok drugi radi sporo kako bi analizirao i formulirao strategije. Oba su povezana s varijacijskom memorijom, koju zajedno koriste za predviđanje promjena u svijetu igre i izvođenje radnji putem emuliranog kontrolera igre.
Ukupno je DeepMind istrenirao 30 agenata, dao im niz suigrača i protivnika s kojima su se igrali te nasumično odabrao karte za igru kako bi spriječio AI da ih zapamti. Svaki je agent imao vlastiti signal nagrade, što mu je omogućilo stvaranje vlastitih internih ciljeva, poput hvatanja zastave. Svaki AI pojedinačno odigrao je oko 450 tisuća igara capture the flag, što je ekvivalentno otprilike četiri godine igračkog iskustva.
Potpuno obučeni FTW agenti naučili su primijeniti strategije zajedničke svim kartama, popisima i veličini tima. Naučili su ljudska ponašanja kao što je praćenje suigrača, kampiranje u neprijateljskoj bazi i obrana svoje baze od napadača, a postupno su izgubili manje korisne obrasce kao što je preblizu promatranje saveznika.
Dakle, koji su rezultati postignuti? U turniru od 40 osoba u kojem su ljudi i agenti nasumično igrali zajedno i jedni protiv drugih, agenti FTW-a znatno su nadmašili stopu pobjeda od ljudskih igrača. AI-jeva Elo ocjena, što je vjerojatnost pobjede, bila je 1600, u usporedbi s 1300 za "jake" ljudske igrače i 1050 za "prosječne" ljudske igrače.
To ne čudi, budući da je brzina reakcije umjetne inteligencije znatno veća od ljudske, što je prvoj dalo značajnu prednost u početnim eksperimentima. Ali čak i kada je točnost agenata smanjena, a vrijeme reakcije povećano zahvaljujući ugrađenoj latenciji od 257 milisekundi, AI je i dalje bio bolji od ljudi. Napredni i obični igrači osvojili su samo 21% odnosno 12% ukupnih igara.
Štoviše, nakon objave studije, znanstvenici su odlučili testirati agente na potpunim kartama Quake III Arene sa složenom arhitekturom razine i dodatnim objektima, kao što su Future Crossings i Ironwood, gdje je AI počeo uspješno izazivati ljude u testnim mečevima . Kad su istraživači pogledali obrasce aktivacije neuronske mreže agenata, odnosno funkcije neurona odgovornih za određivanje rezultata na temelju pristiglih informacija, pronašli su klastere koji predstavljaju sobe, stanje zastavica, vidljivost suigrača i protivnika i prisutnost ili odsutnost agenata u neprijateljskoj bazi ili u timu te drugi značajni aspekti igranja. Istrenirani agenti čak su sadržavali neurone koji su izravno kodirali određene situacije, kao što je kada je zastavu uzeo agent ili kada ju je držao saveznik.
"Mislim da je jedna od stvari na koju treba obratiti pažnju da su ovi timovi s više agenata iznimno moćni, a naša studija to pokazuje", kaže Jaderberg. "To je ono što učimo raditi sve bolje i bolje tijekom posljednjih nekoliko godina - kako riješiti problem učenja s potkrepljenjem." A poboljšana obuka doista je djelovala briljantno.”
Thore Graepel, profesor računalnih znanosti na University Collegeu u Londonu i znanstvenik DeepMinda, vjeruje da njihov rad naglašava potencijal učenja više agenata za budućnost umjetne inteligencije. Također može poslužiti kao osnova za istraživanje interakcije čovjeka i stroja i sustava koji se međusobno nadopunjuju ili rade zajedno.
“Naši rezultati pokazuju da učenje pojačanja s više agenata može uspješno savladati složenu igru do te mjere da ljudski igrači čak počnu vjerovati da su računalni igrači bolji suigrači. Studija također pruža izuzetno zanimljivu dubinsku analizu o tome kako se obučeni agenti ponašaju i rade zajedno, kaže Grapel. “Ono što čini ove rezultate tako uzbudljivim je to što ovi agenti percipiraju svoje okruženje u prvom licu, [to jest] baš kao ljudski igrač. Da bi naučili taktički igrati i surađivati sa svojim suigračima, ti su se agenti morali osloniti na povratne informacije iz rezultata igre, bez da im je ikakav učitelj ili trener pokazao što da rade."
Izvor: 3dnews.ru