DeepMind AI Masters komanda spēlē un pārspēj cilvēkus Quake III

Karoga tverÅ”ana ir diezgan vienkārÅ”s sacensÄ«bu režīms, kas atrodams daudzos populāros Ŕāvējos. Katrai komandai ir marÄ·ieris, kas atrodas tās pamatnē, un mērÄ·is ir notvert pretinieku komandas marÄ·ieri un veiksmÄ«gi nogādāt to sev. Tomēr tas, kas ir viegli saprotams cilvēkiem, nav tik vienkārÅ”i maŔīnām. Lai notvertu karogu, varoņi, kas nav spēlētāji (boti), tradicionāli tiek ieprogrammēti, izmantojot heiristikas un vienkārÅ”us algoritmus, kas nodroÅ”ina ierobežotu izvēles brÄ«vÄ«bu un ir ievērojami zemāki par cilvēkiem. Taču mākslÄ«gais intelekts un maŔīnmācÄ«ba sola Å”o situāciju pilnÄ«bā mainÄ«t.

Š’ raksts, kas publicēts Å”onedēļ žurnālā Science aptuveni gadu pēc tam priekÅ”druka, kā arÄ« iekŔā jÅ«su emuārs, pētnieki no DeepMind, Londonā bāzētā Alphabet meitasuzņēmuma, apraksta sistēmu, kas var ne tikai iemācÄ«ties spēlēt karoga uztverÅ”anu id Software Quake III Arena kartēs, bet arÄ« izstrādāt pilnÄ«gi jaunas komandas stratēģijas, kas nekādā ziņā nav zemākas par cilvēku.

DeepMind AI Masters komanda spēlē un pārspēj cilvēkus Quake III

"Neviens neteica AI, kā spēlēt Å”o spēli, tai bija tikai rezultāts - vai AI pārspēja savu pretinieku vai nē. Å Ä«s pieejas izmantoÅ”anas skaistums ir tāds, ka jÅ«s nekad nezināt, kāda uzvedÄ«ba parādÄ«sies, apmācot aÄ£entus,ā€ saka Makss Džederbergs, DeepMind pētnieks, kurÅ” iepriekÅ” strādāja pie maŔīnmācÄ«Å”anās sistēmas AlphaStar (pavisam nesen pārspēts profesionāļu komanda StarCraft II). ViņŔ arÄ« paskaidroja, ka viņu jaunā darba galvenā metode ir, pirmkārt, pastiprināta mācÄ«Å”anās, kurā tiek izmantota sava veida atalgojuma sistēma, lai programmatÅ«ras aÄ£entus sasniegtu izvirzÄ«tos mērÄ·us, un atlÄ«dzÄ«bas sistēma darbojās neatkarÄ«gi no tā, vai AI komanda uzvarēja vai nē. , bet, otrkārt, aÄ£enti tika apmācÄ«ti grupās, kas piespieda AI jau no paÅ”a sākuma apgÅ«t komandas mijiedarbÄ«bu.

"No pētniecÄ«bas viedokļa tas ir jaunums algoritmiskai pieejai, kas ir patieŔām aizraujoÅ”a," piebilda Makss. "Tas, kā mēs apmācām savu AI, labi parāda, kā mērogot un Ä«stenot dažas klasiskas evolÅ«cijas idejas."

DeepMind AI Masters komanda spēlē un pārspēj cilvēkus Quake III

ProvokatÄ«vi nosaukts For The Win (FTW), DeepMind aÄ£enti mācās tieÅ”i no ekrāna pikseļiem, izmantojot konvolucionālo neironu tÄ«klu, matemātisko funkciju (neironu) kopumu, kas sakārtots slāņos, kas modelēti pēc cilvēka vizuālās garozas. Saņemtie dati tiek pārsÅ«tÄ«ti uz diviem tÄ«kliem ar daudzkārtēju Ä«stermiņa atmiņu (angļu long short-term memory ā€” LSTM), kas spēj atpazÄ«t ilgtermiņa atkarÄ«bas. Viens no tiem pārvalda operatÄ«vos datus ar ātru reakcijas ātrumu, bet otrs strādā lēni, lai analizētu un formulētu stratēģijas. Abas ir saistÄ«tas ar mainÄ«go atmiņu, ko tās izmanto kopā, lai paredzētu izmaiņas spēļu pasaulē un veiktu darbÄ«bas, izmantojot emulēto spēles kontrolieri.

DeepMind AI Masters komanda spēlē un pārspēj cilvēkus Quake III

Kopumā DeepMind apmācÄ«ja 30 aÄ£entus, deva viņiem virkni komandas biedru un pretinieku, ar kuriem spēlēt, un nejauÅ”i izvēlētas spēļu kārtis, lai neļautu AI tos atcerēties. Katram aÄ£entam bija savs atlÄ«dzÄ«bas signāls, kas ļāva izveidot savus iekŔējos mērÄ·us, piemēram, notvert karogu. Katrs mākslÄ«gais intelekts atseviŔķi spēlēja aptuveni 450 tÅ«kstoÅ”us karoga uztverÅ”anas spēļu, kas ir lÄ«dzvērtÄ«gs aptuveni četru gadu spēļu pieredzei.

PilnÄ«bā apmācÄ«ti FTW aÄ£enti ir iemācÄ«juÅ”ies piemērot stratēģijas, kas ir kopÄ«gas jebkurai kartei, komandas sarakstam un komandas lielumam. Viņi apguva cilvēku uzvedÄ«bu, piemēram, sekoÅ”anu komandas biedriem, apmetÅ”anos ienaidnieka bāzē un savas bāzes aizstāvÄ“Å”anu no uzbrucējiem, un pakāpeniski zaudēja mazāk labvēlÄ«gus modeļus, piemēram, pārāk cieÅ”u sabiedroto vēroÅ”anu.

Tātad, kādi rezultāti tika sasniegti? 40 cilvēku turnÄ«rā, kurā cilvēki un aÄ£enti nejauÅ”i spēlēja gan kopā, gan viens pret otru, FTW aÄ£enti ievērojami pārspēja cilvēku spēlētāju uzvaru rādÄ«tāju. AI Elo reitings, kas ir uzvaras varbÅ«tÄ«ba, bija 1600, salÄ«dzinot ar 1300 "spēcÄ«giem" spēlētājiem un 1050 "vidējam" cilvēka spēlētājam.

DeepMind AI Masters komanda spēlē un pārspēj cilvēkus Quake III

Tas nav pārsteidzoÅ”i, jo AI reakcijas ātrums ir ievērojami lielāks nekā cilvēka reakcijas ātrums, kas pirmajam deva ievērojamu priekÅ”rocÄ«bu sākotnējos eksperimentos. Bet pat tad, ja aÄ£entu precizitāte tika samazināta un reakcijas laiks palielinājās, pateicoties iebÅ«vētajam 257 milisekundes latentumam, AI joprojām pārspēja cilvēkus. Uzlabotie un gadÄ«juma spēlētāji uzvarēja tikai attiecÄ«gi 21% un 12% no kopējām spēlēm.

Turklāt pēc pētÄ«juma publicÄ“Å”anas zinātnieki nolēma pārbaudÄ«t aÄ£entus uz pilnvērtÄ«gām Quake III Arena kartēm ar sarežģīta lÄ«meņa arhitektÅ«ru un papildu objektiem, piemēram, Future Crossings un Ironwood, kur AI sāka veiksmÄ«gi izaicināt cilvēkus testa spēlēs. . Kad pētnieki aplÅ«koja aÄ£entu neironu tÄ«kla aktivizācijas modeļus, tas ir, neironu funkcijas, kas atbild par izvades noteikÅ”anu, pamatojoties uz ienākoÅ”o informāciju, viņi atklāja kopas, kas attēlo telpas, karogu stāvokli, komandas biedru un pretinieku redzamÄ«bu un aÄ£entu esamÄ«ba vai neesamÄ«ba ienaidnieka bāzē vai komandā, un citi nozÄ«mÄ«gi spēles aspekti. ApmācÄ«tie aÄ£enti pat saturēja neironus, kas tieÅ”i kodēja konkrētas situācijas, piemēram, kad aÄ£ents paņēma karogu vai kad to turēja kāds sabiedrotais.

"Es domāju, ka viena no lietām, kas jāaplÅ«ko, ir tā, ka Ŕīs vairāku aÄ£entu komandas ir ārkārtÄ«gi spēcÄ«gas, un mÅ«su pētÄ«jums to parāda," saka Jaderbergs. "Tas ir tas, ko mēs pēdējos gados esam iemācÄ«juÅ”ies darÄ«t arvien labāk - kā atrisināt pastiprinoŔās mācÄ«Å”anās problēmu." Un uzlabotā apmācÄ«ba patieŔām darbojās izcili.

Thore Graepel, Londonas Universitātes koledžas datorzinātņu profesors un DeepMind zinātnieks, uzskata, ka viņu darbs izceļ vairāku aÄ£entu mācÄ«Å”anās potenciālu AI nākotnei. Tas var kalpot arÄ« par pamatu cilvēka un maŔīnas mijiedarbÄ«bas un sistēmu pētÄ«jumiem, kas papildina viens otru vai darbojas kopā.

"MÅ«su rezultāti liecina, ka vairāku aÄ£entu pastiprināŔanas mācÄ«Å”anās var veiksmÄ«gi apgÅ«t sarežģītu spēli tiktāl, ka spēlētāji pat sāk ticēt, ka datoru spēlētāji ir labāki komandas biedri. PētÄ«jums sniedz arÄ« ārkārtÄ«gi interesantu padziļinātu analÄ«zi par to, kā apmācÄ«ti aÄ£enti uzvedas un strādā kopā, saka Grapels. "Tas, kas padara Å”os rezultātus tik aizraujoÅ”us, ir tas, ka Å”ie aÄ£enti uztver savu vidi pirmajā personā, [tas ir] gluži kā cilvēka spēlētājs. Lai iemācÄ«tos spēlēt taktiski un sadarboties ar saviem komandas biedriem, Å”iem aÄ£entiem bija jāpaļaujas uz atgriezenisko saiti no spēles rezultātiem, nevienam skolotājam vai trenerim neparādot, kas viņiem jādara.



Avots: 3dnews.ru

Pievieno komentāru