Karoga tverÅ”ana ir diezgan vienkÄrÅ”s sacensÄ«bu režīms, kas atrodams daudzos populÄros Å”ÄvÄjos. Katrai komandai ir marÄ·ieris, kas atrodas tÄs pamatnÄ, un mÄrÄ·is ir notvert pretinieku komandas marÄ·ieri un veiksmÄ«gi nogÄdÄt to sev. TomÄr tas, kas ir viegli saprotams cilvÄkiem, nav tik vienkÄrÅ”i maŔīnÄm. Lai notvertu karogu, varoÅi, kas nav spÄlÄtÄji (boti), tradicionÄli tiek ieprogrammÄti, izmantojot heiristikas un vienkÄrÅ”us algoritmus, kas nodroÅ”ina ierobežotu izvÄles brÄ«vÄ«bu un ir ievÄrojami zemÄki par cilvÄkiem. TaÄu mÄkslÄ«gais intelekts un maŔīnmÄcÄ«ba sola Å”o situÄciju pilnÄ«bÄ mainÄ«t.
Š
"Neviens neteica AI, kÄ spÄlÄt Å”o spÄli, tai bija tikai rezultÄts - vai AI pÄrspÄja savu pretinieku vai nÄ. Å Ä«s pieejas izmantoÅ”anas skaistums ir tÄds, ka jÅ«s nekad nezinÄt, kÄda uzvedÄ«ba parÄdÄ«sies, apmÄcot aÄ£entus,ā saka Makss Džederbergs, DeepMind pÄtnieks, kurÅ” iepriekÅ” strÄdÄja pie maŔīnmÄcÄ«Å”anÄs sistÄmas AlphaStar (pavisam nesen
"No pÄtniecÄ«bas viedokļa tas ir jaunums algoritmiskai pieejai, kas ir patieÅ”Äm aizraujoÅ”a," piebilda Makss. "Tas, kÄ mÄs apmÄcÄm savu AI, labi parÄda, kÄ mÄrogot un Ä«stenot dažas klasiskas evolÅ«cijas idejas."
ProvokatÄ«vi nosaukts For The Win (FTW), DeepMind aÄ£enti mÄcÄs tieÅ”i no ekrÄna pikseļiem, izmantojot konvolucionÄlo neironu tÄ«klu, matemÄtisko funkciju (neironu) kopumu, kas sakÄrtots slÄÅos, kas modelÄti pÄc cilvÄka vizuÄlÄs garozas. SaÅemtie dati tiek pÄrsÅ«tÄ«ti uz diviem tÄ«kliem ar daudzkÄrtÄju Ä«stermiÅa atmiÅu (angļu long short-term memory ā LSTM), kas spÄj atpazÄ«t ilgtermiÅa atkarÄ«bas. Viens no tiem pÄrvalda operatÄ«vos datus ar Ätru reakcijas Ätrumu, bet otrs strÄdÄ lÄni, lai analizÄtu un formulÄtu stratÄÄ£ijas. Abas ir saistÄ«tas ar mainÄ«go atmiÅu, ko tÄs izmanto kopÄ, lai paredzÄtu izmaiÅas spÄļu pasaulÄ un veiktu darbÄ«bas, izmantojot emulÄto spÄles kontrolieri.
KopumÄ DeepMind apmÄcÄ«ja 30 aÄ£entus, deva viÅiem virkni komandas biedru un pretinieku, ar kuriem spÄlÄt, un nejauÅ”i izvÄlÄtas spÄļu kÄrtis, lai neļautu AI tos atcerÄties. Katram aÄ£entam bija savs atlÄ«dzÄ«bas signÄls, kas ļÄva izveidot savus iekÅ”Äjos mÄrÄ·us, piemÄram, notvert karogu. Katrs mÄkslÄ«gais intelekts atseviŔķi spÄlÄja aptuveni 450 tÅ«kstoÅ”us karoga uztverÅ”anas spÄļu, kas ir lÄ«dzvÄrtÄ«gs aptuveni Äetru gadu spÄļu pieredzei.
PilnÄ«bÄ apmÄcÄ«ti FTW aÄ£enti ir iemÄcÄ«juÅ”ies piemÄrot stratÄÄ£ijas, kas ir kopÄ«gas jebkurai kartei, komandas sarakstam un komandas lielumam. ViÅi apguva cilvÄku uzvedÄ«bu, piemÄram, sekoÅ”anu komandas biedriem, apmetÅ”anos ienaidnieka bÄzÄ un savas bÄzes aizstÄvÄÅ”anu no uzbrucÄjiem, un pakÄpeniski zaudÄja mazÄk labvÄlÄ«gus modeļus, piemÄram, pÄrÄk cieÅ”u sabiedroto vÄroÅ”anu.
TÄtad, kÄdi rezultÄti tika sasniegti? 40 cilvÄku turnÄ«rÄ, kurÄ cilvÄki un aÄ£enti nejauÅ”i spÄlÄja gan kopÄ, gan viens pret otru, FTW aÄ£enti ievÄrojami pÄrspÄja cilvÄku spÄlÄtÄju uzvaru rÄdÄ«tÄju. AI Elo reitings, kas ir uzvaras varbÅ«tÄ«ba, bija 1600, salÄ«dzinot ar 1300 "spÄcÄ«giem" spÄlÄtÄjiem un 1050 "vidÄjam" cilvÄka spÄlÄtÄjam.
Tas nav pÄrsteidzoÅ”i, jo AI reakcijas Ätrums ir ievÄrojami lielÄks nekÄ cilvÄka reakcijas Ätrums, kas pirmajam deva ievÄrojamu priekÅ”rocÄ«bu sÄkotnÄjos eksperimentos. Bet pat tad, ja aÄ£entu precizitÄte tika samazinÄta un reakcijas laiks palielinÄjÄs, pateicoties iebÅ«vÄtajam 257 milisekundes latentumam, AI joprojÄm pÄrspÄja cilvÄkus. Uzlabotie un gadÄ«juma spÄlÄtÄji uzvarÄja tikai attiecÄ«gi 21% un 12% no kopÄjÄm spÄlÄm.
TurklÄt pÄc pÄtÄ«juma publicÄÅ”anas zinÄtnieki nolÄma pÄrbaudÄ«t aÄ£entus uz pilnvÄrtÄ«gÄm Quake III Arena kartÄm ar sarežģīta lÄ«meÅa arhitektÅ«ru un papildu objektiem, piemÄram, Future Crossings un Ironwood, kur AI sÄka veiksmÄ«gi izaicinÄt cilvÄkus testa spÄlÄs. . Kad pÄtnieki aplÅ«koja aÄ£entu neironu tÄ«kla aktivizÄcijas modeļus, tas ir, neironu funkcijas, kas atbild par izvades noteikÅ”anu, pamatojoties uz ienÄkoÅ”o informÄciju, viÅi atklÄja kopas, kas attÄlo telpas, karogu stÄvokli, komandas biedru un pretinieku redzamÄ«bu un aÄ£entu esamÄ«ba vai neesamÄ«ba ienaidnieka bÄzÄ vai komandÄ, un citi nozÄ«mÄ«gi spÄles aspekti. ApmÄcÄ«tie aÄ£enti pat saturÄja neironus, kas tieÅ”i kodÄja konkrÄtas situÄcijas, piemÄram, kad aÄ£ents paÅÄma karogu vai kad to turÄja kÄds sabiedrotais.
"Es domÄju, ka viena no lietÄm, kas jÄaplÅ«ko, ir tÄ, ka Ŕīs vairÄku aÄ£entu komandas ir ÄrkÄrtÄ«gi spÄcÄ«gas, un mÅ«su pÄtÄ«jums to parÄda," saka Jaderbergs. "Tas ir tas, ko mÄs pÄdÄjos gados esam iemÄcÄ«juÅ”ies darÄ«t arvien labÄk - kÄ atrisinÄt pastiprinoÅ”Äs mÄcÄ«Å”anÄs problÄmu." Un uzlabotÄ apmÄcÄ«ba patieÅ”Äm darbojÄs izcili.
Thore Graepel, Londonas UniversitÄtes koledžas datorzinÄtÅu profesors un DeepMind zinÄtnieks, uzskata, ka viÅu darbs izceļ vairÄku aÄ£entu mÄcÄ«Å”anÄs potenciÄlu AI nÄkotnei. Tas var kalpot arÄ« par pamatu cilvÄka un maŔīnas mijiedarbÄ«bas un sistÄmu pÄtÄ«jumiem, kas papildina viens otru vai darbojas kopÄ.
"MÅ«su rezultÄti liecina, ka vairÄku aÄ£entu pastiprinÄÅ”anas mÄcÄ«Å”anÄs var veiksmÄ«gi apgÅ«t sarežģītu spÄli tiktÄl, ka spÄlÄtÄji pat sÄk ticÄt, ka datoru spÄlÄtÄji ir labÄki komandas biedri. PÄtÄ«jums sniedz arÄ« ÄrkÄrtÄ«gi interesantu padziļinÄtu analÄ«zi par to, kÄ apmÄcÄ«ti aÄ£enti uzvedas un strÄdÄ kopÄ, saka Grapels. "Tas, kas padara Å”os rezultÄtus tik aizraujoÅ”us, ir tas, ka Å”ie aÄ£enti uztver savu vidi pirmajÄ personÄ, [tas ir] gluži kÄ cilvÄka spÄlÄtÄjs. Lai iemÄcÄ«tos spÄlÄt taktiski un sadarboties ar saviem komandas biedriem, Å”iem aÄ£entiem bija jÄpaļaujas uz atgriezenisko saiti no spÄles rezultÄtiem, nevienam skolotÄjam vai trenerim neparÄdot, kas viÅiem jÄdara.
Avots: 3dnews.ru