DeepMind AI Masters Team Play and Outperforms Homoj en Quake III

Kapti la flagon estas sufiĉe simpla konkurenciva reĝimo trovita en multaj popularaj pafistoj. Ĉiu teamo havas signon situantan ĉe sia bazo, kaj la celo estas kapti la markilon de la kontraŭa teamo kaj sukcese alporti ĝin al si. Tamen, kio estas facile por homoj kompreni, ne estas tiel facila por maŝinoj. Por kapti la flagon, ne-ludantaj karakteroj (bots) estas tradicie programitaj uzante heŭristikojn kaj simplajn algoritmojn kiuj disponigas limigitan liberecon de elekto kaj estas signife malsuperaj ol homoj. Sed artefarita inteligenteco kaj maŝinlernado promesas tute ŝanĝi ĉi tiun situacion.

В artikolo, publikigita ĉi-semajne en la revuo Science proksimume jaron post prepresosame kiel en sur via blogo, esploristoj de DeepMind, London-bazita filio de Alphabet, priskribas sistemon, kiu povas ne nur lerni ludi kapti la flagon sur la mapoj de Quake III Arena de id Software, sed ankaŭ evoluigi tute novajn teamajn strategiojn, neniel malsuperajn ol homo.

DeepMind AI Masters Team Play and Outperforms Homoj en Quake III

"Neniu diris al la AI kiel ludi ĉi tiun ludon, ĝi nur havis la rezulton - ĉu la AI venkis sian kontraŭulon aŭ ne. La beleco uzi ĉi tiun aliron estas, ke vi neniam scias, kia konduto aperos kiam vi trejnas agentojn," diras Max Jaderberg, esploristo ĉe DeepMind, kiu antaŭe laboris pri la maŝinlernada sistemo AlphaStar (pli lastatempe). superita homa teamo de profesiuloj en StarCraft II). Li plue klarigis, ke la ŝlosila metodo de ilia nova laboro estas, unue, plifortigita lernado, kiu uzas specon de rekompenca sistemo por puŝi programarajn agentojn por atingi fiksitajn celojn, kaj la rekompenca sistemo funkciis sendepende ĉu la AI-teamo venkis aŭ ne. , sed en -due, agentoj estis trejnitaj en grupoj, kio devigis la AI mastri teaminterago de la komenco mem.

"El esplora vidpunkto, ĉi tio estas novaĵo por algoritma aliro, kiu estas vere ekscita," aldonis Max. "La maniero kiel ni trejnis nian AI bone montras kiel grimpi kaj efektivigi iujn klasikajn evoluajn ideojn."

DeepMind AI Masters Team Play and Outperforms Homoj en Quake III

Provoke nomitaj For The Win (FTW), la agentoj de DeepMind lernas rekte de ekranpikseloj uzante konvolucian neŭralan reton, aron de matematikaj funkcioj (neŭronoj) aranĝitaj en tavoloj modeligitaj laŭ la homa vida kortekso. La ricevitaj datumoj estas transdonitaj al du retoj kun multobla mallongdaŭra memoro (angle long short-term memory - LSTM), kapablaj rekoni longtempajn dependecojn. Unu el ili administras operaciajn datumojn kun rapida respondrapideco, dum la alia laboras malrapide por analizi kaj formuli strategiojn. Ambaŭ estas rilataj al varia memoro, kiun ili uzas kune por antaŭdiri ŝanĝojn en la ludmondo kaj plenumi agojn per la kopiita ludregilo.

DeepMind AI Masters Team Play and Outperforms Homoj en Quake III

Entute, DeepMind trejnis 30 agentojn, donis al ili gamon da samteamanoj kaj kontraŭulojn por ludi, kaj hazarde elektis ludkartojn por malhelpi la AI memori ilin. Ĉiu agento havis sian propran rekompencsignalon, permesante al ĝi krei siajn proprajn internajn celojn, kiel ekzemple kapti la flagon. Ĉiu AI individue ludis ĉirkaŭ 450 mil ludojn de kapto de la flago, kio estas ekvivalenta al ĉirkaŭ kvar jaroj da ludsperto.

Plene trejnitaj FTW-agentoj lernis apliki strategiojn komunajn al iu ajn mapo, teamnomlisto kaj teamgrandeco. Ili lernis homajn kondutojn kiel sekvado de samteamanoj, kampadado en malamikbazo, kaj defendi sian bazon de atakantoj, kaj ili iom post iom perdis malpli utilajn padronojn kiel observi aliancanon tro proksime.

Do kiaj rezultoj estis atingitaj? En 40-persona turniro en kiu homoj kaj agentoj hazarde ludis kaj kune kaj kontraŭ unu la alian, FTW-agentoj signife superis la venkprocenton de homaj ludantoj. La Elo-taksado de la AI, kiu estas la probableco de venko, estis 1600, kompare kun 1300 por "fortaj" homaj ludantoj kaj 1050 por la "averaĝa" homa ludanto.

DeepMind AI Masters Team Play and Outperforms Homoj en Quake III

Ĉi tio ne estas surpriza, ĉar la reakcia rapideco de AI estas signife pli alta ol tiu de homo, kio donis al la unua gravan avantaĝon en la komencaj eksperimentoj. Sed eĉ kiam la precizeco de la agentoj estis reduktita kaj la tempo de reago pliiĝis danke al la enkonstruita 257 milisekunda latenco, la AI ankoraŭ superis homojn. Progresintaj kaj hazardaj ludantoj gajnis nur 21% kaj 12% de la totalaj ludoj, respektive.

Krome, post la publikigo de la studo, sciencistoj decidis testi agentojn sur plenrajtaj Quake III Arena mapoj kun kompleksa nivela arkitekturo kaj pliaj objektoj, kiel Future Crossings kaj Ironwood, kie la AI komencis sukcese defii homojn en testmatĉoj. . Kiam la esploristoj rigardis la neŭralajn retajn aktivigajn ŝablonojn de la agentoj, tio estas, la funkciojn de la neŭronoj respondecaj por determini eliron surbaze de envenantaj informoj, ili trovis aretojn reprezentantajn ĉambrojn, la staton de flagoj, la videblecon de samteamanoj kaj kontraŭuloj, kaj la ĉeesto aŭ foresto de agentoj ĉe la malamikbazo aŭ team-bazita, kaj aliaj signifaj aspektoj de ludado. La edukitaj agentoj eĉ enhavis neŭronojn kiuj ĉifris specifajn situaciojn rekte, kiel ekzemple kiam flago estis prenita fare de agento aŭ kiam aliancano tenis ĝin.

"Mi pensas, ke unu el la aferoj por rigardi estas, ke ĉi tiuj mult-agentaj teamoj estas ekstreme potencaj, kaj nia studo pruvas tion," diras Jaderberg. "Tion ni lernis fari pli kaj pli bone dum la lastaj jaroj—kiel solvi la problemon de plifortiga lernado." Kaj la plibonigita trejnado vere funkciis brile."

Thore Graepel, profesoro pri komputiko ĉe University College London kaj DeepMind-sciencisto, kredas, ke ilia laboro elstarigas la potencialon de plur-agenta lernado por la estonteco de AI. Ĝi ankaŭ povas funkcii kiel bazo por esplorado en homa-maŝina interagado kaj sistemoj kiuj kompletigas unu la alian aŭ funkcias kune.

"Niaj rezultoj montras, ke plur-agenta plifortiga lernado povas sukcese regi kompleksan ludon ĝis la punkto, ke homaj ludantoj eĉ kredas, ke komputilludantoj faras pli bonajn samteamanoj. La studo ankaŭ provizas ekstreme interesan profundan analizon pri kiel edukitaj agentoj kondutas kaj laboras kune, diras Grapel. "Kio igas ĉi tiujn rezultojn tiel ekscitaj estas, ke ĉi tiuj agentoj perceptas sian medion en la unua persono, [tio estas] same kiel homa ludanto. Por lerni kiel ludi taktike kaj kunlabori kun siaj samteamanoj, tiuj agentoj devis fidi je religo de la rezultoj de la ludo, sen iu instruisto aŭ trejnisto montrante al ili kion fari."



fonto: 3dnews.ru

Aldoni komenton