DeepMind AI Masters Team Play og gengur betur en menn í Quake III

Capture the flag er frekar einfaldur keppnishamur sem finnst í mörgum vinsælum skotleikjum. Hvert lið er með merki staðsett við grunninn og markmiðið er að fanga merki andstæðingsins og koma því til sjálfs sín. Hins vegar, það sem er auðvelt fyrir menn að skilja er ekki svo auðvelt fyrir vélar. Til að fanga fánann eru persónur (bottar) sem ekki eru leikarar venjulega forritaðar með því að nota heuristics og einföld reiknirit sem veita takmarkað valfrelsi og eru verulega síðri en mönnum. En gervigreind og vélanám lofa að gjörbreyta þessu ástandi.

В grein, sem birt var í vikunni í tímaritinu Science um ári síðar forprentun, eins og heilbrigður eins og í bloggið þitt, vísindamenn frá DeepMind, dótturfyrirtæki Alphabet í London, lýsa kerfi sem getur ekki aðeins lært að leika fána á Quake III Arena kortum id Software, heldur einnig þróað alveg nýjar teymisaðferðir, á engan hátt óæðri manneskju.

DeepMind AI Masters Team Play og gengur betur en menn í Quake III

„Enginn sagði gervigreindinni hvernig ætti að spila þennan leik, hann hafði bara niðurstöðuna - hvort sem gervigreindin vann andstæðing sinn eða ekki. Fegurðin við að nota þessa nálgun er að þú veist aldrei hvaða hegðun kemur í ljós þegar þú þjálfar umboðsmenn,“ segir Max Jaderberg, vísindamaður hjá DeepMind sem vann áður við vélanámskerfið AlphaStar (nú nýlega). fór fram úr manna hópi sérfræðinga í StarCraft II). Hann útskýrði ennfremur að lykilaðferðin í nýju starfi þeirra er í fyrsta lagi styrkt nám, sem notar eins konar umbunarkerfi til að ýta hugbúnaðaraðilum til að ná settum markmiðum og umbunarkerfið virkaði óháð því hvort gervigreindarhópurinn vann eða ekki , en í öðru lagi voru umboðsmenn þjálfaðir í hópum, sem neyddi gervigreindina til að ná tökum á samskiptum teymisins frá upphafi.

„Frá rannsóknarsjónarmiði er þetta nýjung fyrir reikniritaðferð sem er mjög spennandi,“ bætti Max við. „Hvernig við þjálfuðum gervigreind okkar sýnir vel hvernig á að skala og útfæra nokkrar klassískar þróunarhugmyndir.

DeepMind AI Masters Team Play og gengur betur en menn í Quake III

Með ögrandi nafni For The Win (FTW) læra umboðsmenn DeepMind beint af skjápixlum með því að nota snúningstauganet, mengi stærðfræðilegra aðgerða (taugafrumna) sem er raðað í lög sem eru líkt eftir sjónberki mannsins. Móttekin gögn eru send til tveggja neta með margfalt skammtímaminni (enska langtímaminni - LSTM), sem er fær um að þekkja langtímafíkn. Annar þeirra heldur utan um rekstrargögn með miklum viðbragðshraða, en hinn vinnur hægt að greina og móta aðferðir. Báðir eru tengdir breytilegu minni, sem þeir nota saman til að spá fyrir um breytingar í leikjaheiminum og framkvæma aðgerðir í gegnum leikjastýringuna sem líkir eftir.

DeepMind AI Masters Team Play og gengur betur en menn í Quake III

Alls þjálfaði DeepMind 30 umboðsmenn, gaf þeim úrval af liðsfélögum og andstæðingum til að spila með og valdi af handahófi leikjaspjöld til að koma í veg fyrir að gervigreind myndi muna þau. Hver umboðsmaður hafði sitt eigið verðlaunamerki, sem gerði honum kleift að búa til sín eigin innri markmið, svo sem að fanga fánann. Hver gervigreind spilaði fyrir sig um 450 þúsund leiki af capture the flag, sem jafngildir um fjögurra ára leikreynslu.

Fullþjálfaðir FTW umboðsmenn hafa lært að beita aðferðum sem eru algengar fyrir hvaða kort, liðslista og hópstærð sem er. Þeir lærðu mannlega hegðun eins og að fylgja liðsfélögum, tjalda í óvinastöð og verja bækistöð sína fyrir árásarmönnum, og þeir misstu smám saman minna gagnleg mynstur eins og að fylgjast of náið með bandamanni.

Svo hvaða árangur náðist? Í 40 manna móti þar sem menn og umboðsmenn spiluðu af handahófi bæði saman og á móti hvor öðrum, voru FTW umboðsmenn verulega betri en vinningshlutfall mannlegra leikmanna. Elo-einkunn gervigreindarinnar, sem er líkurnar á að vinna, var 1600, samanborið við 1300 fyrir „sterka“ mannlega leikmenn og 1050 fyrir „meðal“ mannlegan leikmann.

DeepMind AI Masters Team Play og gengur betur en menn í Quake III

Þetta kemur ekki á óvart, þar sem viðbragðshraði gervigreindar er umtalsvert hærri en manns, sem gaf þeim fyrrnefnda verulegan kost í fyrstu tilraununum. En jafnvel þegar nákvæmni umboðsmanna var minnkuð og viðbragðstími jókst þökk sé innbyggðu 257 millisekúndna leyndinni, gekk gervigreindin samt fram úr mönnum. Háþróaðir og frjálslegir leikmenn unnu aðeins 21% og 12% af heildarleikjunum, í sömu röð.

Þar að auki, eftir birtingu rannsóknarinnar, ákváðu vísindamenn að prófa umboðsmenn á fullgildum Quake III Arena kortum með flóknum arkitektúr og viðbótarhlutum, svo sem Future Crossings og Ironwood, þar sem gervigreindin byrjaði að ögra mönnum með góðum árangri í prófunarleikjum. . Þegar rannsakendur skoðuðu virkjunarmynstur taugakerfis efna, það er að segja virkni taugafrumna sem bera ábyrgð á því að ákvarða úttak út frá innkomnum upplýsingum, fundu þeir klasa sem tákna herbergi, stöðu fána, sýnileika liðsfélaga og andstæðinga og nærvera eða fjarveru umboðsmanna á óvinastöðinni eða liðsbundnum og öðrum mikilvægum þáttum leiks. Þjálfuðu lyfin innihéldu jafnvel taugafrumur sem kóðaðu sérstakar aðstæður beint, eins og þegar fáni var tekinn af umboðsmanni eða þegar bandamaður hélt á honum.

„Ég held að eitt af því sem þarf að skoða sé að þessi fjölumboðsmannateymi eru afar öflug og rannsókn okkar sýnir það,“ segir Jaderberg. "Það er það sem við höfum verið að læra að gera betur og betur á síðustu árum - hvernig á að leysa vandamálið við styrkingarnám." Og aukin þjálfun virkaði virkilega frábærlega.“

Thore Graepel, prófessor í tölvunarfræði við University College í London og DeepMind-vísindamaður, telur að starf þeirra leggi áherslu á möguleika fjölmiðilsnáms fyrir framtíð gervigreindar. Það getur einnig þjónað sem grunnur að rannsóknum á samskiptum manna og véla og kerfum sem bæta hvert annað upp eða vinna saman.

„Niðurstöður okkar sýna að styrkingarnám með mörgum umboðsmönnum getur náð góðum árangri í flóknum leik að því marki að mannlegir leikmenn trúa því jafnvel að tölvuleikmenn séu betri liðsfélagar. Rannsóknin veitir einnig mjög áhugaverða ítarlega greiningu á því hvernig þjálfaðir umboðsmenn haga sér og vinna saman, segir Grapel. „Það sem gerir þessar niðurstöður svo spennandi er að þessir umboðsmenn skynja umhverfi sitt í fyrstu persónu, [það er] alveg eins og mannlegur leikmaður. Til að læra að spila taktískt og vinna með liðsfélögum sínum þurftu þessir umboðsmenn að treysta á endurgjöf frá úrslitum leiksins, án þess að nokkur kennari eða þjálfari sýndi þeim hvað þeir ættu að gera.“



Heimild: 3dnews.ru

Bæta við athugasemd