DeepMind AI Masters Team Play eta gizakiak gainditzen ditu Quake III-n

Harrapatu bandera jaurtitzaile ezagun askotan aurkitzen den lehia-modu nahiko sinplea da. Talde bakoitzak bere oinarrian kokatutako markatzaile bat du, eta helburua aurkako taldearen marka atzematea eta arrakastaz berera eramatea da. Hala ere, gizakientzat erraza dena ulertzea ez da hain erraza makinentzat. Bandera harrapatzeko, jokalariak ez diren pertsonaiak (bot-ak) tradizioz programatzen dira aukeratzeko askatasun mugatua ematen duten eta gizakiak baino nabarmen txikiagoak diren heuristikoak eta algoritmo sinpleak erabiliz. Baina adimen artifizialak eta ikaskuntza automatikoak egoera hau guztiz aldatuko dutela agintzen dute.

Π’ Artikulu, aste honetan argitaratua Science aldizkarian urtebete inguru geroago aurreinprimaketabaita zure bloga, DeepMind-eko ikertzaileek, Londresko Alphabet-en filiala, deskribatzen duten sistema bat deskribatzen dute, id Software-ren Quake III Arenako mapetan bandera harrapatzen ikasi ez ezik, talde-estrategia guztiz berriak garatzen dituena, inolaz ere gizaki baten azpitik.

DeepMind AI Masters Team Play eta gizakiak gainditzen ditu Quake III-n

"Inork ez zion AIri joko hau nola jokatu, emaitza baino ez zuen izan - AIk bere aurkaria irabazi zuen ala ez. Ikuspegi hau erabiltzearen edertasuna da sekula ez dakizula zer portaera sortuko den agenteak prestatzen dituzunean ", dio Max Jaderbergek, DeepMind-eko ikertzaile batek AlphaStar (berrikiago) ikaskuntza automatikoko sisteman lan egin zuenak. gaindituta StarCraft II-ko profesionalen giza taldea). Gainera, azaldu zuen lan berriaren funtsezko metodoa ikaskuntza indartua dela, lehenik eta behin, sari-sistema moduko bat erabiltzen duena software-agenteak ezarritako helburuak lortzera bultzatzeko, eta sari-sistemak funtzionatu zuen AI taldeak irabazi ala ez kontuan hartu gabe. , baina bigarrenean, agenteak taldeka trebatu ziren, eta horrek AI-a talde-interakzioa menderatzera behartu zuen hasiera-hasieratik.

"Ikerkuntzaren ikuspuntutik, benetan zirraragarria den ikuspegi algoritmiko baterako nobedade bat da", gehitu du Maxek. "Gure AI entrenatzeko moduak ondo erakusten du nola eskalatzen eta nola inplementatzen diren ideia ebolutibo klasiko batzuk".

DeepMind AI Masters Team Play eta gizakiak gainditzen ditu Quake III-n

Probokatiboki For The Win (FTW) izena emanda, DeepMind-eko agenteek zuzenean ikasten dute pantailako pixeletatik sare neuronal konboluzional bat erabiliz, giza ikusmen-kortexaren ereduaren arabera antolatutako funtzio matematikoen (neuronen) multzoa. Jasotako datuak epe laburreko memoria anitz duten bi saretara transmititzen dira (ingelesez long short-term memory - LSTM), epe luzerako mendekotasunak ezagutzeko gai direnak. Horietako batek erantzun-abiadura azkarreko datu operatiboak kudeatzen ditu, eta besteak, berriz, poliki-poliki estrategiak aztertzen eta formulatzen. Biak memoria aldakuntzarekin lotuta daude, eta elkarrekin erabiltzen dute jokoaren munduan aldaketak aurreikusteko eta emulatutako joko kontrolagailuaren bidez ekintzak egiteko.

DeepMind AI Masters Team Play eta gizakiak gainditzen ditu Quake III-n

Guztira, DeepMind-ek 30 agente entrenatu zituen, taldekide eta aurkari ugari eman zizkieten jolasteko, eta ausaz hautatu zituen joko-kartak AI-k haiek gogora ez zezan. Agente bakoitzak bere sari-seinalea zuen, bere barne-helburuak sortzeko aukera emanez, hala nola bandera harrapatzea. AI bakoitzak banan-banan 450 mila joko inguru jokatu zituen bandera harrapatzeko, hau da, lau urteko joko esperientziaren baliokidea da.

Guztiz prestatutako FTWko agenteek edozein mapa, talde zerrenda eta talde tamainari ohikoak diren estrategiak aplikatzen ikasi dute. Giza jokabideak ikasi zituzten, hala nola taldekideei jarraitzea, etsaien base batean kanpintzea eta beren basea erasotzaileengandik defenditzea, eta pixkanaka-pixkanaka ez ziren eredu onuragarriak galtzen joan ziren, hala nola aliatu bat gertuegi ikustea.

Orduan, zein emaitza lortu ziren? Gizakiak eta agenteak ausaz elkarrekin eta elkarren aurka jokatu zuten 40 laguneko txapelketan, FTWko agenteek giza jokalarien garaipen tasa nabarmen gainditu zuten. AIren Elo balorazioa, hau da, irabazteko probabilitatea, 1600 izan zen, 1300 giza jokalari "sendoak" eta 1050 giza jokalari "batez bestekoa".

DeepMind AI Masters Team Play eta gizakiak gainditzen ditu Quake III-n

Hau ez da harritzekoa, izan ere, AIaren erreakzio-abiadura gizakiarena baino nabarmen handiagoa da, eta horrek lehengoari abantaila nabarmena eman zion hasierako esperimentuetan. Baina agenteen zehaztasuna murriztu eta erreakzio-denbora handitu zenean ere 257 milisegundoko latentziari esker, AI-ak gizakiak gainditu zituen. Jokalari aurreratuek eta kasualitatekoek joko guztien % 21 eta % 12 baino ez zuten irabazi, hurrenez hurren.

Gainera, ikerketa argitaratu ostean, zientzialariek eragileak probatzea erabaki zuten Quake III Arenako mapen maila konplexuko arkitektura eta objektu gehigarriekin, hala nola Future Crossings eta Ironwood, non AIek gizakiak proba-partidetan arrakastaz desafiatzen hasi zen. . Ikertzaileek eragileen sare neuronalaren aktibazio-ereduak aztertu zituztenean, hau da, sarrerako informazioaren arabera irteera zehazteaz arduratzen diren neuronen funtzioak aztertu zituztenean, gelak, banderen egoera, taldekideen eta aurkarien ikusgarritasuna adierazten zuten multzoak aurkitu zituzten eta. etsaien basean agenteen presentzia edo eza, edo taldean oinarrituta, eta jokatzeko beste alderdi esanguratsu batzuk. Prestatutako agenteek egoera zehatzak zuzenean kodetzen zituzten neuronak ere baziren, hala nola agente batek bandera bat hartzen zuenean edo aliatu batek eusten zuenean.

"Uste dut aztertu beharreko gauzetako bat agente anitzeko talde hauek oso indartsuak direla, eta gure azterketak hori frogatzen du", dio Jaderbergek. "Hori da azken urteotan gero eta hobeto egiten ikasi duguna: indartzeko ikaskuntzaren arazoa nola konpondu". Eta prestakuntza hobetuak bikain funtzionatu zuenΒ».

Thore Graepel, Londresko University College-ko informatika irakaslea eta DeepMind zientzialaria, uste du haien lanak AIaren etorkizunerako agente anitzeko ikaskuntzaren potentziala nabarmentzen duela. Giza-makina elkarrekintzaren eta elkarren osagarri edo elkarrekin lan egiten duten sistemen ikerketarako oinarri gisa ere balio dezake.

"Gure emaitzek erakusten dute agente anitzeko errefortzuaren ikaskuntzak joko konplexu bat arrakastaz menpera dezakeela, giza jokalariek ordenagailuko jokalariek taldekide hobeak egiten dituztela sinestera arte. Ikerketak, gainera, trebatutako agenteek elkarrekin nola jokatzen duten eta nola lan egiten duten aztertzen du, dio Grapelek. Β«Emaitza hauek hain zirraragarriak egiten dituena zera da: agente hauek beren ingurunea lehen pertsonan hautematea, [hau da] giza jokalari batek bezala. Taktikoki jokatzen ikasteko eta taldekideekin elkarlanean aritzeko, eragile hauek jokoaren emaitzen iritzian oinarritu behar izan zuten, inongo irakasle edo entrenatzailerik erakutsi gabe zer egin behar zutenΒ».



Iturria: 3dnews.ru

Gehitu iruzkin berria