Ezkutatzeko garai bateko joko ona adimen artifizialeko (AI) botentzako proba bikaina izan daiteke erabakiak hartzen dituzten eta elkarren artean eta inguruko hainbat objektu nola elkarreragiten duten erakusteko.
Berean
Zientzialariek aspalditik ospea irabazi duen metodo bat erabili dute
AI ezkutatzera jolasteko trebatzeko, zientzialariek "Zuzendu gabeko esplorazioa" izeneko ikuspegia erabili zuten, hau da, agenteek askatasun osoa duten jokoaren munduaren ulermena garatzeko eta estrategia irabazleak garatzeko. Hau DeepMind-eko ikertzaileek adimen artifizialeko sistema anitzetan erabiltzen zuten agente anitzeko ikaskuntzaren ikuspegiaren antzekoa da
Ezkutaketa jokoan, ezkutatzea zuten lana zuten hainbat agente aurkarien bista-lerroa saihestu behar izan zuten, apur bat aurreratu ostean, bilatzaileen taldea immobilizatuta zegoen bitartean. Gainera, testuinguru honetan "ikusmen-lerroa" 135 graduko kono bat da banakako bot baten aurrean. Agenteak ezin ziren jolas-eremutik kanpo gehiegi ausartu eta ausaz sortutako geletan nabigatzera behartuta zeuden kanpo-objektu batzuk (kutxak, horma mugikorrak, arrapala bereziak) inguruan sakabanatuta, estaldura sortzeko eta haietan infiltratzeko erabil zitezkeen batzuk erabiltzeko gaitasunarekin. .
Ikasketa prozesu luze baten bidez, AI-eko agenteek sei estrategia berezi ikasi zituzten, eta horietako bakoitzak jokoaren hurrengo fasera pasatzen lagundu zien. Hasieran, bilatzaile eta ezkutatzaile taldeek ihes egin eta elkarren atzetik jo zuten, baina 25 milioi partida ingururen ostean, ezkutatzaile taldeak kaxekin pasabideak blokeatzen eta haietatik aterpeak eraikitzen ikasi zuen. Beste 75 milioi partidaren ostean, taldeak ezkutaleku hauetan sartzeko arrapalak erabiltzeko moduak aurkitu zituen. Beste 10 milioi txandaren ondoren, ezkutatzaileek arrapalak arrastatzen ikasi zuten jolas-eremuaren ertzera eta lekuan blokeatzen zituzten aurkariek ez erabiltzeko.
388 milioi partidaren ostean, bilatzaileek blokeatutako arrapalak erabiltzen ikasi dute ekarritako kaxetara igotzeko, eta, ondoren, haietara zuzenean mugituz, horma eramangarrietatik sortutako etsaien gordelekuetan sartzen. Eta, azkenik, 458 milioi partidaren ostean, ezkutatutako taldeak objektu guztiak blokeatu eta gero aterpe bat eraiki behar zituztela ondorioztatu zuen, eta horrek, itxuraz, azken garaipena ekarri zuen.
Bereziki ikusgarria da 22 milioi partidaren ostean, agenteek beren ekintzak koordinatzen ikasi zutela eta euren lankidetzaren eraginkortasuna etorkizunean areagotu baino ez zela egin; adibidez, bakoitzak bere kaxa edo horma ekarri zuen aterpe bat sortzeko eta bere objektuen zatia aukeratzen zuela. blokeatu, zailtasuneko jokoa zailtzeko aurkariei.
Zientzialariek ere trebakuntza-objektuen kopuruak (sare neuronaletik pasatzen den datu kopurua - "Batch Size") ikaskuntza-abiaduran duen eraginarekin erlazionatutako puntu garrantzitsu bat adierazi zuten. Eredu lehenetsiak 132,3 orduko entrenamendutan 34 milioi partida behar izan zituen ezkutatutako taldeak arrapalak blokeatzen ikasi zuen puntura iristeko, eta datu gehiagok entrenamendu denboraren murrizketa nabarmena ekarri zuen bitartean. Adibidez, parametroen kopurua (prestakuntza-prozesu osoan zehar lortutako datuen zati bat) 0,5 milioitik 5,8 milioira igotzeak laginketa-eraginkortasuna 2,2 aldiz handitu zuen, eta sarrerako datuen tamaina 64 KBtik 128 KBra igotzeak prestakuntza murriztu zuen. denbora ia aldiz eta erdi.
Lanaren amaieran, ikertzaileek jokoz kanpoko entrenamenduak agenteei jokoz kanpoko antzeko zereginei aurre egiteko zenbat lagun dezakeen probatzea erabaki zuten. Bost proba izan ziren guztira: objektu kopuruaren kontzientzia (objektu batek existitzen jarraitzen duela ulertzea, nahiz eta bistatik kanpo egon eta erabiltzen ez den); "blokeatu eta itzuli" - norberaren jatorrizko posizioa gogoratzeko eta hara itzultzeko gaitasuna, zeregin gehigarriren bat burutu ondoren; "blokeo sekuentziala" - 4 kutxa ausaz kokatu ziren aterik gabeko hiru geletan, baina barrura sartzeko arrapalekin, agenteek guztiak aurkitu eta blokeatu behar zituzten; kutxak aurrez zehaztutako guneetan jartzea; objektu baten inguruan aterpe bat sortuz zilindro moduan.
Ondorioz, bost zereginetatik hirutan, jokoan aurretiazko prestakuntza jaso zuten bot-ek azkarrago ikasi zuten eta emaitza hobeak erakutsi zituzten hutsetik arazoak konpontzeko trebatutako AI baino. Zertxobait hobeto aritu ziren zeregina amaitu eta hasierako posiziora itzultzen, gela itxietan kutxak sekuentzialki blokeatzen eta eremu jakinetan kaxak jartzen, baina apur bat ahulagoa izan zen objektu kopurua antzematen eta beste objektu baten inguruan estaldura sortzen.
Ikertzaileek emaitza mistoak egozten dizkiote AI-ak trebetasun jakin batzuk ikasten eta gogoratzen dituenari. "Uste dugu jokoaren aurretiko entrenamendua hobekien egiten zen zereginetan aurretik ikasitako trebetasunak modu ezagun batean berrerabiltzea zekarrela, eta gainerako zereginak hutsetik trebatutako AI-ak baino hobeto egiteak beste modu batean erabiltzea eskatuko luke, hau da. zailagoaΒ», idatzi dute lanaren egilekideek. "Emaitza honek azpimarratzen du ingurune batetik bestera transferitzean prestakuntzaren bidez lortutako gaitasunak eraginkortasunez berrerabiltzeko metodoak garatzeko beharra".
Egindako lana benetan ikusgarria da, irakaskuntza-metodo hau erabiltzeko aukera edozein jokoen mugetatik urrun baitago. Ikertzaileek diote beren lana gaixotasunak diagnostikatzeko, proteina molekula konplexuen egiturak iragartzeko eta CT eskaneak aztertzeko "fisikan oinarritutako" eta "gizakien antzeko" portaera duen IA sortzeko urrats esanguratsua dela.
Beheko bideoan argi eta garbi ikus dezakezu nola gertatu zen ikasketa prozesu osoa, nola AI-k talde-lana nola ikasi zuen eta bere estrategiak gero eta maltzuragoak eta konplexuagoak ziren.
Iturria: 3dnews.ru