OpenAI-k AI talde-lana irakasten du ezkutatzeko joko batean

Ezkutatzeko garai bateko joko ona adimen artifizialeko (AI) botentzako proba bikaina izan daiteke erabakiak hartzen dituzten eta elkarren artean eta inguruko hainbat objektu nola elkarreragiten duten erakusteko.

Berean artikulu berria, OpenAI-ko ikertzaileek, irabazi asmorik gabeko adimen artifizialeko ikerketa-erakunde famatua bihurtu den munduko txapeldunen aurkako garaipena Dota 2 ordenagailu-jokoan, zientzialariek adimen artifizialak kontrolatutako agenteak ingurune birtualean elkarren artean bilatzen eta ezkutatzen sofistikatuagoak izateko nola trebatu ziren deskribatzen dute. Azterketaren emaitzek frogatu zuten bi bot-ek osatutako talde batek aliatu gabeko edozein agente baino eraginkorrago eta azkarrago ikasten duela.

OpenAI-k AI talde-lana irakasten du ezkutatzeko joko batean

Zientzialariek aspalditik ospea irabazi duen metodo bat erabili dute ikaskuntza automatikoa errefortzuarekin, zeinetan adimen artifiziala ezezagun den ingurune batean jartzen den, harekin elkarreragiteko modu jakin batzuk dituen bitartean, baita bere ekintzen emaitzaren bat edo bestegatik sari eta isun sistema bat ere. Metodo hau nahiko eraginkorra da AIren gaitasunagatik ingurune birtualean hainbat ekintza egiteko abiadura izugarrian, pertsona batek imajina dezakeena baino milioika aldiz azkarrago. Horri esker, saiakuntzak eta akatsak arazo jakin bat konpontzeko estrategiarik eraginkorrenak aurkitzeko aukera ematen du. Baina ikuspegi honek ere muga batzuk ditu, adibidez, ingurune bat sortzeak eta heziketa-ziklo ugari egiteak baliabide informatiko izugarriak behar ditu, eta prozesuak berak AI ekintzen emaitzak bere helburuarekin alderatzeko sistema zehatza behar du. Gainera, agenteak horrela lortutako gaitasunak deskribatutako zereginera mugatzen dira eta, AI-ak horri aurre egiten ikasten duenean, ez da hobekuntza gehiagorik izango.

AI ezkutatzera jolasteko trebatzeko, zientzialariek "Zuzendu gabeko esplorazioa" izeneko ikuspegia erabili zuten, hau da, agenteek askatasun osoa duten jokoaren munduaren ulermena garatzeko eta estrategia irabazleak garatzeko. Hau DeepMind-eko ikertzaileek adimen artifizialeko sistema anitzetan erabiltzen zuten agente anitzeko ikaskuntzaren ikuspegiaren antzekoa da Bandera modua harrapatzeko erreproduzitzeko trebatu ziren Quake III Arenan. Kasu honetan bezala, AI agenteak ez ziren aurrez joko-arauetan trebatu, baina denborarekin oinarrizko estrategiak ikasi zituzten eta ikertzaileak harritu ere lortu zituzten irtenbide ez-hutsekin.

Ezkutaketa jokoan, ezkutatzea zuten lana zuten hainbat agente aurkarien bista-lerroa saihestu behar izan zuten, apur bat aurreratu ostean, bilatzaileen taldea immobilizatuta zegoen bitartean. Gainera, testuinguru honetan "ikusmen-lerroa" 135 graduko kono bat da banakako bot baten aurrean. Agenteak ezin ziren jolas-eremutik kanpo gehiegi ausartu eta ausaz sortutako geletan nabigatzera behartuta zeuden kanpo-objektu batzuk (kutxak, horma mugikorrak, arrapala bereziak) inguruan sakabanatuta, estaldura sortzeko eta haietan infiltratzeko erabil zitezkeen batzuk erabiltzeko gaitasunarekin. .

OpenAI-k AI talde-lana irakasten du ezkutatzeko joko batean

Ikasketa prozesu luze baten bidez, AI-eko agenteek sei estrategia berezi ikasi zituzten, eta horietako bakoitzak jokoaren hurrengo fasera pasatzen lagundu zien. Hasieran, bilatzaile eta ezkutatzaile taldeek ihes egin eta elkarren atzetik jo zuten, baina 25 milioi partida ingururen ostean, ezkutatzaile taldeak kaxekin pasabideak blokeatzen eta haietatik aterpeak eraikitzen ikasi zuen. Beste 75 milioi partidaren ostean, taldeak ezkutaleku hauetan sartzeko arrapalak erabiltzeko moduak aurkitu zituen. Beste 10 milioi txandaren ondoren, ezkutatzaileek arrapalak arrastatzen ikasi zuten jolas-eremuaren ertzera eta lekuan blokeatzen zituzten aurkariek ez erabiltzeko.

OpenAI-k AI talde-lana irakasten du ezkutatzeko joko batean

388 milioi partidaren ostean, bilatzaileek blokeatutako arrapalak erabiltzen ikasi dute ekarritako kaxetara igotzeko, eta, ondoren, haietara zuzenean mugituz, horma eramangarrietatik sortutako etsaien gordelekuetan sartzen. Eta, azkenik, 458 milioi partidaren ostean, ezkutatutako taldeak objektu guztiak blokeatu eta gero aterpe bat eraiki behar zituztela ondorioztatu zuen, eta horrek, itxuraz, azken garaipena ekarri zuen.

Bereziki ikusgarria da 22 milioi partidaren ostean, agenteek beren ekintzak koordinatzen ikasi zutela eta euren lankidetzaren eraginkortasuna etorkizunean areagotu baino ez zela egin; adibidez, bakoitzak bere kaxa edo horma ekarri zuen aterpe bat sortzeko eta bere objektuen zatia aukeratzen zuela. blokeatu, zailtasuneko jokoa zailtzeko aurkariei.

OpenAI-k AI talde-lana irakasten du ezkutatzeko joko batean

Zientzialariek ere trebakuntza-objektuen kopuruak (sare neuronaletik pasatzen den datu kopurua - "Batch Size") ikaskuntza-abiaduran duen eraginarekin erlazionatutako puntu garrantzitsu bat adierazi zuten. Eredu lehenetsiak 132,3 orduko entrenamendutan 34 milioi partida behar izan zituen ezkutatutako taldeak arrapalak blokeatzen ikasi zuen puntura iristeko, eta datu gehiagok entrenamendu denboraren murrizketa nabarmena ekarri zuen bitartean. Adibidez, parametroen kopurua (prestakuntza-prozesu osoan zehar lortutako datuen zati bat) 0,5 milioitik 5,8 milioira igotzeak laginketa-eraginkortasuna 2,2 aldiz handitu zuen, eta sarrerako datuen tamaina 64 KBtik 128 KBra igotzeak prestakuntza murriztu zuen. denbora ia aldiz eta erdi.

OpenAI-k AI talde-lana irakasten du ezkutatzeko joko batean

Lanaren amaieran, ikertzaileek jokoz kanpoko entrenamenduak agenteei jokoz kanpoko antzeko zereginei aurre egiteko zenbat lagun dezakeen probatzea erabaki zuten. Bost proba izan ziren guztira: objektu kopuruaren kontzientzia (objektu batek existitzen jarraitzen duela ulertzea, nahiz eta bistatik kanpo egon eta erabiltzen ez den); "blokeatu eta itzuli" - norberaren jatorrizko posizioa gogoratzeko eta hara itzultzeko gaitasuna, zeregin gehigarriren bat burutu ondoren; "blokeo sekuentziala" - 4 kutxa ausaz kokatu ziren aterik gabeko hiru geletan, baina barrura sartzeko arrapalekin, agenteek guztiak aurkitu eta blokeatu behar zituzten; kutxak aurrez zehaztutako guneetan jartzea; objektu baten inguruan aterpe bat sortuz zilindro moduan.

Ondorioz, bost zereginetatik hirutan, jokoan aurretiazko prestakuntza jaso zuten bot-ek azkarrago ikasi zuten eta emaitza hobeak erakutsi zituzten hutsetik arazoak konpontzeko trebatutako AI baino. Zertxobait hobeto aritu ziren zeregina amaitu eta hasierako posiziora itzultzen, gela itxietan kutxak sekuentzialki blokeatzen eta eremu jakinetan kaxak jartzen, baina apur bat ahulagoa izan zen objektu kopurua antzematen eta beste objektu baten inguruan estaldura sortzen.

Ikertzaileek emaitza mistoak egozten dizkiote AI-ak trebetasun jakin batzuk ikasten eta gogoratzen dituenari. "Uste dugu jokoaren aurretiko entrenamendua hobekien egiten zen zereginetan aurretik ikasitako trebetasunak modu ezagun batean berrerabiltzea zekarrela, eta gainerako zereginak hutsetik trebatutako AI-ak baino hobeto egiteak beste modu batean erabiltzea eskatuko luke, hau da. zailagoaΒ», idatzi dute lanaren egilekideek. "Emaitza honek azpimarratzen du ingurune batetik bestera transferitzean prestakuntzaren bidez lortutako gaitasunak eraginkortasunez berrerabiltzeko metodoak garatzeko beharra".

Egindako lana benetan ikusgarria da, irakaskuntza-metodo hau erabiltzeko aukera edozein jokoen mugetatik urrun baitago. Ikertzaileek diote beren lana gaixotasunak diagnostikatzeko, proteina molekula konplexuen egiturak iragartzeko eta CT eskaneak aztertzeko "fisikan oinarritutako" eta "gizakien antzeko" portaera duen IA sortzeko urrats esanguratsua dela.

Beheko bideoan argi eta garbi ikus dezakezu nola gertatu zen ikasketa prozesu osoa, nola AI-k talde-lana nola ikasi zuen eta bere estrategiak gero eta maltzuragoak eta konplexuagoak ziren.



Iturria: 3dnews.ru

Gehitu iruzkin berria