OpenAI učí tímovú prácu AI v hre na schovávačku

Stará dobrá hra na schovávačku môže byť pre robotov umelej inteligencie (AI) skvelým testom, ktorý im ukáže, ako sa rozhodujú a interagujú medzi sebou a rôznymi objektmi okolo nich.

vo svojom nový článok, ktorú zverejnili výskumníci z OpenAI, neziskovej organizácie na výskum umelej inteligencie, ktorá sa preslávila víťazstvo nad majstrami sveta v počítačovej hre Dota 2 vedci opisujú, ako boli agenti ovládaní umelou inteligenciou trénovaní, aby boli sofistikovanejší vo vzájomnom hľadaní a ukrývaní sa vo virtuálnom prostredí. Výsledky štúdie ukázali, že tím dvoch robotov sa učí efektívnejšie a rýchlejšie ako ktorýkoľvek jednotlivý agent bez spojencov.

OpenAI učí tímovú prácu AI v hre na schovávačku

Vedci použili metódu, ktorá si už dlho získala svoju slávu strojové učenie s posilňovaním, v ktorom je umelá inteligencia umiestnená do pre ňu neznámeho prostredia, pričom má s ňou určité spôsoby interakcie, ako aj systém odmien a pokút za ten či onen výsledok jej konania. Táto metóda je pomerne efektívna vďaka schopnosti AI vykonávať rôzne akcie vo virtuálnom prostredí obrovskou rýchlosťou, miliónkrát rýchlejšie, než si človek dokáže predstaviť. To umožňuje pokusom a omylom nájsť najefektívnejšie stratégie riešenia daného problému. Tento prístup má však aj určité obmedzenia, napríklad vytvorenie prostredia a vykonávanie mnohých školiacich cyklov si vyžaduje obrovské výpočtové zdroje a samotný proces vyžaduje presný systém na porovnávanie výsledkov akcií AI s cieľom. Zručnosti získané týmto spôsobom agentom sú navyše obmedzené na opísanú úlohu a keď sa s ňou AI naučí vyrovnať, nedôjde k žiadnym ďalším zlepšeniam.

Na trénovanie AI na hranie na schovávačku vedci použili prístup nazývaný „Neriadený prieskum“, pri ktorom majú agenti úplnú slobodu rozvíjať svoje chápanie herného sveta a rozvíjať víťazné stratégie. Je to podobné ako multi-agentový vzdelávací prístup, ktorý výskumníci z DeepMind použili pri viacerých systémoch umelej inteligencie boli vyškolení na hranie režimu zachytávania vlajky v Quake III Arena. Ako v tomto prípade, AI agenti neboli predtým vyškolení v pravidlách hry, ale postupom času sa naučili základné stratégie a dokonca dokázali prekvapiť výskumníkov netriviálnymi riešeniami.

V hre na schovávačku sa od niekoľkých agentov, ktorých úlohou bolo skrývať, vyžadovalo, aby sa po miernom predstihu vyhli zorným lúčom svojich protivníkov, zatiaľ čo tím pátracích agentov bol znehybnený. Okrem toho je „línia pohľadu“ v tomto kontexte 135 stupňový kužeľ pred jednotlivým robotom. Agenti sa nemohli odvážiť príliš ďaleko mimo hracej plochy a boli nútení prechádzať náhodne vygenerovanými miestnosťami so schopnosťou použiť niektoré externé objekty (boxy, pohyblivé steny, špeciálne rampy) roztrúsené po okolí, ktoré sa dali použiť na vytvorenie krytu aj na infiltráciu do nich. .

OpenAI učí tímovú prácu AI v hre na schovávačku

Prostredníctvom zdĺhavého procesu učenia sa agenti AI naučili šesť jedinečných stratégií, z ktorých každá im pomohla postúpiť do ďalšej fázy hry. Najprv tímy hľadajúcich a skrývačov jednoducho utekali a prenasledovali sa, ale po približne 25 miliónoch zápasov sa tím schovávačiek naučil blokovať priechody krabicami a stavať z nich prístrešky. Po ďalších 75 miliónoch zápasov tím objavil spôsoby, ako použiť rampy, aby sa dostali do týchto skrýš. Po ďalších 10 miliónoch kôl sa skrývačky naučili ťahať rampy na okraj hracej plochy a zamykať ich, aby ich oponenti nemohli použiť.

OpenAI učí tímovú prácu AI v hre na schovávačku

Po 388 miliónoch zápasov sa hľadači naučili používať zablokované rampy, aby vyliezli na prepravky, ktoré im boli prinesené, a potom, keď sa presunuli priamo na ne, prenikli do nepriateľských úkrytov vytvorených z prenosných stien. A nakoniec, po 458 miliónoch zápasov, skrývajúci sa tím dospel k záveru, že je potrebné zablokovať všetky objekty a následne postaviť úkryt, čo zrejme viedlo k ich konečnému víťazstvu.

Obzvlášť pôsobivé je, že po 22 miliónoch zápasov sa agenti naučili koordinovať svoje akcie a efektivita ich spolupráce sa v budúcnosti len zvýšila, napríklad si každý priniesol svoju vlastnú krabicu alebo stenu na vytvorenie úkrytu a vybral si svoj podiel predmetov, blok, skomplikovať obtiažnosť hry oponentom.

OpenAI učí tímovú prácu AI v hre na schovávačku

Vedci tiež zaznamenali dôležitý bod súvisiaci s vplyvom počtu trénovacích objektov (množstvo údajov prenesených cez neurónovú sieť - „Veľkosť dávky“) na rýchlosť učenia. Predvolený model vyžadoval 132,3 milióna zápasov počas 34 hodín tréningu, aby sa dostal do bodu, keď sa skrývajúci tím naučil blokovať rampy, zatiaľ čo viac údajov viedlo k výraznému skráteniu tréningového času. Napríklad zvýšenie počtu parametrov (časť údajov získaných počas celého tréningového procesu) z 0,5 milióna na 5,8 milióna zvýšilo efektivitu vzorkovania 2,2-krát a zvýšenie veľkosti vstupných údajov zo 64 KB na 128 KB znížilo tréning. čas takmer jeden a pol krát.

OpenAI učí tímovú prácu AI v hre na schovávačku

Na konci svojej práce sa vedci rozhodli otestovať, koľko tréningov v hre môže pomôcť agentom vyrovnať sa s podobnými úlohami mimo hry. Celkovo bolo päť testov: uvedomenie si počtu objektov (pochopenie, že objekt naďalej existuje, aj keď je mimo dohľadu a nepoužíva sa); „uzamknúť a vrátiť sa“ - schopnosť zapamätať si pôvodnú polohu a vrátiť sa k nej po dokončení ďalšej úlohy; "sekvenčné blokovanie" - 4 boxy boli náhodne umiestnené v troch miestnostiach bez dverí, ale s rampami, aby sa dostali dovnútra, agenti ich museli všetky nájsť a zablokovať; umiestnenie boxov na vopred určené miesta; vytvorenie úkrytu okolo objektu vo forme valca.

Výsledkom je, že v troch z piatich úloh sa roboty, ktoré prešli predbežným školením v hre, učili rýchlejšie a vykazovali lepšie výsledky ako AI, ktorá bola vyškolená na riešenie problémov od začiatku. O niečo lepšie sa im darilo pri dokončení úlohy a návrate do východiskovej pozície, postupnom blokovaní škatúľ v uzavretých miestnostiach a umiestňovaní škatúľ do daných oblastí, ale mali o niečo slabší výkon pri rozpoznávaní počtu predmetov a vytváraní krytu okolo iného objektu.

Výskumníci pripisujú zmiešané výsledky tomu, ako sa AI učí a pamätá si určité zručnosti. „Myslíme si, že úlohy, pri ktorých najlepšie fungoval predtréning v hre, zahŕňali opätovné použitie predtým naučených zručností známym spôsobom, zatiaľ čo vykonávanie ostatných úloh lepšie ako umelá inteligencia trénovaná od nuly by si vyžadovalo ich použitie iným spôsobom, ktorý ťažšie,“ píšu spoluautori diela. "Tento výsledok zdôrazňuje potrebu vyvinúť metódy na efektívne opätovné využitie zručností získaných tréningom pri ich prenose z jedného prostredia do druhého."

Odvedená práca je skutočne pôsobivá, pretože perspektíva použitia tejto vyučovacej metódy je ďaleko za hranicami akýchkoľvek hier. Vedci tvrdia, že ich práca je významným krokom k vytvoreniu AI s „fyzikálnym“ a „ľudským“ správaním, ktoré dokáže diagnostikovať choroby, predpovedať štruktúry komplexných proteínových molekúl a analyzovať CT skeny.

Vo videu nižšie môžete jasne vidieť, ako prebiehal celý proces učenia, ako sa AI naučila tímovej práci a jej stratégie boli čoraz prefíkanejšie a komplexnejšie.



Zdroj: 3dnews.ru

Pridať komentár