Stará dobrá hra na schovávačku môže byť pre robotov umelej inteligencie (AI) skvelým testom, ktorý im ukáže, ako sa rozhodujú a interagujú medzi sebou a rôznymi objektmi okolo nich.
vo svojom
Vedci použili metódu, ktorá si už dlho získala svoju slávu
Na trénovanie AI na hranie na schovávačku vedci použili prístup nazývaný „Neriadený prieskum“, pri ktorom majú agenti úplnú slobodu rozvíjať svoje chápanie herného sveta a rozvíjať víťazné stratégie. Je to podobné ako multi-agentový vzdelávací prístup, ktorý výskumníci z DeepMind použili pri viacerých systémoch umelej inteligencie
V hre na schovávačku sa od niekoľkých agentov, ktorých úlohou bolo skrývať, vyžadovalo, aby sa po miernom predstihu vyhli zorným lúčom svojich protivníkov, zatiaľ čo tím pátracích agentov bol znehybnený. Okrem toho je „línia pohľadu“ v tomto kontexte 135 stupňový kužeľ pred jednotlivým robotom. Agenti sa nemohli odvážiť príliš ďaleko mimo hracej plochy a boli nútení prechádzať náhodne vygenerovanými miestnosťami so schopnosťou použiť niektoré externé objekty (boxy, pohyblivé steny, špeciálne rampy) roztrúsené po okolí, ktoré sa dali použiť na vytvorenie krytu aj na infiltráciu do nich. .
Prostredníctvom zdĺhavého procesu učenia sa agenti AI naučili šesť jedinečných stratégií, z ktorých každá im pomohla postúpiť do ďalšej fázy hry. Najprv tímy hľadajúcich a skrývačov jednoducho utekali a prenasledovali sa, ale po približne 25 miliónoch zápasov sa tím schovávačiek naučil blokovať priechody krabicami a stavať z nich prístrešky. Po ďalších 75 miliónoch zápasov tím objavil spôsoby, ako použiť rampy, aby sa dostali do týchto skrýš. Po ďalších 10 miliónoch kôl sa skrývačky naučili ťahať rampy na okraj hracej plochy a zamykať ich, aby ich oponenti nemohli použiť.
Po 388 miliónoch zápasov sa hľadači naučili používať zablokované rampy, aby vyliezli na prepravky, ktoré im boli prinesené, a potom, keď sa presunuli priamo na ne, prenikli do nepriateľských úkrytov vytvorených z prenosných stien. A nakoniec, po 458 miliónoch zápasov, skrývajúci sa tím dospel k záveru, že je potrebné zablokovať všetky objekty a následne postaviť úkryt, čo zrejme viedlo k ich konečnému víťazstvu.
Obzvlášť pôsobivé je, že po 22 miliónoch zápasov sa agenti naučili koordinovať svoje akcie a efektivita ich spolupráce sa v budúcnosti len zvýšila, napríklad si každý priniesol svoju vlastnú krabicu alebo stenu na vytvorenie úkrytu a vybral si svoj podiel predmetov, blok, skomplikovať obtiažnosť hry oponentom.
Vedci tiež zaznamenali dôležitý bod súvisiaci s vplyvom počtu trénovacích objektov (množstvo údajov prenesených cez neurónovú sieť - „Veľkosť dávky“) na rýchlosť učenia. Predvolený model vyžadoval 132,3 milióna zápasov počas 34 hodín tréningu, aby sa dostal do bodu, keď sa skrývajúci tím naučil blokovať rampy, zatiaľ čo viac údajov viedlo k výraznému skráteniu tréningového času. Napríklad zvýšenie počtu parametrov (časť údajov získaných počas celého tréningového procesu) z 0,5 milióna na 5,8 milióna zvýšilo efektivitu vzorkovania 2,2-krát a zvýšenie veľkosti vstupných údajov zo 64 KB na 128 KB znížilo tréning. čas takmer jeden a pol krát.
Na konci svojej práce sa vedci rozhodli otestovať, koľko tréningov v hre môže pomôcť agentom vyrovnať sa s podobnými úlohami mimo hry. Celkovo bolo päť testov: uvedomenie si počtu objektov (pochopenie, že objekt naďalej existuje, aj keď je mimo dohľadu a nepoužíva sa); „uzamknúť a vrátiť sa“ - schopnosť zapamätať si pôvodnú polohu a vrátiť sa k nej po dokončení ďalšej úlohy; "sekvenčné blokovanie" - 4 boxy boli náhodne umiestnené v troch miestnostiach bez dverí, ale s rampami, aby sa dostali dovnútra, agenti ich museli všetky nájsť a zablokovať; umiestnenie boxov na vopred určené miesta; vytvorenie úkrytu okolo objektu vo forme valca.
Výsledkom je, že v troch z piatich úloh sa roboty, ktoré prešli predbežným školením v hre, učili rýchlejšie a vykazovali lepšie výsledky ako AI, ktorá bola vyškolená na riešenie problémov od začiatku. O niečo lepšie sa im darilo pri dokončení úlohy a návrate do východiskovej pozície, postupnom blokovaní škatúľ v uzavretých miestnostiach a umiestňovaní škatúľ do daných oblastí, ale mali o niečo slabší výkon pri rozpoznávaní počtu predmetov a vytváraní krytu okolo iného objektu.
Výskumníci pripisujú zmiešané výsledky tomu, ako sa AI učí a pamätá si určité zručnosti. „Myslíme si, že úlohy, pri ktorých najlepšie fungoval predtréning v hre, zahŕňali opätovné použitie predtým naučených zručností známym spôsobom, zatiaľ čo vykonávanie ostatných úloh lepšie ako umelá inteligencia trénovaná od nuly by si vyžadovalo ich použitie iným spôsobom, ktorý ťažšie,“ píšu spoluautori diela. "Tento výsledok zdôrazňuje potrebu vyvinúť metódy na efektívne opätovné využitie zručností získaných tréningom pri ich prenose z jedného prostredia do druhého."
Odvedená práca je skutočne pôsobivá, pretože perspektíva použitia tejto vyučovacej metódy je ďaleko za hranicami akýchkoľvek hier. Vedci tvrdia, že ich práca je významným krokom k vytvoreniu AI s „fyzikálnym“ a „ľudským“ správaním, ktoré dokáže diagnostikovať choroby, predpovedať štruktúry komplexných proteínových molekúl a analyzovať CT skeny.
Vo videu nižšie môžete jasne vidieť, ako prebiehal celý proces učenia, ako sa AI naučila tímovej práci a jej stratégie boli čoraz prefíkanejšie a komplexnejšie.
Zdroj: 3dnews.ru