🥇OpenAI učí týmovou práci AI ve hře na schovávanou

Stará dobrá hra na schovávanou může být pro roboty s umělou inteligencí (AI) skvělým testem, který jim ukáže, jak se rozhodují a jak vzájemně reagují a jak reagují na různé předměty kolem nich.

ve svém nový článek, kterou zveřejnili vědci z OpenAI, neziskové organizace pro výzkum umělé inteligence, která se proslavila vítězství nad mistry světa v počítačové hře Dota 2 vědci popisují, jak byli agenti ovládaní umělou inteligencí vycvičeni, aby byli sofistikovanější ve vzájemném hledání a skrývání se ve virtuálním prostředí. Výsledky studie ukázaly, že tým dvou robotů se učí efektivněji a rychleji než kterýkoli jednotlivý agent bez spojenců.

Vědci použili metodu, která již dávno získala svou slávu strojové učení s posilováním, ve kterém je umělá inteligence umístěna do jí neznámého prostředí, přičemž má určité způsoby interakce s ní a také systém odměn a pokut za ten či onen výsledek jejího jednání. Tato metoda je poměrně účinná díky schopnosti AI provádět různé akce ve virtuálním prostředí obrovskou rychlostí, milionkrát rychleji, než si člověk dokáže představit. To umožňuje pokusem a omylem najít nejúčinnější strategie pro řešení daného problému. Tento přístup má ale také určitá omezení, například vytváření prostředí a provádění četných školicích cyklů vyžaduje obrovské výpočetní zdroje a samotný proces vyžaduje přesný systém pro porovnávání výsledků akcí AI s jeho cílem. Dovednosti získané tímto způsobem agentem jsou navíc omezeny na popsaný úkol a jakmile se s ním AI naučí vypořádat, nedojde k žádnému dalšímu vylepšení.

K trénování umělé inteligence ke hře na schovávanou použili vědci přístup zvaný „Neřízený průzkum“, při kterém mají agenti úplnou svobodu rozvíjet své chápání herního světa a rozvíjet vítězné strategie. Je to podobné jako u víceagentního přístupu, který výzkumníci z DeepMind používali, když používali více systémů umělé inteligence byli vycvičeni k hraní režimu zachycení vlajky v Quake III Arena. Stejně jako v tomto případě nebyli AI agenti dříve školeni v pravidlech hry, ale postupem času se naučili základní strategie a dokonce byli schopni překvapit výzkumníky netriviálními řešeními.

Ve hře na schovávanou se několik agentů, jejichž úkolem bylo skrývat, muselo po mírném předstihu vyhnout zornému úhlu svých protivníků, zatímco tým pátracích agentů byl znehybněn. Navíc „přímka viditelnosti“ je v tomto kontextu 135° kužel před jednotlivým robotem. Agenti se nemohli odvážit příliš daleko mimo hrací plochu a byli nuceni procházet náhodně vygenerovanými místnostmi se schopností používat některé vnější objekty (krabice, pohyblivé stěny, speciální rampy) roztroušené kolem, které bylo možné použít jak k vytvoření krytu, tak k infiltraci do nich. .

Prostřednictvím zdlouhavého procesu učení se agenti AI naučili šest jedinečných strategií, z nichž každá jim pomohla postoupit do další fáze hry. Zpočátku týmy hledačů a skrývaček jednoduše utíkaly a pronásledovaly se, ale po asi 25 milionech zápasů se tým schovávaček naučil blokovat průchody krabicemi a stavět z nich úkryty. Po dalších 75 milionech zápasů tým objevil způsoby, jak se pomocí ramp dostat do těchto úkrytů. Po dalších 10 milionech kol se skrývači naučili přetahovat rampy na okraj hrací plochy a zamykat je, aby je soupeři nemohli používat.

Po 388 milionech zápasů se hledači naučili používat zablokované rampy, aby vylezli na bedny, které jim byly přineseny, a poté, když se přesunuli přímo na ně, pronikli do nepřátelských úkrytů vytvořených z přenosných stěn. A nakonec, po 458 milionech zápasů, ukrývající se tým dospěl k závěru, že je potřeba zablokovat všechny objekty a následně postavit úkryt, což zřejmě vedlo k jejich konečnému vítězství.

Zvláště působivé je, že po 22 milionech zápasů se agenti naučili koordinovat své akce a efektivita jejich spolupráce se v budoucnu jen zvýšila, například si každý přinesl svou vlastní krabici nebo zeď, aby vytvořil úkryt a vybral si svůj podíl předmětů, které blok, zkomplikovat soupeři obtížnost hry.

Vědci také zaznamenali důležitý bod související s vlivem počtu trénovacích objektů (množství dat procházejících neuronovou sítí - „Velikost dávky“) na rychlost učení. Výchozí model vyžadoval 132,3 milionů zápasů během 34 hodin tréninku, aby se dostal do bodu, kdy se skrývající tým naučil blokovat rampy, zatímco více dat vedlo k znatelnému zkrácení tréninkového času. Například zvýšení počtu parametrů (část dat získaných během celého tréninkového procesu) z 0,5 milionu na 5,8 milionu zvýšilo efektivitu vzorkování 2,2krát a zvýšení velikosti vstupních dat z 64 KB na 128 KB snížilo trénink. čas téměř jedenapůlkrát.

Na konci své práce se vědci rozhodli otestovat, jak velký trénink ve hře může agentům pomoci zvládat podobné úkoly mimo hru. Testů bylo celkem pět: povědomí o počtu objektů (pochopení, že objekt nadále existuje, i když je mimo dohled a není používán); „uzamknout a vrátit“ - schopnost zapamatovat si svou původní pozici a vrátit se do ní po dokončení nějakého dalšího úkolu; "sekvenční blokování" - 4 krabice byly náhodně umístěny ve třech místnostech bez dveří, ale s rampami, aby se dostali dovnitř, agenti je museli všechny najít a zablokovat; umístění krabic na předem určená místa; vytvoření úkrytu kolem předmětu ve formě válce.

Výsledkem bylo, že ve třech z pěti úkolů se roboti, kteří prošli předběžným školením ve hře, učili rychleji a vykazovali lepší výsledky než umělá inteligence, která byla vycvičena k řešení problémů od nuly. O něco lépe se jim dařilo při plnění úkolu a návratu do výchozí pozice, postupném blokování krabic v uzavřených místnostech a umísťování krabic do daných oblastí, ale o něco slabší v rozpoznávání počtu objektů a vytváření krytu kolem jiného objektu.

Výzkumníci připisují smíšené výsledky tomu, jak se AI učí a pamatuje si určité dovednosti. „Domníváme se, že úkoly, kde se nejlépe dařilo předtréninku ve hře, zahrnovaly opětovné použití dříve naučených dovedností známým způsobem, zatímco provádění zbývajících úkolů lépe než umělá inteligence trénovaná od nuly by vyžadovala použití jiným způsobem, který obtížnější,“ píší spoluautoři díla. "Tento výsledek zdůrazňuje potřebu vyvinout metody pro efektivní opětovné využití dovedností získaných školením při jejich přenosu z jednoho prostředí do druhého."

Odvedená práce je skutečně působivá, protože vyhlídky na použití této výukové metody jsou daleko za hranicemi jakékoli hry. Vědci tvrdí, že jejich práce je významným krokem k vytvoření umělé inteligence s „fyzikálním“ a „lidským“ chováním, které dokáže diagnostikovat nemoci, předpovídat struktury komplexních proteinových molekul a analyzovat CT skeny.

Ve videu níže můžete jasně vidět, jak celý proces učení probíhal, jak se umělá inteligence naučila týmové práci a její strategie byly čím dál mazanější a složitější.

Zdroj: 3dnews.ru

OpenAI učí týmovou práci AI ve hře na schovávanou

Přidat komentář Zrušit odpověď na komentář