DeepMind AI ovládá týmovou hru a překonává lidi v Quake III

Capture the Flag je poměrně jednoduchý soutěžní režim, který najdete v mnoha populárních střílečkách. Každý tým má značku umístěnou na své základně a cílem je zachytit značku nepřátelského týmu a úspěšně ji přivést k sobě. Co je však pro lidi snadné pochopit, není tak snadné pro stroje. K zachycení vlajky se nehráčské postavy (boti) tradičně programují pomocí heuristiky a jednoduchých algoritmů, které poskytují omezenou svobodu volby a jsou výrazně horší než lidé. Umělá inteligence a strojové učení ale slibují, že tuto situaci zcela změní.

В článek, publikované tento týden v časopise Science asi rok poté předtisk, stejně jako v váš blog, výzkumníci z DeepMind, londýnské dceřiné společnosti Alphabet, popisují systém, který se dokáže nejen naučit hrát capture the flag na mapách Quake III Arena od id Software, ale také vyvíjet zcela nové týmové strategie, které nejsou v žádném případě horší než člověk.

DeepMind AI ovládá týmovou hru a překonává lidi v Quake III

"Nikdo neřekl AI, jak hrát tuto hru, mělo to pouze výsledek - ať už AI porazila svého soupeře nebo ne." Krása použití tohoto přístupu spočívá v tom, že nikdy nevíte, jaké chování se objeví, když trénujete agenty,“ říká Max Jaderberg, vědec z DeepMind, který dříve pracoval na systému strojového učení AlphaStar (nověji překonán lidský tým profesionálů ve StarCraft II). Dále vysvětlil, že klíčovou metodou jejich nové práce je zaprvé posílené učení, které využívá jakýsi systém odměn k tomu, aby softwarové agenty tlačil k dosažení stanovených cílů, a systém odměn fungoval bez ohledu na to, zda tým AI vyhrál, nebo ne. , ale za druhé byli agenti trénováni ve skupinách, což nutilo AI ovládat týmovou interakci od samého začátku.

„Z hlediska výzkumu je to novinka pro algoritmický přístup, který je opravdu vzrušující,“ dodal Max. "Způsob, jakým jsme trénovali naši AI, dobře ukazuje, jak škálovat a implementovat některé klasické evoluční myšlenky."

DeepMind AI ovládá týmovou hru a překonává lidi v Quake III

Agenti DeepMind se provokativně pojmenovali For The Win (FTW) a učí se přímo z pixelů obrazovky pomocí konvoluční neuronové sítě, sady matematických funkcí (neuronů) uspořádaných do vrstev po vzoru lidské zrakové kůry. Přijatá data jsou přenášena do dvou sítí s vícenásobnou krátkodobou pamětí (anglicky long short-term memory - LSTM), schopnou rozpoznávat dlouhodobé závislosti. Jeden z nich spravuje provozní data s vysokou rychlostí odezvy, zatímco druhý pracuje pomalu na analýze a formulování strategií. Oba jsou spojeni s variační pamětí, kterou společně používají k předpovídání změn v herním světě a provádění akcí prostřednictvím emulovaného herního ovladače.

DeepMind AI ovládá týmovou hru a překonává lidi v Quake III

Celkem DeepMind vycvičil 30 agentů, dal jim řadu spoluhráčů a protivníků ke hře a náhodně vybral herní karty, aby si je umělá inteligence nepamatovala. Každý agent měl svůj vlastní signál odměny, což mu umožňovalo vytvářet si vlastní vnitřní cíle, jako je zachycení vlajky. Každá umělá inteligence samostatně odehrála asi 450 tisíc her zachycení vlajky, což odpovídá zhruba čtyřem letům herních zkušeností.

Plně vyškolení agenti FTW se naučili používat strategie společné pro jakoukoli mapu, soupisku týmu a velikost týmu. Naučili se lidské chování, jako je následování spoluhráčů, táboření v nepřátelské základně a obrana své základny před útočníky, a postupně ztráceli méně prospěšné vzorce, jako je přílišné sledování spojence.

Jaké výsledky tedy byly dosaženy? V turnaji pro 40 osob, ve kterém lidé a agenti náhodně hráli společně i proti sobě, agenti FTW výrazně překonali míru výher lidských hráčů. Hodnocení Elo AI, což je pravděpodobnost výhry, bylo 1600, ve srovnání s 1300 pro „silné“ lidské hráče a 1050 pro „průměrného“ lidského hráče.

DeepMind AI ovládá týmovou hru a překonává lidi v Quake III

To není překvapivé, protože reakční rychlost umělé inteligence je výrazně vyšší než u člověka, což první poskytlo významnou výhodu v počátečních experimentech. Ale i když byla přesnost agentů snížena a reakční doba zvýšena díky vestavěné latenci 257 milisekund, AI stále předčila lidi. Pokročilí a příležitostní hráči vyhráli pouze 21 % a 12 % z celkového počtu her.

Po zveřejnění studie se navíc vědci rozhodli otestovat agenty na plnohodnotných mapách Quake III Arena se složitou architekturou úrovní a dalšími objekty, jako jsou Future Crossings a Ironwood, kde umělá inteligence začala úspěšně vyzývat lidi v testovacích zápasech. . Když se vědci podívali na vzorce aktivace neuronové sítě agentů, tedy na funkce neuronů odpovědných za určování výstupu na základě příchozích informací, našli shluky představující místnosti, stav vlajek, viditelnost spoluhráčů a protivníků a přítomnost nebo nepřítomnost agentů na nepřátelské základně nebo týmové a další významné aspekty hry. Vycvičení agenti dokonce obsahovali neurony, které přímo kódovaly konkrétní situace, například když agent vzal vlajku nebo když ji držel spojenec.

„Myslím, že jednou z věcí, na kterou je třeba se podívat, je, že tyto multiagentní týmy jsou extrémně výkonné, a naše studie to dokazuje,“ říká Jaderberg. "To je to, co jsme se v posledních několika letech naučili dělat stále lépe - jak vyřešit problém posílení učení." A vylepšený trénink fungoval opravdu skvěle.“

Thore Graepel, profesor počítačových věd na University College London a vědec DeepMind, věří, že jejich práce zdůrazňuje potenciál multiagentního učení pro budoucnost AI. Může také sloužit jako základ pro výzkum interakce člověk-stroj a systémů, které se vzájemně doplňují nebo spolupracují.

„Naše výsledky ukazují, že učení posilování pomocí více agentů může úspěšně zvládnout složitou hru do té míry, že lidští hráči dokonce uvěří, že počítačoví hráči jsou lepšími spoluhráči. Studie také poskytuje mimořádně zajímavou hloubkovou analýzu toho, jak se vyškolení agenti chovají a spolupracují, říká Grapel. „Co dělá tyto výsledky tak vzrušujícími, je to, že tito agenti vnímají své prostředí v první osobě, [to je] stejně jako lidský hráč. Aby se tito agenti naučili hrát takticky a spolupracovat se svými spoluhráči, museli se spoléhat na zpětnou vazbu z výsledků hry, aniž by jim učitel nebo trenér ukazoval, co mají dělat.“



Zdroj: 3dnews.ru

Přidat komentář