ІІ DeepMind асвоіў камандную гульню і перасягнуў чалавека ў Quake III

Захоп сцяга - досыць просты спаборніцкі рэжым, рэалізаваны ў шматлікіх папулярных шутэрах. У кожнай каманды ёсць нейкі маркер, размешчаны на яе базе, і мэта складаецца ў тым, каб захапіць маркер супернікаў і паспяхова даставіць яго да сябе. Аднак тое, што лёгка разумеюць людзі, не так лёгка даецца машынам. Для захопу сцяга негульнявыя персанажы (боты) традыцыйна праграмуюцца з дапамогай эўрыстыкі і нескладаных алгарытмаў, якія прадстаўляюць абмежаваную свабоду выбару і значна саступаюць людзям. Але штучны інтэлект і машыннае навучанне абяцаюць поўнасцю перавярнуць гэтую сітуацыю.

В артыкуле, апублікаванай на гэтым тыдні ў часопісе Science прыкладна праз год пасля прэпрынта, а таксама ў сваім блогу, даследнікі з DeepMind, лонданскай даччынай кампаніі Alphabet, апісваюць сістэму, здольную не толькі навучыцца гуляць у захоп сцяга на картах Quake III Arena ад id Software, але і распрацоўваць зусім новыя камандныя стратэгіі, ні ў чым не саступаючы чалавеку.

ІІ DeepMind асвоіў камандную гульню і перасягнуў чалавека ў Quake III

«Ніхто не распавёў ІІ, як гуляць у гэтую гульню, у яго быў толькі вынік - перамог ІІ свайго суперніка ці не. Хараство выкарыстання падобнага падыходу ў тым, што вы ніколі не ведаеце, якія паводзіны ўзнікнуць пры навучанні агентаў », – распавядае Макс Джадэрберг (Max Jaderberg), навуковы супрацоўнік DeepMind, які раней працаваў над сістэмай машыннага навучання AlphaStar (нядаўна яна перасягнула чалавечую каманду прафесіяналаў у StarCraft II). Далей ён растлумачыў, што ключавы метад іх новай працы - гэта, па-першае, узмоцненае навучанне, якое выкарыстоўвае своеасаблівую сістэму ўзнагарод для падштурхвання праграмных агентаў да выканання пастаўленых мэт, прычым сістэма ўзнагарод працавала незалежна ад таго, выйграла каманда ІІ ці не, а ва -другое, навучанне агентаў праводзілася ў групах, што прымушала ІІ асвойваць каманднае ўзаемадзеянне з самага пачатку.

«З даследчага пункта гледжання гэта навінка для алгарытмічнага падыходу, якая сапраўды ўражвае, – дадаў Макс. - Спосаб, якім мы навучалі наш ІІ, добра паказвае, як маштабаваць і рэалізаваць некаторыя класічныя эвалюцыйныя ідэі ».

ІІ DeepMind асвоіў камандную гульню і перасягнуў чалавека ў Quake III

Агенты DeepMind, якія атрымалі задзірлівую назву – For The Win (FTW), вучацца непасрэдна на экранных пікселях, выкарыстоўваючы скруткавую нейронавую сетку, набор матэматычных функцый (нейронаў), размешчаных у пластах, змадэляваных па аналогіі з глядзельнай карой мозгу чалавека. Атрыманыя дадзеныя перадаюцца ў дзве сеткі са шматразовай кароткачасовай памяццю (ангел. long short-term memory - LSTM), здольныя распазнаваць доўгатэрміновыя залежнасці. Адна з іх кіруе аператыўнымі дадзенымі з хуткай хуткасцю рэакцыі, а іншая працуе павольна для аналізу і фармаванні стратэгій. Абедзве злучаны з варыяцыйнай памяццю, якую яны сумесна выкарыстаюць для прагназавання змен гульнявога міру і выкананні дзеянняў праз эмуляваны гульнявы ​​кантролер.

ІІ DeepMind асвоіў камандную гульню і перасягнуў чалавека ў Quake III

У агульнай складанасці DeepMind навучыла 30 агентаў, навукоўцы далі ім шэраг таварышаў па камандзе і супернікаў, з якімі можна было гуляць, а гульнявыя карты выбіраліся выпадковым чынам, каб ІІ не запамінаў іх. Кожны агент меў свой уласны сігнал узнагароджання, які дазваляе яму ствараць свае ўнутраныя мэты, напрыклад, захоп сцяга. Кожны ІІ па асобнасці згуляў каля 450 тыс. гульняў на захоп сцяга, што эквівалентна прыкладна чатыром гадам гульнявога досведу.

Цалкам навучаныя агенты FTW навучыліся прымяняць стратэгіі, агульныя для любой карты, спісу каманд і іх памераў. Яны навучыліся чалавечым паводзінам, такім як следаванне за таварышамі па камандзе, размяшчэнне ў лагеры на базе суперніка і абарона сваёй базы ад нападнікаў, а таксама яны паступова страцілі меней выгодныя мадэлі, напрыклад, занадта ўважлівае назіранне за саюзнікам.

Дык якіх жа ўдалося дабіцца вынікаў? У турніры з удзелам 40 чалавек, у якім людзі і агенты выпадковым чынам гулялі як разам, так і адзін супраць аднаго, агенты FTW значна перасягнулі каэфіцыент перамог у гульцоў-людзей. Рэйтынг Эло, які адпавядае верагоднасці выйгрышу, у ІІ склаў 1600, у параўнанні з 1300 у "моцных" гульцоў-людзей і 1050 у "сярэдняга" гульца-чалавека.

ІІ DeepMind асвоіў камандную гульню і перасягнуў чалавека ў Quake III

Гэта не дзіўна, бо хуткасць рэакцыі ІІ значна вышэй, чым у чалавека, што давала першаму значную перавагу ў першапачатковых эксперыментах. Але нават калі дакладнасць агентаў была зменшана, а час рэакцыі павялічана дзякуючы ўбудаванай затрымцы ў 257 мілісекунд, ІІ усё роўна перасягнуў людзей. Прасунутыя і звычайныя гульцы выйгралі толькі 21% і 12% гульняў ад агульнай колькасці адпаведна.

Больш за тое, пасля публікацыі даследавання навукоўцы вырашылі выпрабаваць агентаў на паўнавартасных картах Quake III Arena са складанай архітэктурай узроўняў і дадатковым аб'ектамі, такіх як Future Crossings і Ironwood, дзе ІІ пачаў паспяхова аспрэчваць першынство людзей у тэставых матчах. Калі даследнікі вывучылі схемы актывацыі нейронавых сетак у агентаў, гэта значыць функцыі нейронаў, адказных за вызначэнне выходных дадзеных на аснове ўваходнай інфармацыі, яны выявілі кластары, уяўлялыя сабой пакоі, стан сцягоў, бачнасць таварышаў па камандзе і супернікаў, прысутнасць або адсутнасць агентаў на базе суперніка ці на базе каманды, і іншыя значныя аспекты гульнявога працэсу. Навучаныя агенты нават змяшчалі нейроны, якія кадзіравалі непасрэдна канкрэтныя сітуацыі, напрыклад, калі сцяг узяты агентам або калі яго трымае саюзнік.

«Я думаю, што адна з рэчаў, на якія варта звярнуць увагу, заключаецца ў тым, што гэтыя шматагентныя каманды з'яўляюцца выключна магутнымі, і наша даследаванне дэманструе гэта, - кажа Джадэрберг. - Гэта тое, што мы вучымся рабіць лепш і лепш за апошнія некалькі гадоў - як вырашыць праблему навучання з падмацаваннем. І ўзмоцненае навучанне сапраўды паказала сябе бліскуча».

Тор Грэпел (Thore Graepel), прафесар кампутарных навук у Універсітэцкім каледжы Лондана і навуковец з DeepMind, упэўнены, што іх праца падкрэслівае патэнцыял шматагентнага навучання для развіцця ІІ ў будучыні. Таксама яна можа паслужыць асновай для даследаванняў узаемадзеяння чалавека з машынай і сістэм, якія дапаўняюць адна адну або працуюць разам.

«Нашы вынікі паказваюць, што шматагентнае навучанне з падмацаваннем можа паспяхова асвоіць складаную гульню да такой ступені, што гульцы-людзі нават прыходзяць да меркавання, што кампутарныя гульцы - лепшыя таварышы па камандзе. Даследаванне таксама дае вельмі цікавы паглыблены аналіз таго, як навучаныя агенты паводзяць сябе і працуюць разам, - распавядае Грэпел. - Што робіць гэтыя вынікі такімі захапляльнымі, дык гэта тое, што гэтыя агенты ўспрымаюць сваё асяроддзе ад першай асобы, [гэта значыць] гэтак жа, як чалавек-гулец. Каб навучыцца гуляць тактычна і супрацоўнічаць са сваімі таварышамі па камандзе, гэтыя агенты павінны былі спадзявацца на зваротную сувязь з вынікамі гульні, без якога-небудзь настаўніка ці трэнера, які паказвае ім, што трэба рабіць».



Крыніца: 3dnews.ru

Дадаць каментар