ІІ DeepMind освоїв командну гру і перевершив людину в Quake III

Захоплення прапора — досить простий режим змагання, реалізований у багатьох популярних шутерах. Кожна команда має певний маркер, розташований на її базі, і мета полягає в тому, щоб захопити маркер суперників і успішно доставити його до себе. Однак те, що легко розуміють люди, не так легко дається машинам. Для захоплення прапора неігрові персонажі (боти) традиційно програмуються за допомогою евристики та нескладних алгоритмів, що надають обмежену свободу вибору та значно поступаються людям. Але штучний інтелект та машинне навчання обіцяють повністю перевернути цю ситуацію.

В статті, опублікованому на цьому тижні в журналі Science приблизно через рік після препринта, а також в своєму блозі, Дослідники з DeepMind, лондонської дочірньої компанії Alphabet, описують систему, здатну не тільки навчитися грати в захоплення прапора на картах Quake III Arena від id Software, але і розробляти абсолютно нові командні стратегії, ні в чому не поступаючись людині.

ІІ DeepMind освоїв командну гру і перевершив людину в Quake III

«Ніхто не розповів ІІ, як грати в цю гру, він мав лише результат — переміг ІІ свого супротивника чи ні. Принадність використання такого підходу в тому, що ви ніколи не знаєте, яка поведінка виникне при навчанні агентів», — розповідає Макс Джадерберг (Max Jaderberg), науковий співробітник DeepMind, який раніше працював над системою машинного навчання AlphaStar (нещодавно вона перевершила людську команду професіоналів у StarCraft II). Далі він пояснив, що ключовий метод їх нової роботи - це, по-перше, посилене навчання, яке використовує своєрідну систему нагород для підштовхування програмних агентів до виконання поставлених цілей, причому система нагород працювала незалежно від того, виграла команда ІІ чи ні, а в -друге, навчання агентів проводилося у групах, що змушувало ІІ освоювати командну взаємодію від початку.

«З дослідницької точки зору це новинка для алгоритмічного підходу, яка справді вражає, – додав Макс. — Спосіб, яким ми навчали наш ІІ, добре показує, як масштабувати та реалізувати деякі класичні еволюційні ідеї».

ІІ DeepMind освоїв командну гру і перевершив людину в Quake III

Агенти DeepMind, які отримали назву — For The Win (FTW), навчаються безпосередньо на екранних пікселях, використовуючи згорткову нейронну мережу, набір математичних функцій (нейронів), розташованих у шарах, змодельованих за аналогією з зорової корою мозку людини. Отримані дані передаються у дві мережі з багаторазовою короткочасною пам'яттю (англ. long short-term memory - LSTM), здатні розпізнавати довгострокові залежності. Одна з них управляє оперативними даними зі швидкою швидкістю реакції, а інша працює повільно для аналізу та формування стратегій. Обидві пов'язані з варіаційною пам'яттю, яку вони спільно використовують для прогнозування змін ігрового світу та виконання дій через емульований ігровий контролер.

ІІ DeepMind освоїв командну гру і перевершив людину в Quake III

Загалом DeepMind навчила 30 агентів, вчені дали їм ряд товаришів по команді та противників, з якими можна було грати, а ігрові карти вибиралися випадковим чином, щоб ІІ не запам'ятовував їх. Кожен агент мав свій власний сигнал винагороди, що дозволяє створювати свої внутрішні цілі, наприклад, захоплення прапора. Кожен ІІ окремо зіграв близько 450 тис. ігор на захоплення прапора, що еквівалентно приблизно чотирьом рокам ігрового досвіду.

Повністю навчені агенти FTW навчилися застосовувати стратегії, спільні для будь-якої карти, списку команд та їх розмірів. Вони навчилися людської поведінки, такої як слідування за товаришами по команді, розміщення в таборі на базі супротивника і захист своєї бази від нападників, а також вони поступово втратили менш вигідні моделі, наприклад надто уважне спостереження за союзником.

Тож яких же вдалося досягти результатів? У турнірі за участю 40 осіб, в якому люди та агенти випадково грали як разом, так і один проти одного, агенти FTW значно перевершили коефіцієнт перемог у гравців-людей. Рейтинг Ело, який відповідає ймовірності виграшу, у ІІ склав 1600 у порівнянні з 1300 у «сильних» гравців-людей і 1050 у «середньої» гравця-людини.

ІІ DeepMind освоїв командну гру і перевершив людину в Quake III

Це не дивно, тому що швидкість реакції ІІ значно вища, ніж у людини, що давало першому значну перевагу в початкових експериментах. Але навіть коли точність агентів була зменшена, а час реакції збільшено завдяки вбудованій затримці 257 мілісекунд, ІІ все одно перевершив людей. Просунуті та звичайні гравці виграли лише 21% та 12% ігор від загального числа відповідно.

Більше того, після публікації дослідження вчені вирішили випробувати агентів на повноцінних картах Quake III Arena зі складною архітектурою рівнів та додатковими об'єктами, таких як Future Crossings та Ironwood, де ІІ почав успішно оспорювати першість людей у ​​тестових матчах. Коли дослідники вивчили схеми активації нейронних мереж у агентів, тобто функції нейронів, відповідальних за визначення вихідних даних на основі вхідної інформації, вони виявили кластери, що являють собою кімнати, стан прапорів, видимість товаришів за командою та противників, присутність або відсутність агентів на базі противника або на основі команди, та інші важливі аспекти ігрового процесу. Навчені агенти навіть містили нейрони, які кодували безпосередньо конкретні ситуації, наприклад коли прапор взятий агентом або коли його тримає союзник.

«Я думаю, що одна з речей, на які варто звернути увагу, полягає в тому, що ці багатоагентні команди є виключно потужними і наше дослідження демонструє це, — каже Джадерберг. — Це те, що ми вчимося робити краще та краще за останні кілька років — як вирішити проблему навчання із підкріпленням. І посилене навчання справді показало себе блискуче».

Тор Грепел (Thore Graepel), професор комп'ютерних наук в Університетському коледжі Лондона та вчений з DeepMind, упевнений, що їхня робота підкреслює потенціал багатоагентного навчання для розвитку ІІ в майбутньому. Також вона може бути основою для досліджень взаємодії людини з машиною та систем, які доповнюють один одного або працюють разом.

«Наші результати показують, що багатоагентне навчання з підкріпленням може успішно освоїти складну гру настільки, що гравці-люди навіть приходять до думки, що комп'ютерні гравці — найкращі товариші по команді. Дослідження також надає вкрай цікавий поглиблений аналіз того, як навчені агенти поводяться та працюють разом, — розповідає Грепел. — Що робить ці результати такими захоплюючими, так це те, що ці агенти сприймають своє оточення від першої особи, так само, як людина-гравець. Щоб навчитися грати тактично і співпрацювати зі своїми товаришами по команді, ці агенти мали покладатися на зворотний зв'язок із результатами гри, без будь-якого вчителя чи тренера, який показує їм, що треба робити».



Джерело: 3dnews.ru

Додати коментар або відгук