OpenAI навчає ІІ командній роботі у грі у хованки

Стара добра гра в хованки може стати чудовим випробуванням для ботів зі штучним інтелектом (ІІ), що дозволяє продемонструвати, як вони приймають рішення та взаємодіють, як один з одним, так з різними навколишніми об'єктами.

У своїй новій статті, опублікованій дослідниками з некомерційної організації OpenAI, що займається дослідженнями в галузі штучного інтелекту та прославилася перемогою над чемпіонами світу в комп'ютерній грі Dota 2, вчені описують як агенти, що контролюються штучним інтелектом, навчалися як витонченіше шукати і ховатися один від одного у віртуальному середовищі. Результати дослідження продемонстрували, що команда з двох ботів навчається ефективніше та швидше, ніж будь-який окремий агент без союзників.

OpenAI навчає ІІ командній роботі у грі у хованки

Вчені використовували метод, що вже давно завоював свою славу. машинного навчання із підкріпленням, в якому штучний інтелект міститься в невідоме йому середовище, маючи при цьому певні способи взаємодії з нею, а також систему нагород та штрафів за той чи інший результат своїх дій. Даний метод досить ефективний завдяки можливостям ІІ виконувати різні дії у віртуальному середовищі з величезною швидкістю, в мільйони разів швидше, ніж може уявити людина. Це дозволяє методом спроб і помилок знайти найбільш ефективні стратегії для вирішення поставленого завдання. Але в даного підходу також є деякі обмеження, наприклад, створення середовища та проведення численних циклів навчання вимагає величезних обчислювальних ресурсів, а сам процес потребує точної системи зіставлення результатів дій ІІ з метою. Крім того, набуті агентом таким чином навички обмежені описаним завданням і, як тільки ІІ навчиться з нею справлятися, ніяких покращень більшої вже не буде.

Для навчання ІІ грі у хованки вчені використовували підхід, що називається «ненаправлене дослідження» (Undirected exploration), який полягає в тому, що агенти мають повну свободу дій для розвитку свого розуміння ігрового світу та розробки виграшних стратегій. Це схоже на підхід до багатоагентного навчання, який застосовували дослідники з DeepMind, коли кілька систем штучного інтелекту були навчені грати в режимі "захоплення прапора" у грі Quake III Arena. Як і в цьому випадку, агенти ІІ не були заздалегідь навчені правил гри, але згодом вони вивчили базові стратегії і навіть змогли здивувати дослідників нетривіальними рішеннями.

При грі в хованки кільком агентам, завданням якого було ховатися, було необхідно уникати прямої лінії видимості суперників після невеликої фори в часі, поки команда агентів, що шукають, була знерухомлена. При цьому «лінія видимості» в даному контексті є конусом в 135 градусів перед окремим ботом. Агенти не могли віддалятися надто далеко за межі ігрового майданчика і були змушені переміщатися випадково згенерованими кімнатами з можливістю використовувати деякі зовнішні об'єкти (ящики, пересувні стіни, спеціальні пандуси), розкидані навколо, які можна було використовувати як для створення укриттів, так і для проникнення у них.

OpenAI навчає ІІ командній роботі у грі у хованки

Внаслідок тривалого процесу навчання ІІ-агенти освоїли шість унікальних стратегій, кожна з яких допомагала їм переходити до наступного етапу гри. Спочатку команди тих, хто шукає і ховається, просто тікали і переслідували одна одну, але після приблизно 25 мільйонів матчів команда тих, хто ховається, навчилися блокувати проходи коробками і будувати з них укриття. Після ще 75 мільйонів матчів команда тих, хто шукає, виявила способи використовувати пандуси, щоб проникати в ці укриття. Ще через 10 мільйонів раундів, що ховаються, навчилися відтягувати пандуси до краю ігрового майданчика і фіксувати їх на місці, щоб не дозволити противникам використовувати їх.

OpenAI навчає ІІ командній роботі у грі у хованки

Після 388 мільйонів матчів ті, хто шукає навчилися використовувати заблоковані пандуси, щоб піднятися на принесені до них ящики, а потім, переміщаючись прямо на них, проникати у створені з переносних стін укриття противників. І, нарешті, після 458 мільйонів матчів команда, що ховається, зробила висновок, що потрібно заблокувати взагалі всі об'єкти, а потім побудувати укриття, що і призвело, мабуть, до її остаточної перемоги.

Що особливо вражає, так це те, що вже після 22 мільйонів матчів агенти навчилися координувати свої дії і надалі ефективність їхньої спільної роботи тільки збільшувалася, наприклад, кожен приносив свою скриньку або стінку для створення укриття та вибирав свою частку об'єктів для блокування, щоб ускладнити гру супротивникам.

OpenAI навчає ІІ командній роботі у грі у хованки

Вчені також відзначили важливий момент, пов'язаний із впливом кількості тренувальних об'єктів (об'ємом пропускної через нейронну мережу даних - Batch Size) на швидкість навчання. Для моделі за умовчанням потрібно 132,3 мільйона матчів протягом 34 годин навчання, щоб досягти фази на якій команда, що ховається, навчилася блокувати пандуси, в той час як більший обсяг даних привів до помітного скорочення часу навчання. Наприклад, збільшення кількості параметрів (частини даних, отриманих протягом усього процесу навчання) з 0,5 млн до 5,8 млн підвищило ефективність вибірки в 2,2 рази, а збільшення розміру вхідних даних з 64 Кбайт до 128 Кбайт скоротило час навчання майже в півтора рази.

OpenAI навчає ІІ командній роботі у грі у хованки

Наприкінці своєї роботи дослідники вирішили перевірити, наскільки навчання у грі може допомогти агентам справлятися зі схожими завданнями поза грою. Усього тестів було п'ять: усвідомлення кількості об'єктів (розуміння, що об'єкт продовжує існувати, навіть якщо він знаходиться поза видимістю і не використовується); «заблокувати і повернутися» - здатність запам'ятати своє початкове становище та повернутися до нього після виконання будь-якої додаткової задачі; "послідовне блокування" - 4 ящики випадковим чином були розташовані в трьох кімнатах без дверей, але з пандусами для влучення всередину, агентам необхідно було знайти і заблокувати їх усі; розміщення ящиків на заздалегідь заданих майданчиках; створення укриття навколо об'єкта як циліндра.

В результаті в трьох з п'яти завдань боти, що пройшли попередню підготовку в грі, навчалися швидше і показали кращий результат, ніж ІІ, який навчався вирішення задач з нуля. Вони трохи краще впоралися з виконанням завдання та поверненням на початкову позицію, послідовним блокуванням ящиків у закритих кімнатах та з розміщенням ящиків на заданих майданчиках, але показали трохи слабший результат при усвідомленні кількості об'єктів та створенні укриття навколо іншого об'єкта.

Дослідники пояснюють неоднозначний результат у тому, як ІІ отримує і запам'ятовує певні навички. «Ми думаємо, що завдання, в яких попередня підготовка у грі показала кращий результат, пов'язані з повторним використанням раніше вивчених навичок звичним чином, у той час як для виконання завдань, що залишилися краще, ніж навчений з нуля ІІ, потрібно використання їх іншим чином, що набагато складніше», - пишуть співавтори роботи. «Цей результат наголошує на необхідності розробки методів ефективного повторного використання навичок, отриманих в результаті навчання при перенесенні їх з одного середовища в інше».

Пророблена робота справді вражають, оскільки перспектива використання цього методу навчання лежить далеко поза будь-яких ігор. Дослідники стверджують, що їхня робота є значним кроком до створення ІІ з «фізично обґрунтованою» та «людською» поведінкою, яка зможе діагностувати захворювання, передбачати структури складних білкових молекул та аналізувати комп'ютерну томографію.

На відео нижче ви можете наочно побачити, як проходив весь процес навчання, як ІІ навчався командній роботі, а його стратегії ставали дедалі хитрішими та складнішими.



Джерело: 3dnews.ru

Додати коментар або відгук