ІІ DeepMind Agent57 проходить ігри Atari краще за людину

Змусити нейронну мережу проходити нескладні відеоігри - ідеальний спосіб перевірити ефективність навчання завдяки простій можливості оцінювати результати проходження. Розроблений в 2012 році компанією DeepMind (частина холдингу Alphabet) еталонний тест з 57 канонічних ігор Atari 2600 став лакмусовим папірцем для перевірки можливостей систем, що самонавчаються. І ось Agent57, передовий RL-агент (Reinforcement Learning - навчання з підкріпленням) DeepMind, днями показав Великий стрибок у порівнянні з попередніми системами і став першою ітерацією ІІ, що перевершує базові показники гравця-людини.

ІІ DeepMind Agent57 проходить ігри Atari краще за людину

ІІ Agent57 враховує досвід попередніх систем компанії та поєднує алгоритми ефективного дослідження середовища з мета-контролем. Зокрема, Agent57 довів свої надлюдські навички у Pitfall, Montezuma's Revenge, Solaris та Skiing - іграх, які були серйозним випробуванням для попередніх нейромереж. Згідно з результатами досліджень, для досягнення кращих результатів Pitfall та Montezuma's Revenge змушують ІІ більше експериментувати. Solaris і Skiing складні для нейромереж, тому що ознак успіху не так багато - ІІ протягом тривалого часу не знає, чи він робить правильні дії. DeepMind ґрунтувалася на своїх старих агентах ІІ, щоб Agent57 міг приймати більш правильні рішення щодо дослідження середовища та оцінки результатів проходження ігор, а також оптимізувати компроміс між короткостроковою та довгостроковою поведінкою у таких іграх як Skiing.

Результати вражають, але ІІ ще доведеться пройти довгий шлях. Ці системи можуть впоратися тільки з однією грою за раз, що, за словами розробників, суперечить можливостям людини: «Справжня гнучкість, яка так легко дається людському мозку, все ще перебуває поза досяжністю ІІ».



Джерело: 3dnews.ru

Додати коментар або відгук