ІІ DeepMind Agent57 праходзіць гульні Atari лепш за чалавека

Прымусіць нейронавую сетку праходзіць нескладаныя відэагульні - ідэальны спосаб праверыць эфектыўнасць яе навучання дзякуючы простай магчымасці ацэньваць вынікі праходжання. Распрацаваны ў 2012 годзе кампаніяй DeepMind (частка холдынгу Alphabet) эталонны тэст з 57 кананічных гульняў Atari 2600 стаў лакмусавай паперкай для праверкі магчымасцяў саманавучальных сістэм. І вось Agent57, перадавы RL-агент (Reinforcement Learning – навучанне з падмацаваннем) DeepMind, на днях паказаў велізарны скок у параўнанні з папярэднімі сістэмамі і стаў першай ітэрацыяй ІІ, праўзыходнай базавыя паказчыкі гульца-чалавека.

ІІ DeepMind Agent57 праходзіць гульні Atari лепш за чалавека

ІІ Agent57 улічвае досвед папярэдніх сістэм кампаніі і аб'ядноўвае алгарытмы эфектыўнага даследавання асяроддзя з мета-кантролем. У прыватнасці, Agent57 даказаў свае звышчалавечыя навыкі ў Pitfall, Montezuma's Revenge, Solaris і Skiing – гульнях, якія былі сур'ёзным выпрабаваннем для папярэдніх нейросетей. Паводле вынікаў даследаванняў, для дасягнення лепшых вынікаў Pitfall і Montezuma's Revenge прымушаюць ІІ больш эксперыментаваць. Solaris і Skiing складаныя для нейросетей, таму што прыкмет поспеху не так шмат – ІІ на працягу доўгага часу не ведае, здзяйсняе ён правільныя дзеянні. DeepMind грунтавалася на сваіх старых агентах ІІ, каб Agent57 мог прымаць больш правільныя рашэнні ў дачыненні да даследавання асяроддзя і ацэнкі вынікаў праходжанне гульняў, а таксама аптымізаваць кампраміс паміж кароткатэрміновым і доўгатэрміновым паводзінамі ў такіх гульнях як Skiing.

Вынікі ўражваюць, але ІІ яшчэ трэба прайсці доўгі шлях. Гэтыя сістэмы могуць зладзіцца толькі з адной гульнёй за раз, што, па словах распрацоўнікаў, супярэчыць магчымасцям чалавека: "Сапраўдная гнуткасць, якая так лёгка даецца чалавечаму мозгу, усё яшчэ знаходзіцца за межамі дасяжнасці ІІ".



Крыніца: 3dnews.ru

Дадаць каментар