OpenAI навучае ІІ каманднай працы ў гульні ў хованкі

Старая добрая гульня ў хованкі можа стаць выдатным выпрабаваннем для робатаў са штучным інтэлектам (ІІ), якія дазваляюць прадэманстраваць, як яны прымаюць рашэнні і ўзаемадзейнічаюць, як адзін з адным, так з рознымі навакольнымі аб'ектамі.

У сваёй новым артыкуле, апублікаванай даследнікамі з некамерцыйнай арганізацыі OpenAI, якая займаецца даследаваннямі ў вобласці штучнага інтэлекту і якая праславілася перамогай над чэмпіёнамі свету у кампутарнай гульні Dota 2, навукоўцы апісваюць як агенты, кантраляваныя штучным інтэлектам, навучаліся як дасканалей шукаць і хавацца сябар ад сябра ў віртуальным асяроддзі. Вынікі даследавання прадэманстравалі, што каманда з двух робатаў навучаецца больш эфектыўна і хутчэй, чым любы асобны агент без саюзнікаў.

OpenAI навучае ІІ каманднай працы ў гульні ў хованкі

Навукоўцы выкарысталі ўжо даўно які заваяваў сваю славу метад машыннага навучання з падмацаваннем, у якім штучны інтэлект змяшчаецца ў невядомае яму асяроддзе, маючы пры гэтым пэўныя спосабы ўзаемадзеяння з ёй, а таксама сістэму ўзнагарод і штрафаў за той ці іншы вынік сваіх дзеянняў. Дадзены метад досыць эфектыўны дзякуючы магчымасцям ІІ выконваць розныя дзеянні ў віртуальным асяроддзі з велізарнай хуткасцю, у мільёны разоў хутчэй, чым можа ўявіць чалавек. Гэта дазваляе метадам спроб і памылак знайсці найболей эфектыўныя стратэгіі для рашэння пастаўленай задачы. Але ў дадзенага падыходу таксама ёсць некаторыя абмежаванні, напрыклад, стварэнне асяроддзя і правядзенне шматлікіх цыклаў навучання патрабуе велізарных вылічальных рэсурсаў, а сам працэс мае патрэбу ў дакладнай сістэме супастаўлення вынікаў дзеянняў ІІ з пастаўленай яму мэтай. Акрамя таго, набытыя агентам такім чынам навыкі абмежаваны апісанай задачай і, як толькі ІІ навучыцца з ёю спраўляцца, ніякіх паляпшэнняў большай ужо не будзе.

Для навучання ІІ гульні ў хованкі навукоўцы выкарыстоўвалі падыход, які называецца "ненакіраванае даследаванне" (Undirected exploration), які заключаецца ў тым, што агенты маюць поўную свабоду дзеянняў для развіцця свайго разумення гульнявога свету і распрацоўкі выйгрышных стратэгій. Гэта падобна на падыход да шматагентнага навучання, які ўжывалі даследнікі з DeepMind, калі некалькі сістэм штучнага інтэлекту былі навучаны гуляць у рэжыме "захоп сцяга" у гульні Quake III Arena. Як і ў гэтым выпадку, агенты ІІ не былі загадзя навучаны правілам гульні, але з часам яны вывучылі базавыя стратэгіі і нават змаглі здзівіць даследчыкаў нетрывіяльным рашэннямі.

Пры гульні ў хованкі некалькім агентам, чыёй задачай было хавацца, было неабходна пазбягаць прамой лініі бачнасці супернікаў пасля невялікай форы ў часе, пакуль каманда якія шукаюць агентаў была абезрухомлена. Пры гэтым "лінія бачнасці" у дадзеным кантэксце ўяўляе сабой конус у 135 градусаў перад асобным ботам. Агенты не маглі выдаляцца занадта далёка за межы гульнявой пляцоўкі і былі вымушаны перамяшчацца па выпадкова згенераваным пакоях з магчымасцю выкарыстоўваць некаторыя знешнія аб'екты (скрыні, перасоўныя сцены, спецыяльныя пандусы), якія былі раскіданыя вакол, якія можна было выкарыстоўваць як для стварэння хованак, так і для пранікнення у іх.

OpenAI навучае ІІ каманднай працы ў гульні ў хованкі

У выніку доўгага працэсу навучання ІІ-агенты асвоілі шэсць унікальных стратэгій, кожная з якіх дапамагала ім пераходзіць да наступнага этапу гульні. Спачатку каманды тых, хто шукае і хаваецца, проста ўцякалі і пераследвалі адна адну, але пасля прыкладна 25 мільёнаў матчаў каманда тых, хто хаваецца, навучыліся блакіраваць праходы каробкамі і будаваць з іх сховішчы. Пасля яшчэ 75 мільёнаў матчаў каманда якія шукаюць выявіла спосабы выкарыстоўваць пандусы, каб пранікаць у гэтыя хованкі. Праз яшчэ 10 мільёнаў раўндаў якія хаваюцца навучыліся адцягваць пандусы да краю гульнявой пляцоўкі і фіксаваць іх на месцы, каб не дазволіць супернікам выкарыстоўваць іх.

OpenAI навучае ІІ каманднай працы ў гульні ў хованкі

Пасля 388 мільёнаў матчаў якія шукаюць навучыліся выкарыстоўваць заблакаваныя пандусы, каб падняцца на прынесеныя да іх скрыні, а затым, перамяшчаючыся прама на іх, пранікаць у створаныя з пераносных сцен хованкі супернікаў. І, нарэшце, пасля 458 мільёнаў матчаў якая хаваецца каманда зрабіла выснову, што трэба заблакаваць наогул усе аб'екты, а затым пабудаваць хованку, што і прывяло, па ўсёй бачнасці, да яе канчатковай перамогі.

Што асабліва ўражвае, дык гэта тое, што ўжо пасля 22 мільёна матчаў агенты навучыліся каардынаваць свае дзеянні і ў далейшым эфектыўнасць іх сумеснай працы толькі павялічвалася, напрыклад, кожны прыносіў сваю скрыню або сценку для стварэння хованкі і выбіраў сваю долю аб'ектаў для блакавання, каб ускладніць. гульню супернікам.

OpenAI навучае ІІ каманднай працы ў гульні ў хованкі

Навукоўцы таксама адзначылі важны момант, звязаны з уплывам колькасці трэніровачных аб'ектаў (аб'ёмам прапускаемай праз нейронавую сетку дадзеных – «Batch Size») на хуткасць навучання. Для мадэлі па змаўчанні патрабавалася 132,3 мільёна матчаў на працягу 34 гадзін навучання, каб дасягнуць фазы на якой хаваецца каманда навучылася блакаваць пандусы, у той час як большы большы аб'ём дадзеных прывёў да прыкметнага скарачэння часу навучання. Напрыклад, павелічэнне колькасці параметраў (часткі дадзеных, атрыманых на працягу ўсяго працэсу навучання) з 0,5 млн да 5,8 млн павысіла эфектыўнасць выбаркі ў 2,2 разы, а павелічэнне памеру ўваходных дадзеных у з 64 Кбайт да 128 Кбайт скараціла час навучання амаль у паўтара раза.

OpenAI навучае ІІ каманднай працы ў гульні ў хованкі

У канцы сваёй працы даследнікі вырашылі праверыць, наколькі навучанне ў гульні можа дапамагчы агентам спраўляцца са падобнымі задачамі па-за гульнёй. Усяго тэстаў было пяць: усведамленне колькасці аб'ектаў (разуменне, што аб'ект працягвае існаваць, нават калі ён знаходзіцца па-за бачнасцю і не выкарыстоўваецца); "заблакаваць і вярнуцца" - здольнасць запомніць сваё першапачатковае становішча і вярнуцца да яго пасля выканання якой-небудзь дадатковай задачы; "паслядоўная блакіроўка" - 4 скрыні выпадковым чынам былі размешчаны ў трох пакоях без дзвярэй, але з пандусамі для траплення ўнутр, агентам неабходна было знайсці і заблакаваць іх усе; размяшчэнне скрынь на загадзя зададзеных пляцоўках; стварэнне хованкі вакол аб'екта ў выглядзе цыліндру.

У выніку ў трох з пяці заданняў боты, якія прайшлі папярэднюю падрыхтоўку ў гульні, навучаліся хутчэй і паказалі лепшы вынік, чым ІІ, які навучаўся рашэнню задач з нуля. Яны крыху лепш справіліся з выкананнем задачы і вяртаннем на пачатковую пазіцыю, паслядоўнай блакіроўкай скрынь у закрытых пакоях і з размяшчэннем скрынь на зададзеных пляцоўках, але паказалі крыху больш слабы вынік пры ўсведамленні колькасці аб'ектаў і стварэнню хованкі вакол іншага аб'екта.

Даследчыкі тлумачаць неадназначныя вынікі ў тым, як ІІ атрымлівае і запамінае пэўныя навыкі. «Мы думаем, што задачы, у якіх папярэдняя падрыхтоўка ў гульні паказала лепшы вынік, звязаныя з паўторным выкарыстаннем раней вывучаных навыкаў звыклай выявай, у той час як для выканання пакінутых задач лепш, чым навучаны з нуля ІІ, запатрабуецца выкарыстанне іх іншай выявай, што нашмат складаней», - пішуць суаўтары працы. "Гэты вынік падкрэслівае неабходнасць распрацоўкі метадаў эфектыўнага паўторнага выкарыстання навыкаў атрыманых у выніку навучання пры пераносе іх з аднаго асяроддзя ў іншае".

Праведзеная праца сапраўды ўражваюць, бо далягляд выкарыстання дадзенага метаду навучання ляжыць далёка за мяжой якіх-небудзь гульняў. Даследнікі сцвярджаюць, што іх праца з'яўляецца значным крокам да стварэння ІІ з «фізічна абгрунтаванымі» і «чалавечымі» паводзінамі, які зможа дыягнаставаць захворванні, прадказваць структуры складаных бялковых малекул і аналізаваць кампутарную тамаграфію.

На відэа ніжэй вы можаце наглядна ўбачыць, як праходзіў увесь працэс навучання, як ІІ вучыўся каманднай працы, а яго стратэгіі станавіліся ўсё хітрэйшымі і складанымі.



Крыніца: 3dnews.ru

Дадаць каментар