Старая добрая гульня ў хованкі можа стаць выдатным выпрабаваннем для робатаў са штучным інтэлектам (ІІ), якія дазваляюць прадэманстраваць, як яны прымаюць рашэнні і ўзаемадзейнічаюць, як адзін з адным, так з рознымі навакольнымі аб'ектамі.
У сваёй
Навукоўцы выкарысталі ўжо даўно які заваяваў сваю славу метад
Для навучання ІІ гульні ў хованкі навукоўцы выкарыстоўвалі падыход, які называецца "ненакіраванае даследаванне" (Undirected exploration), які заключаецца ў тым, што агенты маюць поўную свабоду дзеянняў для развіцця свайго разумення гульнявога свету і распрацоўкі выйгрышных стратэгій. Гэта падобна на падыход да шматагентнага навучання, які ўжывалі даследнікі з DeepMind, калі некалькі сістэм штучнага інтэлекту
Пры гульні ў хованкі некалькім агентам, чыёй задачай было хавацца, было неабходна пазбягаць прамой лініі бачнасці супернікаў пасля невялікай форы ў часе, пакуль каманда якія шукаюць агентаў была абезрухомлена. Пры гэтым "лінія бачнасці" у дадзеным кантэксце ўяўляе сабой конус у 135 градусаў перад асобным ботам. Агенты не маглі выдаляцца занадта далёка за межы гульнявой пляцоўкі і былі вымушаны перамяшчацца па выпадкова згенераваным пакоях з магчымасцю выкарыстоўваць некаторыя знешнія аб'екты (скрыні, перасоўныя сцены, спецыяльныя пандусы), якія былі раскіданыя вакол, якія можна было выкарыстоўваць як для стварэння хованак, так і для пранікнення у іх.
У выніку доўгага працэсу навучання ІІ-агенты асвоілі шэсць унікальных стратэгій, кожная з якіх дапамагала ім пераходзіць да наступнага этапу гульні. Спачатку каманды тых, хто шукае і хаваецца, проста ўцякалі і пераследвалі адна адну, але пасля прыкладна 25 мільёнаў матчаў каманда тых, хто хаваецца, навучыліся блакіраваць праходы каробкамі і будаваць з іх сховішчы. Пасля яшчэ 75 мільёнаў матчаў каманда якія шукаюць выявіла спосабы выкарыстоўваць пандусы, каб пранікаць у гэтыя хованкі. Праз яшчэ 10 мільёнаў раўндаў якія хаваюцца навучыліся адцягваць пандусы да краю гульнявой пляцоўкі і фіксаваць іх на месцы, каб не дазволіць супернікам выкарыстоўваць іх.
Пасля 388 мільёнаў матчаў якія шукаюць навучыліся выкарыстоўваць заблакаваныя пандусы, каб падняцца на прынесеныя да іх скрыні, а затым, перамяшчаючыся прама на іх, пранікаць у створаныя з пераносных сцен хованкі супернікаў. І, нарэшце, пасля 458 мільёнаў матчаў якая хаваецца каманда зрабіла выснову, што трэба заблакаваць наогул усе аб'екты, а затым пабудаваць хованку, што і прывяло, па ўсёй бачнасці, да яе канчатковай перамогі.
Што асабліва ўражвае, дык гэта тое, што ўжо пасля 22 мільёна матчаў агенты навучыліся каардынаваць свае дзеянні і ў далейшым эфектыўнасць іх сумеснай працы толькі павялічвалася, напрыклад, кожны прыносіў сваю скрыню або сценку для стварэння хованкі і выбіраў сваю долю аб'ектаў для блакавання, каб ускладніць. гульню супернікам.
Навукоўцы таксама адзначылі важны момант, звязаны з уплывам колькасці трэніровачных аб'ектаў (аб'ёмам прапускаемай праз нейронавую сетку дадзеных – «Batch Size») на хуткасць навучання. Для мадэлі па змаўчанні патрабавалася 132,3 мільёна матчаў на працягу 34 гадзін навучання, каб дасягнуць фазы на якой хаваецца каманда навучылася блакаваць пандусы, у той час як большы большы аб'ём дадзеных прывёў да прыкметнага скарачэння часу навучання. Напрыклад, павелічэнне колькасці параметраў (часткі дадзеных, атрыманых на працягу ўсяго працэсу навучання) з 0,5 млн да 5,8 млн павысіла эфектыўнасць выбаркі ў 2,2 разы, а павелічэнне памеру ўваходных дадзеных у з 64 Кбайт да 128 Кбайт скараціла час навучання амаль у паўтара раза.
У канцы сваёй працы даследнікі вырашылі праверыць, наколькі навучанне ў гульні можа дапамагчы агентам спраўляцца са падобнымі задачамі па-за гульнёй. Усяго тэстаў было пяць: усведамленне колькасці аб'ектаў (разуменне, што аб'ект працягвае існаваць, нават калі ён знаходзіцца па-за бачнасцю і не выкарыстоўваецца); "заблакаваць і вярнуцца" - здольнасць запомніць сваё першапачатковае становішча і вярнуцца да яго пасля выканання якой-небудзь дадатковай задачы; "паслядоўная блакіроўка" - 4 скрыні выпадковым чынам былі размешчаны ў трох пакоях без дзвярэй, але з пандусамі для траплення ўнутр, агентам неабходна было знайсці і заблакаваць іх усе; размяшчэнне скрынь на загадзя зададзеных пляцоўках; стварэнне хованкі вакол аб'екта ў выглядзе цыліндру.
У выніку ў трох з пяці заданняў боты, якія прайшлі папярэднюю падрыхтоўку ў гульні, навучаліся хутчэй і паказалі лепшы вынік, чым ІІ, які навучаўся рашэнню задач з нуля. Яны крыху лепш справіліся з выкананнем задачы і вяртаннем на пачатковую пазіцыю, паслядоўнай блакіроўкай скрынь у закрытых пакоях і з размяшчэннем скрынь на зададзеных пляцоўках, але паказалі крыху больш слабы вынік пры ўсведамленні колькасці аб'ектаў і стварэнню хованкі вакол іншага аб'екта.
Даследчыкі тлумачаць неадназначныя вынікі ў тым, як ІІ атрымлівае і запамінае пэўныя навыкі. «Мы думаем, што задачы, у якіх папярэдняя падрыхтоўка ў гульні паказала лепшы вынік, звязаныя з паўторным выкарыстаннем раней вывучаных навыкаў звыклай выявай, у той час як для выканання пакінутых задач лепш, чым навучаны з нуля ІІ, запатрабуецца выкарыстанне іх іншай выявай, што нашмат складаней», - пішуць суаўтары працы. "Гэты вынік падкрэслівае неабходнасць распрацоўкі метадаў эфектыўнага паўторнага выкарыстання навыкаў атрыманых у выніку навучання пры пераносе іх з аднаго асяроддзя ў іншае".
Праведзеная праца сапраўды ўражваюць, бо далягляд выкарыстання дадзенага метаду навучання ляжыць далёка за мяжой якіх-небудзь гульняў. Даследнікі сцвярджаюць, што іх праца з'яўляецца значным крокам да стварэння ІІ з «фізічна абгрунтаванымі» і «чалавечымі» паводзінамі, які зможа дыягнаставаць захворванні, прадказваць структуры складаных бялковых малекул і аналізаваць кампутарную тамаграфію.
На відэа ніжэй вы можаце наглядна ўбачыць, як праходзіў увесь працэс навучання, як ІІ вучыўся каманднай працы, а яго стратэгіі станавіліся ўсё хітрэйшымі і складанымі.
Крыніца: 3dnews.ru