🥇Навучанне з падмацаваннем або эвалюцыйныя стратэгіі? - І тое, і іншае

Прывітанне, Хабр!

Мы нячаста вырашаемся размяшчаць тут пераклады тэкстаў двухгадовай даўніны, без кода і відавочна акадэмічнай накіраванасці - але сёння зробім выключэнне. Спадзяемся, што дылема, вынесеная ў загаловак артыкула, хвалюе шматлікіх нашых чытачоў, а фундаментальную працу аб эвалюцыйных стратэгіях, з якой палемізуе гэты пост, вы ўжо чыталі ў арыгінале ці прачытаеце цяпер. Сардэчна запрашаем пад кат!

У сакавіку 2017 года кампанія OpenAI нарабіла шуму ў супольнасці спецыялістаў па глыбокім навучанні, апублікаваўшы артыкул.Evolution Strategies as Scalable Alternative to Reinforcement Learning.” У гэтай працы былі апісаны ўражлівыя вынікі ў карысць таго, што на навучанні з падмацаваннем (RL) святло клінам не сышоўся, і пры навучанні складаных нейронавых сетак мэтазгодна паспрабаваць і іншыя метады. Тады разгарэлася дыскусія адносна важнасці навучання з падмацаваннем і аб тым, наколькі яно заслугоўвае статусу "абавязковай" тэхналогіі пры навучанні рашэнню задач. Тут я хачу выказацца пра тое, што не варта разглядаць дзве гэтыя тэхналогіі як канкуруючыя, адна з якіх адназначна лепшая за другую; наадварот, у канчатковым выніку яны дапаўняюць адзін аднаго. Сапраўды, калі крыху задумацца аб тым, што патрабуецца для стварэння агульнага ІІ і такіх сістэм, якія на працягу ўсяго існавання былі б здольныя да навучання, меркаванню і планаванню, то практычна напэўна мы прыйдзем да высновы, што для гэтага запатрабуецца тое ці іншае камбінаванае рашэнне. Дарэчы, менавіта да камбінаванага рашэння прыйшла прырода, якая надзеліла падчас эвалюцыі складаным інтэлектам сысуноў і іншых вышэйшых жывёл.

Эвалюцыйныя стратэгіі

Асноўная тэза артыкула OpenAI складалася ў тым, што замест выкарыстання навучання з падмацаваннем у спалучэнні з традыцыйным зваротным распаўсюджваннем яны паспяхова навучылі нейронавую сетку рашэнню складаных задач з ужываннем так званай «эвалюцыйнай стратэгіі» (ЭС). Такі ЭС-падыход складаецца ў падтрыманні размеркавання важніц значэнняў у маштабах сеткі, прычым задзейнічаецца мноства агентаў, якія працуюць раўналежна і выкарыстоўвалых параметры, абраныя з гэтага размеркавання. Кожны агент дзейнічае ва ўласным асяроддзі і па завяршэнні зададзенай колькасці эпізодаў або этапаў эпізоду алгарытму вяртаецца сукупнае ўзнагароджанне, якое выяўляецца як ацэнка прыдатнасці (fitness score). З улікам гэтага значэння размеркаванне параметраў можна ссоўваць у бок больш паспяховых агентаў, абдзяляючы меней паспяховых. Мільёны разоў паўтарыўшы такую аперацыю з удзелам сотняў агентаў, можна перамясціць размеркаванне шаляў у такую прастору, якое дазволіць сфармуляваць для агентаў якасную палітыку для рашэння пастаўленай перад імі задачы. Сапраўды, вынікі, прыведзеныя ў артыкуле, уражваюць: паказана, што, калі паралельна запусціць XNUMX агентаў, то антрапаморфнае перамяшчэнне на двух нагах можна вывучыць менш чым за паўгадзіны (тады як нават самыя прасунутыя метады RL патрабуюць выдаткаваць на гэта не адну гадзіну). Для больш падрабязнага азнаямлення рэкамендую пачытаць выдатны пост ад аўтараў эксперыменту, а таксама саму навуковы артыкул.

Розныя стратэгіі навучання антрапаморфнаму прамахаджэнню, вывучаныя метадам ЭС ад OpenAI.

Чорная скрыня

Велізарная карысць гэтага метаду складаецца ў тым, што ён лёгка распаралельваецца. У той час як метады RL, напрыклад, A3C, патрабуюць абменьвацца інфармацыяй паміж працоўнымі патокамі і серверам параметраў, ЭС мае патрэбу толькі ў ацэнках прыдатнасці і абагульненай інфармацыі аб размеркаванні параметраў. Менавіта дзякуючы такой прастаце дадзены метад далёка абыходзіць па магчымасцях маштабавання сучасныя метады RL. Аднак, усё гэта дастаецца не дарма: даводзіцца аптымізаваць сетку па прынцыпе чорнай скрыні. У дадзеным выпадку пад «чорнай скрыняй» разумеецца, што пры навучанні ўнутраная прылада сеткі цалкам ігнаруецца, а ў ход ідзе толькі агульны вынік (узнагароджанне за эпізод), і менавіта ад яго залежыць, ці будуць распаўсюджвацца вагі пэўнай сеткі ў спадчыну наступным пакаленням. У сітуацыях, калі мы не атрымліваем выяўленай зваротнай сувязі ад навакольнага асяроддзя, а пры рашэнні шматлікіх традыцыйных задач, злучаных з RL, струмень узнагарод вельмі разрэджаны праблема ператвараецца з збольшага чорнай скрыні ў цалкам чорная скрыня . У такім выпадку ўдаецца сур'ёзна павысіць прадукцыйнасць, таму, безумоўна, такі кампраміс апраўданы. "Каму патрэбны градыенты, калі яны ўсё роўна безнадзейна зашумлены?" - такое агульнае меркаванне.

Аднак, у сітуацыях, калі зваротная сувязь больш актыўная, справы ў ЭС пачынаюць разладжвацца. Каманда OpenAI апісвае, як пры дапамозе ЭС была навучана простая класіфікацыйная сетка MNIST, і на гэты раз навучанне прайшло ў 1000 разоў больш павольна. Справа ў тым, што градыентны сігнал пры класіфікацыі малюнкаў выключна інфарматыўны адносна таго, як навучыць сетку больш якаснай класіфікацыі. Такім чынам, праблема звязана не столькі з методыкай RL, колькі з разрэджанымі ўзнагародамі ў асяроддзі, якія даюць зашумленыя градыенты.

Рашэнне, знойдзенае прыродай

Калі спрабаваць вучыцца на прыкладзе прыроды, прадумваючы спосабы распрацоўкі ІІ, то ў некаторых выпадках ІІ можна ўявіць як праблемна-арыентаваны падыход. У рэшце рэшт, прырода дзейнічае ў рамках такіх абмежаванняў, якімі проста не размяшчаюць навукоўцы-інфарматыкі. Існуе меркаванне, што чыста тэарэтычны падыход да рашэння той ці іншай задачы можа даваць больш эфектыўныя рашэнні, чым эмпірычныя альтэрнатывы. Тым не менш, я ўсёткі лічу, што было б мэтазгодна праверыць, як дынамічная сістэма, якая дзейнічае ва ўмовах вызначаных абмежаванняў (Зямля) сфармавала агентаў (жывёл, у прыватнасці, сысуноў), здольных да гнуткіх і складаных паводзін. У той час як некаторыя з гэтых абмежаванняў непрымяняльныя ў змадэляваных светах навукі аб дадзеных, іншыя як раз вельмі добрыя.

Разгледзеўшы інтэлектуальныя паводзіны сысуноў, мы бачым, што яно фармуецца ў выніку складанага ўзаемаўплыву двух цесна ўзаемазлучаных працэсаў: навучання на чужым досведзе и навучання на ўласным досведзе. Першае часта атаясамліваецца з эвалюцыяй, абумоўленай натуральным адборам, але тут я ўжываю шырэйшы тэрмін, каб улічыць эпигенетику, мікрабіёмы і іншыя механізмы, якія забяспечваюць абмен досведам паміж арганізмамі, не роднаснымі адзін аднаму з генетычнага пункта гледжання. Другі працэс, навучанне на ўласным вопыце - гэта ўся інфармацыя, якую жывёла паспявае засвоіць на працягу жыцця, і дадзеная інфармацыя непасрэдна абумоўлена узаемадзеяннем гэтай жывёлы з навакольным светам. Да дадзенай катэгорыі адносіцца ўсё ад навучання распазнанню аб'ектаў да асвойвання камунікацыі, уласцівай навучальнаму працэсу.

Грубіянска кажучы, два гэтых працэсу, якія адбываюцца ў прыродзе, можна параўнаць з двума варыянтамі аптымізацыі нейронавых сетак. Эвалюцыйныя стратэгіі, дзе інфармацыя аб градыентах выкарыстоўваецца для абнаўлення інфармацыі аб арганізме, збліжаюцца з навучаннем на чужым досведзе. Аналагічна, градыентныя метады, дзе атрыманне таго ці іншага досведу прыводзіць да тых ці іншых змен у паводзінах агента, параўнальныя з навучаннем на ўласным досведзе. Калі задумацца аб разнавіднасцях інтэлектуальных паводзін або аб здольнасцях, якія развівае ў жывёл кожны з двух гэтых падыходаў, такое параўнанне атрымліваецца больш выяўленым. У абодвух выпадках "эвалюцыйныя метады" спрыяюць вывучэнню рэактыўных варыянтаў паводзін, якія дазваляюць развіць пэўную прыстасаванасць (дастатковую, каб застацца ў жывых). Навучанне хадзьбе ці ўцёкам з палону ў шматлікіх выпадках эквівалентна больш "інстынктыўным" варыянтам паводзін, "цвёрда прашытым" у шматлікіх жывёл на генетычным узроўні. Акрамя таго, дадзены прыклад пацвярджае, што эвалюцыйныя метады дастасавальныя ў выпадках, калі сігнал-ўзнагароджанне паступае выключна рэдка (такі, напрыклад, факт паспяховага выхавання дзіцяняці). У падобным выпадку немагчыма суаднесці ўзнагароду з нейкім канкрэтным наборам дзеянняў, якія, магчыма, здзяйсняліся за шмат гадоў да наступлення гэтага факта. З іншага боку, калі разгледзець выпадак, у якім ЭС адмаўляе, а менавіта - класіфікацыю выяў, то вынікі будуць выдатна супастаўныя з вынікамі навучання жывёл, дасягнутымі падчас незлічоных біхевіярысцкіх псіхалагічных эксперыментах, праведзеных за 100 з лішнім гадоў.

Навучанне ў жывёл

Метады, якія прымяняюцца пры навучанні з падмацаваннем, у многіх выпадках узяты непасрэдна з псіхалагічнай літаратуры аб аператыўным абумоўліванні, А аператыўнае абумоўліванне даследавалася на матэрыяле псіхалогіі жывёл. Дарэчы, Рычард Сатан, адзін з двух заснавальнікаў навучання з падмацаваннем, мае ступень бакалаўра па псіхалогіі. У кантэксце аператыўнага абумоўлівання жывёлы вучацца асацыяваць узнагароду або пакаранне з канкрэтнымі паводніцкімі патэрнамі. Дрэсіроўшчыкі і даследчыкі могуць тым ці іншым чынам маніпуляваць такой асацыяцыяй з узнагародай, правакуючы жывёл дэманстраваць кемлівасць або пэўныя варыянты паводзін. Аднак, аператыўнае абумоўліванне, якое ўжываецца пры даследаванні жывёл - ні што іншае, як больш выяўленая форма таго самага абумоўлівання, на базе якога жывёлы навучаюцца на працягу ўсяго жыцця. Мы ўвесь час атрымліваем ад навакольнага асяроддзя сігналы дадатнага падмацавання і якая адпавядае выявай карэктуем нашы паводзіны. На самай справе, многія нейрафізіялогіі і кагнітывісты мяркуюць, што на самой справе людзі і іншыя жывёлы дзейнічаюць нават на ўзровень вышэй і пастаянна вучацца прагназаваць вынікі сваіх паводзін у будучых сітуацыях, разлічваючы на патэнцыйнае ўзнагароджанне.

Цэнтральная роля прагназавання пры навучанні на ўласным досведзе самай істотнай выявай змяняе вышэйапісаную дынаміку. Той сігнал, які раней лічыўся вельмі разрэджаным (эпізадычная ўзнагарода) аказваецца вельмі шчыльным. Тэарэтычна сітуацыя прыкладна такая: у кожны момант часу мозг сысуна пралічвае вынікі на падставе складанага струменя сэнсарных стымулаў і дзеянняў, тады як жывёла проста пагружана ў гэты струмень. У такім выпадку выніковыя паводзіны жывёлы дае шчыльны сігнал, якім даводзіцца кіравацца пры карэктаванні прагнозаў і развіцці паводзін. Усе гэтыя сігналы мозг выкарыстоўвае для таго, каб аптымізаваць прагнозы (і, адпаведна, якасць здзяйсняных дзеянняў) у далейшым. Агляд гэтага падыходу даецца ў выдатнай кнізе.Surfing Uncertainty” кагнітывіста і філосафа Эндзі Кларка. Калі экстрапаляваць такія развагі на навучанне штучных агентаў, то ў навучанні з падмацаваннем выяўляецца фундаментальны недахоп: які выкарыстоўваецца ў гэтай парадыгме сігнал апыняецца безнадзейна слабы ў параўнанні з тым, які ён мог бы быць (ці павінен быць). У выпадках, калі павысіць насычанасць сігналу немагчыма (магчыма, паколькі ён па вызначэнні слабы, або звязаны з нізкаўзроўневай рэактыўнасцю) - верагодна, лепш аддаць перавагу такі метад навучання, які добра распаралельваецца, напрыклад, ЭС.

Больш насычанае навучанне нейронавых сетак

На аснове прынцыпаў вышэйшай нервовай дзейнасці, уласцівых мозгу млекакормячых, якія пастаянна занятаму прагназаваннем, у апошні час удалося дабіцца пэўных поспехаў у навучанні з падмацаваннем, якое цяпер улічвае важнасць такіх прагнозаў. З ходу магу парэкамендаваць вам дзве падобныя працы:

У абедзвюх гэтых артыкулах аўтары дапаўняюць тыповую палітыку сваіх нейронавых сетак, якая дзейнічае па змаўчанні, вынікамі прагнозаў, якія тычацца стану навакольнага асяроддзя ў будучыні. У першым артыкуле прагназаванне ўжываецца да мноства вымяральных зменных, а ў другой - змен у навакольным асяроддзі і паводзінах агента як такога. У абодвух выпадках разрэджаны сігнал, злучаны са станоўчым падмацаваннем, становіцца значна больш насычаным і інфарматыўным, забяспечваючы як паскоранае навучанне, так і засваенне больш складаных паводніцкіх мадэляў. Падобныя ўдасканаленні даступныя толькі пры працы з метадамі, якія выкарыстоўваюць градыентны сігнал, але не з метадамі, якія дзейнічаюць па прынцыпе «чорнай скрыні», як, напрыклад, ЭС.

Акрамя таго, навучанне на ўласным досведзе і градыентныя метады - значна больш эфектыўна. Нават у тых выпадках, калі вывучыць тую ці іншую праблему метадам ЭС атрымоўвалася хутчэй, чым з дапамогай навучання з падмацаваннем, выйгрыш дасягаўся за кошт таго, што ў ЭС-стратэгіі задзейнічалася ў шмат разоў больш дадзеных, чым пры RL. Разважаючы ў дадзеным выпадку аб прынцыпах навучання ў жывёл, адзначым, што вынік навучання на чужым прыкладзе выяўляецца праз мноства пакаленняў, тады як часам дастаткова адзінай падзеі, перажытага на ўласным досведзе, каб жывёла назаўжды засвоіла ўрок. У той час як падобнае навучанне без прыкладаў пакуль не цалкам упісваецца ў традыцыйныя градыентныя метады, яно значна больш даходліва, чым ЭС. Ёсць, напрыклад, такія падыходы, як нейронавы эпізадычны кантроль, дзе Q-значэнні захоўваюцца ў працэсе навучання, пасля чаго праграма звяраецца з імі перад тым, як здзяйсняць дзеянні. Атрымліваецца градыентны метад, які дазваляе навучыцца рашэнню задач значна хутчэй, чым раней. У артыкуле аб нейронавым эпізадычным кантролі аўтары згадваюць чалавечы гіпакампа, здольны захоўваць інфармацыю аб падзеі нават пасля аднойчы перажытага досведу і, такім чынам, гуляе крытычна важную ролю у працэсе ўспаміну. Такія механізмы патрабуюць доступу да ўнутранай арганізацыі агента, што таксама па вызначэнні немагчыма ў парадыгме ЭС.

Такім чынам, чаму б іх не сумясціць?

Верагодна, большая частка гэтага артыкула магла пакінуць такое ўражанне, як быццам у ім я адстойваю метады RL. Аднак, насамрэч я лічу, што ў доўгатэрміновай перспектыве найлепшым рашэннем будзе камбінацыя абодвух метадаў, каб кожны выкарыстоўваўся ў тых сітуацыях, у якіх ён лепш за ўсё падыходзіць. Відавочна, што ў выпадку шматлікіх рэактыўных палітык ці ў сітуацыях з вельмі разрэджанымі сігналамі дадатнага падмацавання ЭС выйграе, тым больш, калі ў вас у распараджэнні ёсць вылічальныя магутнасці, на якіх можна запускаць масава-раўналежнае навучанне. З іншага боку, градыентныя метады, якія выкарыстоўваюць навучанне з падмацаваннем ці навучанне з настаўнікам будуць карысныя, калі нам даступная шырокая зваротная сувязь, а рашэнню задачы патрабуецца навучыцца хутка і на меншай колькасці дадзеных.

Звярнуўшыся да прыроды, выявім, што першы метад, у сутнасці, закладвае аснову для другога. Менавіта таму падчас эвалюцыі сысуны развілі мозг, які дазваляе выключна эфектыўна вучыцца на матэрыяле складаных сігналаў, якія паступаюць з навакольнага асяроддзя. Так што пытанне застаецца адкрытым. Магчыма, эвалюцыйныя стратэгіі дапамогуць нам вынайсці эфектыўныя архітэктуры навучання, якія будуць карыснымі і для градыентных метадаў навучання. Бо рашэнне, знойдзенае прыродай, сапраўды вельмі ўдалае.

Крыніца: habr.com

Навучанне з падмацаваннем ці эвалюцыйныя стратэгіі? - І тое і іншае