Прывітанне, Хабр!
Мы нячаста вырашаемся размяшчаць тут пераклады тэкстаў двухгадовай даўніны, без кода і відавочна акадэмічнай накіраванасці - але сёння зробім выключэнне. Спадзяемся, што дылема, вынесеная ў загаловак артыкула, хвалюе шматлікіх нашых чытачоў, а фундаментальную працу аб эвалюцыйных стратэгіях, з якой палемізуе гэты пост, вы ўжо чыталі ў арыгінале ці прачытаеце цяпер. Сардэчна запрашаем пад кат!
У сакавіку 2017 года кампанія OpenAI нарабіла шуму ў супольнасці спецыялістаў па глыбокім навучанні, апублікаваўшы артыкул.
Эвалюцыйныя стратэгіі
Асноўная тэза артыкула OpenAI складалася ў тым, што замест выкарыстання навучання з падмацаваннем у спалучэнні з традыцыйным зваротным распаўсюджваннем яны паспяхова навучылі нейронавую сетку рашэнню складаных задач з ужываннем так званай «эвалюцыйнай стратэгіі» (ЭС). Такі ЭС-падыход складаецца ў падтрыманні размеркавання важніц значэнняў у маштабах сеткі, прычым задзейнічаецца мноства агентаў, якія працуюць раўналежна і выкарыстоўвалых параметры, абраныя з гэтага размеркавання. Кожны агент дзейнічае ва ўласным асяроддзі і па завяршэнні зададзенай колькасці эпізодаў або этапаў эпізоду алгарытму вяртаецца сукупнае ўзнагароджанне, якое выяўляецца як ацэнка прыдатнасці (fitness score). З улікам гэтага значэння размеркаванне параметраў можна ссоўваць у бок больш паспяховых агентаў, абдзяляючы меней паспяховых. Мільёны разоў паўтарыўшы такую аперацыю з удзелам сотняў агентаў, можна перамясціць размеркаванне шаляў у такую прастору, якое дазволіць сфармуляваць для агентаў якасную палітыку для рашэння пастаўленай перад імі задачы. Сапраўды, вынікі, прыведзеныя ў артыкуле, уражваюць: паказана, што, калі паралельна запусціць XNUMX агентаў, то антрапаморфнае перамяшчэнне на двух нагах можна вывучыць менш чым за паўгадзіны (тады як нават самыя прасунутыя метады RL патрабуюць выдаткаваць на гэта не адну гадзіну). Для больш падрабязнага азнаямлення рэкамендую пачытаць выдатны
Розныя стратэгіі навучання антрапаморфнаму прамахаджэнню, вывучаныя метадам ЭС ад OpenAI.
Чорная скрыня
Велізарная карысць гэтага метаду складаецца ў тым, што ён лёгка распаралельваецца. У той час як метады RL, напрыклад, A3C, патрабуюць абменьвацца інфармацыяй паміж працоўнымі патокамі і серверам параметраў, ЭС мае патрэбу толькі ў ацэнках прыдатнасці і абагульненай інфармацыі аб размеркаванні параметраў. Менавіта дзякуючы такой прастаце дадзены метад далёка абыходзіць па магчымасцях маштабавання сучасныя метады RL. Аднак, усё гэта дастаецца не дарма: даводзіцца аптымізаваць сетку па прынцыпе чорнай скрыні. У дадзеным выпадку пад «чорнай скрыняй» разумеецца, што пры навучанні ўнутраная прылада сеткі цалкам ігнаруецца, а ў ход ідзе толькі агульны вынік (узнагароджанне за эпізод), і менавіта ад яго залежыць, ці будуць распаўсюджвацца вагі пэўнай сеткі ў спадчыну наступным пакаленням. У сітуацыях, калі мы не атрымліваем выяўленай зваротнай сувязі ад навакольнага асяроддзя, а пры рашэнні шматлікіх традыцыйных задач, злучаных з RL, струмень узнагарод вельмі разрэджаны праблема ператвараецца з збольшага чорнай скрыні ў цалкам чорная скрыня . У такім выпадку ўдаецца сур'ёзна павысіць прадукцыйнасць, таму, безумоўна, такі кампраміс апраўданы. "Каму патрэбны градыенты, калі яны ўсё роўна безнадзейна зашумлены?" - такое агульнае меркаванне.
Аднак, у сітуацыях, калі зваротная сувязь больш актыўная, справы ў ЭС пачынаюць разладжвацца. Каманда OpenAI апісвае, як пры дапамозе ЭС была навучана простая класіфікацыйная сетка MNIST, і на гэты раз навучанне прайшло ў 1000 разоў больш павольна. Справа ў тым, што градыентны сігнал пры класіфікацыі малюнкаў выключна інфарматыўны адносна таго, як навучыць сетку больш якаснай класіфікацыі. Такім чынам, праблема звязана не столькі з методыкай RL, колькі з разрэджанымі ўзнагародамі ў асяроддзі, якія даюць зашумленыя градыенты.
Рашэнне, знойдзенае прыродай
Калі спрабаваць вучыцца на прыкладзе прыроды, прадумваючы спосабы распрацоўкі ІІ, то ў некаторых выпадках ІІ можна ўявіць як
Разгледзеўшы інтэлектуальныя паводзіны сысуноў, мы бачым, што яно фармуецца ў выніку складанага ўзаемаўплыву двух цесна ўзаемазлучаных працэсаў: навучання на чужым досведзе и навучання на ўласным досведзе. Першае часта атаясамліваецца з эвалюцыяй, абумоўленай натуральным адборам, але тут я ўжываю шырэйшы тэрмін, каб улічыць эпигенетику, мікрабіёмы і іншыя механізмы, якія забяспечваюць абмен досведам паміж арганізмамі, не роднаснымі адзін аднаму з генетычнага пункта гледжання. Другі працэс, навучанне на ўласным вопыце - гэта ўся інфармацыя, якую жывёла паспявае засвоіць на працягу жыцця, і дадзеная інфармацыя непасрэдна абумоўлена узаемадзеяннем гэтай жывёлы з навакольным светам. Да дадзенай катэгорыі адносіцца ўсё ад навучання распазнанню аб'ектаў да асвойвання камунікацыі, уласцівай навучальнаму працэсу.
Грубіянска кажучы, два гэтых працэсу, якія адбываюцца ў прыродзе, можна параўнаць з двума варыянтамі аптымізацыі нейронавых сетак. Эвалюцыйныя стратэгіі, дзе інфармацыя аб градыентах выкарыстоўваецца для абнаўлення інфармацыі аб арганізме, збліжаюцца з навучаннем на чужым досведзе. Аналагічна, градыентныя метады, дзе атрыманне таго ці іншага досведу прыводзіць да тых ці іншых змен у паводзінах агента, параўнальныя з навучаннем на ўласным досведзе. Калі задумацца аб разнавіднасцях інтэлектуальных паводзін або аб здольнасцях, якія развівае ў жывёл кожны з двух гэтых падыходаў, такое параўнанне атрымліваецца больш выяўленым. У абодвух выпадках "эвалюцыйныя метады" спрыяюць вывучэнню рэактыўных варыянтаў паводзін, якія дазваляюць развіць пэўную прыстасаванасць (дастатковую, каб застацца ў жывых). Навучанне хадзьбе ці ўцёкам з палону ў шматлікіх выпадках эквівалентна больш "інстынктыўным" варыянтам паводзін, "цвёрда прашытым" у шматлікіх жывёл на генетычным узроўні. Акрамя таго, дадзены прыклад пацвярджае, што эвалюцыйныя метады дастасавальныя ў выпадках, калі сігнал-ўзнагароджанне паступае выключна рэдка (такі, напрыклад, факт паспяховага выхавання дзіцяняці). У падобным выпадку немагчыма суаднесці ўзнагароду з нейкім канкрэтным наборам дзеянняў, якія, магчыма, здзяйсняліся за шмат гадоў да наступлення гэтага факта. З іншага боку, калі разгледзець выпадак, у якім ЭС адмаўляе, а менавіта - класіфікацыю выяў, то вынікі будуць выдатна супастаўныя з вынікамі навучання жывёл, дасягнутымі падчас незлічоных біхевіярысцкіх псіхалагічных эксперыментах, праведзеных за 100 з лішнім гадоў.
Навучанне ў жывёл
Метады, якія прымяняюцца пры навучанні з падмацаваннем, у многіх выпадках узяты непасрэдна з псіхалагічнай літаратуры аб
Цэнтральная роля прагназавання пры навучанні на ўласным досведзе самай істотнай выявай змяняе вышэйапісаную дынаміку. Той сігнал, які раней лічыўся вельмі разрэджаным (эпізадычная ўзнагарода) аказваецца вельмі шчыльным. Тэарэтычна сітуацыя прыкладна такая: у кожны момант часу мозг сысуна пралічвае вынікі на падставе складанага струменя сэнсарных стымулаў і дзеянняў, тады як жывёла проста пагружана ў гэты струмень. У такім выпадку выніковыя паводзіны жывёлы дае шчыльны сігнал, якім даводзіцца кіравацца пры карэктаванні прагнозаў і развіцці паводзін. Усе гэтыя сігналы мозг выкарыстоўвае для таго, каб аптымізаваць прагнозы (і, адпаведна, якасць здзяйсняных дзеянняў) у далейшым. Агляд гэтага падыходу даецца ў выдатнай кнізе.
Больш насычанае навучанне нейронавых сетак
На аснове прынцыпаў вышэйшай нервовай дзейнасці, уласцівых мозгу млекакормячых, якія пастаянна занятаму прагназаваннем, у апошні час удалося дабіцца пэўных поспехаў у навучанні з падмацаваннем, якое цяпер улічвае важнасць такіх прагнозаў. З ходу магу парэкамендаваць вам дзве падобныя працы:
У абедзвюх гэтых артыкулах аўтары дапаўняюць тыповую палітыку сваіх нейронавых сетак, якая дзейнічае па змаўчанні, вынікамі прагнозаў, якія тычацца стану навакольнага асяроддзя ў будучыні. У першым артыкуле прагназаванне ўжываецца да мноства вымяральных зменных, а ў другой - змен у навакольным асяроддзі і паводзінах агента як такога. У абодвух выпадках разрэджаны сігнал, злучаны са станоўчым падмацаваннем, становіцца значна больш насычаным і інфарматыўным, забяспечваючы як паскоранае навучанне, так і засваенне больш складаных паводніцкіх мадэляў. Падобныя ўдасканаленні даступныя толькі пры працы з метадамі, якія выкарыстоўваюць градыентны сігнал, але не з метадамі, якія дзейнічаюць па прынцыпе «чорнай скрыні», як, напрыклад, ЭС.
Акрамя таго, навучанне на ўласным досведзе і градыентныя метады - значна больш эфектыўна. Нават у тых выпадках, калі вывучыць тую ці іншую праблему метадам ЭС атрымоўвалася хутчэй, чым з дапамогай навучання з падмацаваннем, выйгрыш дасягаўся за кошт таго, што ў ЭС-стратэгіі задзейнічалася ў шмат разоў больш дадзеных, чым пры RL. Разважаючы ў дадзеным выпадку аб прынцыпах навучання ў жывёл, адзначым, што вынік навучання на чужым прыкладзе выяўляецца праз мноства пакаленняў, тады як часам дастаткова адзінай падзеі, перажытага на ўласным досведзе, каб жывёла назаўжды засвоіла ўрок. У той час як падобнае
Такім чынам, чаму б іх не сумясціць?
Верагодна, большая частка гэтага артыкула магла пакінуць такое ўражанне, як быццам у ім я адстойваю метады RL. Аднак, насамрэч я лічу, што ў доўгатэрміновай перспектыве найлепшым рашэннем будзе камбінацыя абодвух метадаў, каб кожны выкарыстоўваўся ў тых сітуацыях, у якіх ён лепш за ўсё падыходзіць. Відавочна, што ў выпадку шматлікіх рэактыўных палітык ці ў сітуацыях з вельмі разрэджанымі сігналамі дадатнага падмацавання ЭС выйграе, тым больш, калі ў вас у распараджэнні ёсць вылічальныя магутнасці, на якіх можна запускаць масава-раўналежнае навучанне. З іншага боку, градыентныя метады, якія выкарыстоўваюць навучанне з падмацаваннем ці навучанне з настаўнікам будуць карысныя, калі нам даступная шырокая зваротная сувязь, а рашэнню задачы патрабуецца навучыцца хутка і на меншай колькасці дадзеных.
Звярнуўшыся да прыроды, выявім, што першы метад, у сутнасці, закладвае аснову для другога. Менавіта таму падчас эвалюцыі сысуны развілі мозг, які дазваляе выключна эфектыўна вучыцца на матэрыяле складаных сігналаў, якія паступаюць з навакольнага асяроддзя. Так што пытанне застаецца адкрытым. Магчыма, эвалюцыйныя стратэгіі дапамогуць нам вынайсці эфектыўныя архітэктуры навучання, якія будуць карыснымі і для градыентных метадаў навучання. Бо рашэнне, знойдзенае прыродай, сапраўды вельмі ўдалае.
Крыніца: habr.com