🥇Учење са појачањем или еволуционе стратегије? — Оба

Хеј Хабр!

Не одлучујемо се често да овде постављамо преводе текстова старих две године, без шифре и очигледно академске природе – али данас ћемо направити изузетак. Надамо се да дилема постављена у наслову чланка забрињава многе наше читаоце, а већ сте прочитали фундаментални рад о еволуционим стратегијама са којим се овај пост расправља у оригиналу или ћете га сада прочитати. Добродошли у мачку!

У марту 2017, ОпенАИ је направио таласе у заједници дубоког учења са радом „Стратегије еволуције као скалабилна алтернатива учењу са појачањем" Овај рад је описао импресивне резултате у прилог чињеници да учење са појачањем (РЛ) није постало клин, а када се тренирају сложене неуронске мреже, препоручљиво је испробати друге методе. Тада је избила дебата о важности учења са појачањем и о томе колико заслужује свој статус технологије која се мора имати за решавање проблема у настави. Овде желим да кажем да ове две технологије не треба сматрати конкурентним, од којих је једна очигледно боља од друге; напротив, они се на крају међусобно допуњују. Заиста, ако мало размислите шта је потребно за стварање генерал АИ и таквих система, који би током свог постојања били способни за учење, расуђивање и планирање, онда ћемо готово сигурно доћи до закључка да ће бити потребно ово или оно комбиновано решење. Иначе, до овог комбинованог решења дошла је природа, која је током еволуције сисаре и друге више животиње обдарила сложеном интелигенцијом.

Еволуционе стратегије

Главна теза ОпенАИ документа је била да су, уместо да користе учење са појачањем у комбинацији са традиционалним пропагацијом уназад, успешно обучили неуронску мрежу да решава сложене проблеме користећи оно што су назвали „еволуционом стратегијом“ (ЕС). Овај ЕС приступ се састоји од одржавања дистрибуције тежине широм мреже, укључујући више агената који раде паралелно и користећи параметре одабране из ове дистрибуције. Сваки агент ради у свом окружењу, а по завршетку одређеног броја епизода или фаза епизоде, алгоритам враћа кумулативну награду, изражену као кондициони резултат. Узимајући ову вредност у обзир, дистрибуција параметара се може померити ка успешнијим агентима, лишавајући мање успешне. Понављањем такве операције милионима пута уз учешће стотина агената, могуће је померити дистрибуцију пондера на простор који ће омогућити агентима да формулишу висококвалитетну политику за решавање задатка који им је додељен. Заиста, резултати представљени у чланку су импресивни: показује се да ако паралелно водите хиљаду агената, онда се антропоморфна локомоција на две ноге може научити за мање од пола сата (док чак и најнапредније РЛ методе захтевају више трошења од једног сата на овоме). За детаљније информације препоручујем читање одличног брзо од аутора експеримента, као и научни чланак.

Различите стратегије за подучавање антропоморфног усправног хода, проучаване коришћењем ЕС методе из ОпенАИ.

Црна кутија

Велика предност ове методе је у томе што се може лако паралелизирати. Док РЛ методе, као што је А3Ц, захтевају да се информације размењују између радничких нити и сервера параметара, ЕС-у су потребне само процене способности и генерализоване информације о расподели параметара. Због ове једноставности ова метода је далеко испред савремених РЛ метода у погледу могућности скалирања. Међутим, све ово није узалуд: морате оптимизовати мрежу по принципу црне кутије. У овом случају, „црна кутија“ значи да се током тренинга потпуно игнорише унутрашња структура мреже, а користи се само укупан резултат (награда за епизоду) и од тога зависи да ли ће тежине одређене мреже наследити наредне генерације. У ситуацијама у којима не добијамо много повратних информација од околине — а у многим традиционалним РЛ проблемима проток награда је веома оскудан — проблем прелази из „делимично црне кутије“ у „потпуно црну кутију“. У овом случају можете значајно повећати продуктивност, тако да је, наравно, такав компромис оправдан. „Коме требају градијенти ако су ионако безнадежно бучни?“ - ово је опште мишљење.

Међутим, у ситуацијама када је повратна информација активнија, ствари почињу да иду наопако за ЕС. ОпенАИ тим описује како је једноставна МНИСТ мрежа за класификацију обучена помоћу ЕС-а, а овај пут је обука била 1000 пута спорија. Чињеница је да је градијент сигнал у класификацији слика изузетно информативан у погледу тога како научити мрежу бољој класификацији. Дакле, проблем је мањи са РЛ техником, а више са ретким наградама у окружењима која производе бучне градијенте.

Решење природе

Ако покушамо да учимо на примеру природе, размишљајући о начинима развоја АИ, онда се у неким случајевима АИ може сматрати проблемски оријентисан приступ. На крају крајева, природа функционише у оквиру ограничења која компјутерски научници једноставно немају. Постоји мишљење да чисто теоријски приступ решавању одређеног проблема може да пружи ефикаснија решења од емпиријских алтернатива. Ипак, и даље мислим да би било вредно тестирати како је динамички систем који ради под одређеним ограничењима (Земља) створио агенте (животиње, посебно сисаре) способне за флексибилно и сложено понашање. Док се нека од ових ограничења не примењују у симулираним световима науке о подацима, друга су сасвим у реду.

Испитујући интелектуално понашање сисара, видимо да је оно формирано као резултат сложеног међусобног утицаја два блиско повезана процеса: учење из туђих искустава и учење кроз рад. Прво се често поистовећује са еволуцијом вођеном природном селекцијом, али овде користим шири термин да узмем у обзир епигенетику, микробиоме и друге механизме који омогућавају размену искустава између генетски неповезаних организама. Други процес, учење из искуства, су све информације које животиња успе да научи током свог живота, а ове информације су директно одређене интеракцијом ове животиње са спољним светом. Ова категорија укључује све, од учења до препознавања објеката до овладавања комуникацијом својственом процесу учења.

Грубо говорећи, ова два процеса која се дешавају у природи могу се упоредити са две опције за оптимизацију неуронских мрежа. Еволуционе стратегије, где се информације о градијентима користе за ажурирање информација о организму, приближавају се учењу из искуства других. Слично, методе градијента, где стицање једног или другог искуства доводи до једне или друге промене у понашању агента, упоредиве су са учењем из сопственог искуства. Ако размислимо о типовима интелигентног понашања или способности које сваки од ова два приступа развија код животиња, поређење постаје израженије. У оба случаја, „еволуционе методе“ промовишу проучавање реактивног понашања које омогућава да се развије одређена кондиција (довољна да остане жив). Учење ходања или бекства из заточеништва у многим случајевима је еквивалентно „инстинктивнијем“ понашању које је „тврдо ожичено“ код многих животиња на генетском нивоу. Поред тога, овај пример потврђује да су еволуционе методе применљиве у случајевима када је сигнал награде изузетно редак (на пример, чињеница успешног подизања бебе). У таквом случају, немогуће је повезати награду са било којим одређеним скупом радњи које су можда биле извршене много година пре појаве ове чињенице. С друге стране, ако узмемо у обзир случај у којем ЕС не успе, а то је класификација слика, резултати су изузетно упоредиви са резултатима учења животиња постигнутим у небројеним бихејвиоралним психолошким експериментима спроведеним током више од 100 година.

Учење од животиња

Методе које се користе у учењу са поткрепљењем су у многим случајевима преузете директно из психолошке литературе надаље оперантно условљавање, а оперантно условљавање је проучавано коришћењем психологије животиња. Иначе, Ричард Сатон, један од двојице оснивача учења са појачањем, дипломирао је психологију. У контексту оперантног условљавања, животиње уче да повезују награду или казну са специфичним обрасцима понашања. Тренери и истраживачи могу манипулисати овом асоцијацијом за награду на овај или онај начин, провоцирајући животиње да покажу интелигенцију или одређена понашања. Међутим, оперантно условљавање, како се користи у истраживању животиња, није ништа друго до израженији облик истог условљавања на основу којег животиње уче током свог живота. Стално добијамо сигнале позитивног поткрепљења из околине и у складу са тим прилагођавамо своје понашање. У ствари, многи неуронаучници и когнитивни научници верују да људи и друге животиње заправо раде на још вишем нивоу и стално уче да предвиђају исход свог понашања у будућим ситуацијама на основу потенцијалних награда.

Централна улога предвиђања у учењу из искуства мења горе описану динамику на значајан начин. Сигнал који се раније сматрао веома ретким (епизодична награда) испада веома густ. Теоретски, ситуација је отприлике оваква: у било ком тренутку, мозак сисара израчунава исходе на основу сложеног тока чулних стимулуса и акција, док је животиња једноставно уроњена у овај ток. У овом случају, коначно понашање животиње даје снажан сигнал који се мора користити за усмеравање корекције прогноза и развоја понашања. Мозак користи све ове сигнале како би оптимизовао прогнозе (и, сходно томе, квалитет предузетих акција) у будућности. Преглед овог приступа дат је у одличној књизи „Сурфинг Унцертаинти” когнитивни научник и филозоф Енди Кларк. Ако такво резоновање екстраполирамо на обуку вештачких агената, онда се открива фундаментална грешка у учењу појачања: сигнал који се користи у овој парадигми је безнадежно слаб у поређењу са оним што би могао бити (или би требало да буде). У случајевима када је немогуће повећати засићење сигнала (можда зато што је инхерентно слаб или повезан са реактивношћу ниског нивоа), вероватно је боље дати предност методи обуке која је добро паралелна, на пример, ЕС.

Богатија обука неуронских мрежа

Надовезујући се на принципе више неуронске активности својствене мозгу сисара, који је стално заузет предвиђањима, недавно је постигнут напредак у учењу са појачањем, које сада узима у обзир важност таквих предвиђања. Могу вам одмах препоручити два слична рада:

У оба ова рада, аутори допуњују типичну подразумевану политику својих неуронских мрежа резултатима предвиђања о стању животне средине у будућности. У првом чланку, предвиђање се примењује на различите мерне варијабле, ау другом предвиђање се примењује на промене у окружењу и понашању агента као таквог. У оба случаја, ретки сигнал повезан са позитивним појачањем постаје много богатији и информативнији, омогућавајући и брже учење и стицање сложенијих понашања. Таква побољшања су доступна само са методама које користе градијентни сигнал, а не са методама које раде на принципу „црне кутије“, као што је ЕС.

Поред тога, учење из искуства и методе градијента су много ефикасније. Чак иу случајевима када је било могуће проучавати одређени проблем користећи ЕС метод брже него коришћењем учења са појачањем, добитак је постигнут захваљујући чињеници да је ЕС стратегија укључивала много пута више података него код РЛ. Осврћући се у овом случају на принципе учења код животиња, примећујемо да се резултат учења на туђем примеру манифестује после много генерација, док је понекад довољан само један догађај који је сам доживео да животиња заувек научи лекцију. Док као обука без примера Иако се не уклапа сасвим у традиционалне методе градијента, много је разумљивији од ЕС-а. Постоје, на пример, приступи као нпр неурална епизодна контрола, где се К-вредности чувају током процеса обуке, након чега их програм проверава пре предузимања радњи. Резултат је метода градијента која вам омогућава да научите како да решавате проблеме много брже него раније. У чланку о неуралној епизодној контроли, аутори помињу људски хипокампус, који је способан да задржи информације о догађају чак и након једног искуства и, стога, игра Критична улога у процесу памћења. Такви механизми захтевају приступ унутрашњој организацији агента, што је такође, по дефиницији, немогуће у ЕС парадигми.

Па, зашто их не комбиновати?

Вероватно би велики део овог чланка могао оставити утисак да заговарам РЛ методе. Међутим, заправо мислим да је дугорочно најбоље решење комбиновати обе методе, тако да се свака користи у ситуацијама у којима је најприкладнија. Очигледно, у случају многих реактивних политика или у ситуацијама са врло ретким сигналима позитивног појачања, ЕС побеђује, посебно ако имате на располагању рачунарску снагу на којој можете да изводите масовно паралелно тренирање. С друге стране, методе градијента које користе учење са појачањем или учење под надзором биће корисне када имамо приступ опсежним повратним информацијама и када треба да научимо како да решимо проблем брзо и са мање података.

Окрећући се природи, налазимо да први метод, у суштини, поставља основу за други. Због тога су током еволуције сисари развили мозак који им омогућава да изузетно ефикасно уче из сложених сигнала који долазе из околине. Дакле, питање остаје отворено. Можда ће нам еволуционе стратегије помоћи да измислимо ефикасне архитектуре учења које ће такође бити корисне за методе учења са градијентом. На крају крајева, решење које је пронашла природа је заиста веома успешно.

Извор: ввв.хабр.цом

Учење са појачањем или еволуционе стратегије? - И једно и друго