Хеј Хабр!
Не одлучујемо се често да овде постављамо преводе текстова старих две године, без шифре и очигледно академске природе – али данас ћемо направити изузетак. Надамо се да дилема постављена у наслову чланка забрињава многе наше читаоце, а већ сте прочитали фундаментални рад о еволуционим стратегијама са којим се овај пост расправља у оригиналу или ћете га сада прочитати. Добродошли у мачку!
У марту 2017, ОпенАИ је направио таласе у заједници дубоког учења са радом „
Еволуционе стратегије
Главна теза ОпенАИ документа је била да су, уместо да користе учење са појачањем у комбинацији са традиционалним пропагацијом уназад, успешно обучили неуронску мрежу да решава сложене проблеме користећи оно што су назвали „еволуционом стратегијом“ (ЕС). Овај ЕС приступ се састоји од одржавања дистрибуције тежине широм мреже, укључујући више агената који раде паралелно и користећи параметре одабране из ове дистрибуције. Сваки агент ради у свом окружењу, а по завршетку одређеног броја епизода или фаза епизоде, алгоритам враћа кумулативну награду, изражену као кондициони резултат. Узимајући ову вредност у обзир, дистрибуција параметара се може померити ка успешнијим агентима, лишавајући мање успешне. Понављањем такве операције милионима пута уз учешће стотина агената, могуће је померити дистрибуцију пондера на простор који ће омогућити агентима да формулишу висококвалитетну политику за решавање задатка који им је додељен. Заиста, резултати представљени у чланку су импресивни: показује се да ако паралелно водите хиљаду агената, онда се антропоморфна локомоција на две ноге може научити за мање од пола сата (док чак и најнапредније РЛ методе захтевају више трошења од једног сата на овоме). За детаљније информације препоручујем читање одличног
Различите стратегије за подучавање антропоморфног усправног хода, проучаване коришћењем ЕС методе из ОпенАИ.
Црна кутија
Велика предност ове методе је у томе што се може лако паралелизирати. Док РЛ методе, као што је А3Ц, захтевају да се информације размењују између радничких нити и сервера параметара, ЕС-у су потребне само процене способности и генерализоване информације о расподели параметара. Због ове једноставности ова метода је далеко испред савремених РЛ метода у погледу могућности скалирања. Међутим, све ово није узалуд: морате оптимизовати мрежу по принципу црне кутије. У овом случају, „црна кутија“ значи да се током тренинга потпуно игнорише унутрашња структура мреже, а користи се само укупан резултат (награда за епизоду) и од тога зависи да ли ће тежине одређене мреже наследити наредне генерације. У ситуацијама у којима не добијамо много повратних информација од околине — а у многим традиционалним РЛ проблемима проток награда је веома оскудан — проблем прелази из „делимично црне кутије“ у „потпуно црну кутију“. У овом случају можете значајно повећати продуктивност, тако да је, наравно, такав компромис оправдан. „Коме требају градијенти ако су ионако безнадежно бучни?“ - ово је опште мишљење.
Међутим, у ситуацијама када је повратна информација активнија, ствари почињу да иду наопако за ЕС. ОпенАИ тим описује како је једноставна МНИСТ мрежа за класификацију обучена помоћу ЕС-а, а овај пут је обука била 1000 пута спорија. Чињеница је да је градијент сигнал у класификацији слика изузетно информативан у погледу тога како научити мрежу бољој класификацији. Дакле, проблем је мањи са РЛ техником, а више са ретким наградама у окружењима која производе бучне градијенте.
Решење природе
Ако покушамо да учимо на примеру природе, размишљајући о начинима развоја АИ, онда се у неким случајевима АИ може сматрати
Испитујући интелектуално понашање сисара, видимо да је оно формирано као резултат сложеног међусобног утицаја два блиско повезана процеса: учење из туђих искустава и учење кроз рад. Прво се често поистовећује са еволуцијом вођеном природном селекцијом, али овде користим шири термин да узмем у обзир епигенетику, микробиоме и друге механизме који омогућавају размену искустава између генетски неповезаних организама. Други процес, учење из искуства, су све информације које животиња успе да научи током свог живота, а ове информације су директно одређене интеракцијом ове животиње са спољним светом. Ова категорија укључује све, од учења до препознавања објеката до овладавања комуникацијом својственом процесу учења.
Грубо говорећи, ова два процеса која се дешавају у природи могу се упоредити са две опције за оптимизацију неуронских мрежа. Еволуционе стратегије, где се информације о градијентима користе за ажурирање информација о организму, приближавају се учењу из искуства других. Слично, методе градијента, где стицање једног или другог искуства доводи до једне или друге промене у понашању агента, упоредиве су са учењем из сопственог искуства. Ако размислимо о типовима интелигентног понашања или способности које сваки од ова два приступа развија код животиња, поређење постаје израженије. У оба случаја, „еволуционе методе“ промовишу проучавање реактивног понашања које омогућава да се развије одређена кондиција (довољна да остане жив). Учење ходања или бекства из заточеништва у многим случајевима је еквивалентно „инстинктивнијем“ понашању које је „тврдо ожичено“ код многих животиња на генетском нивоу. Поред тога, овај пример потврђује да су еволуционе методе применљиве у случајевима када је сигнал награде изузетно редак (на пример, чињеница успешног подизања бебе). У таквом случају, немогуће је повезати награду са било којим одређеним скупом радњи које су можда биле извршене много година пре појаве ове чињенице. С друге стране, ако узмемо у обзир случај у којем ЕС не успе, а то је класификација слика, резултати су изузетно упоредиви са резултатима учења животиња постигнутим у небројеним бихејвиоралним психолошким експериментима спроведеним током више од 100 година.
Учење од животиња
Методе које се користе у учењу са поткрепљењем су у многим случајевима преузете директно из психолошке литературе надаље
Централна улога предвиђања у учењу из искуства мења горе описану динамику на значајан начин. Сигнал који се раније сматрао веома ретким (епизодична награда) испада веома густ. Теоретски, ситуација је отприлике оваква: у било ком тренутку, мозак сисара израчунава исходе на основу сложеног тока чулних стимулуса и акција, док је животиња једноставно уроњена у овај ток. У овом случају, коначно понашање животиње даје снажан сигнал који се мора користити за усмеравање корекције прогноза и развоја понашања. Мозак користи све ове сигнале како би оптимизовао прогнозе (и, сходно томе, квалитет предузетих акција) у будућности. Преглед овог приступа дат је у одличној књизи „
Богатија обука неуронских мрежа
Надовезујући се на принципе више неуронске активности својствене мозгу сисара, који је стално заузет предвиђањима, недавно је постигнут напредак у учењу са појачањем, које сада узима у обзир важност таквих предвиђања. Могу вам одмах препоручити два слична рада:
У оба ова рада, аутори допуњују типичну подразумевану политику својих неуронских мрежа резултатима предвиђања о стању животне средине у будућности. У првом чланку, предвиђање се примењује на различите мерне варијабле, ау другом предвиђање се примењује на промене у окружењу и понашању агента као таквог. У оба случаја, ретки сигнал повезан са позитивним појачањем постаје много богатији и информативнији, омогућавајући и брже учење и стицање сложенијих понашања. Таква побољшања су доступна само са методама које користе градијентни сигнал, а не са методама које раде на принципу „црне кутије“, као што је ЕС.
Поред тога, учење из искуства и методе градијента су много ефикасније. Чак иу случајевима када је било могуће проучавати одређени проблем користећи ЕС метод брже него коришћењем учења са појачањем, добитак је постигнут захваљујући чињеници да је ЕС стратегија укључивала много пута више података него код РЛ. Осврћући се у овом случају на принципе учења код животиња, примећујемо да се резултат учења на туђем примеру манифестује после много генерација, док је понекад довољан само један догађај који је сам доживео да животиња заувек научи лекцију. Док као
Па, зашто их не комбиновати?
Вероватно би велики део овог чланка могао оставити утисак да заговарам РЛ методе. Међутим, заправо мислим да је дугорочно најбоље решење комбиновати обе методе, тако да се свака користи у ситуацијама у којима је најприкладнија. Очигледно, у случају многих реактивних политика или у ситуацијама са врло ретким сигналима позитивног појачања, ЕС побеђује, посебно ако имате на располагању рачунарску снагу на којој можете да изводите масовно паралелно тренирање. С друге стране, методе градијента које користе учење са појачањем или учење под надзором биће корисне када имамо приступ опсежним повратним информацијама и када треба да научимо како да решимо проблем брзо и са мање података.
Окрећући се природи, налазимо да први метод, у суштини, поставља основу за други. Због тога су током еволуције сисари развили мозак који им омогућава да изузетно ефикасно уче из сложених сигнала који долазе из околине. Дакле, питање остаје отворено. Можда ће нам еволуционе стратегије помоћи да измислимо ефикасне архитектуре учења које ће такође бити корисне за методе учења са градијентом. На крају крајева, решење које је пронашла природа је заиста веома успешно.
Извор: ввв.хабр.цом