Засилено учење или еволутивни стратегии? - И двете

Еј Хабр!

Не често се одлучуваме да објавуваме овде преводи на текстови стари две години, без код и јасно од академска природа - но денес ќе направиме исклучок. Се надеваме дека дилемата поставена во насловот на статијата загрижува многу наши читатели, а вие веќе сте ја прочитале основната работа за еволутивните стратегии со кои се расправа овој пост во оригинал или ќе ја прочитате сега. Добредојдовте на мачката!

Засилено учење или еволутивни стратегии? - И двете

Во март 2017 година, OpenAI направи бранови во заедницата за длабоко учење со трудот „Стратегиите на еволуцијата како скалабилна алтернатива за засилено учење" Оваа работа опиша импресивни резултати во корист на фактот дека зајакнувачкото учење (RL) не стана клин, и кога тренирате сложени невронски мрежи, препорачливо е да се пробаат други методи. Потоа избувна дебата во врска со важноста на зајакнувачкото учење и колку е заслужен неговиот статус како „задолжителна“ технологија за предавање за решавање проблеми. Овде сакам да кажам дека овие две технологии не треба да се сметаат за конкурентни, од кои едната е очигледно подобра од другата; напротив, тие на крајот се надополнуваат еден со друг. Навистина, ако размислите малку за тоа што е потребно за да се создаде општа вештачка интелигенција и такви системи, кои во текот на своето постоење би биле способни за учење, расудување и планирање, тогаш речиси сигурно ќе дојдеме до заклучок дека ќе биде потребно ова или она комбинирано решение. Патем, токму до ова комбинирано решение дојде природата, која на цицачите и другите повисоки животни им дала сложена интелигенција во текот на еволуцијата.

Еволутивни стратегии

Главната теза на трудот OpenAI беше дека, наместо да користат зајакнувачко учење во комбинација со традиционално заднинско ширење, тие успешно обучија невронска мрежа за решавање на сложени проблеми користејќи ја она што тие го нарекуваа „еволутивна стратегија“ (ES). Овој ES пристап се состои од одржување на дистрибуција на тежини ширум мрежата, вклучувајќи повеќе агенти кои работат паралелно и користат параметри избрани од оваа дистрибуција. Секој агент работи во сопственото опкружување и по завршувањето на одреден број епизоди или фази од епизодата, алгоритмот враќа кумулативна награда, изразена како фитнес резултат. Земајќи ја предвид оваа вредност, распределбата на параметрите може да се префрли кон поуспешни агенти, лишувајќи ги помалку успешните. Со повторување на таква операција милиони пати со учество на стотици агенти, можно е да се премести распределбата на тежините во простор што ќе им овозможи на агентите да формулираат висококвалитетна политика за решавање на задачата што им е доделена. Навистина, резултатите презентирани во статијата се импресивни: се покажа дека ако водите илјада агенти паралелно, тогаш антропоморфната локомоција на две нозе може да се научи за помалку од половина час (додека дури и најнапредните RL методи бараат да се троши повеќе од еден час на ова). За подетални информации, препорачувам да ги прочитате одличните пост од авторите на експериментот, како и научна статија.

Засилено учење или еволутивни стратегии? - И двете

Различни стратегии за учење на антропоморфно исправено одење, проучувани со помош на методот ES од OpenAI.

Црна кутија

Големата придобивка од овој метод е тоа што може лесно да се паралелизира. Додека методите на RL, како што е A3C, бараат размена на информации помеѓу работните нишки и серверот за параметри, на ES му требаат само проценки за кондиција и генерализирани информации за дистрибуција на параметри. Поради оваа едноставност, овој метод е далеку понапред од современите RL методи во однос на способностите за скалирање. Сепак, сето ова не е залудно: мора да ја оптимизирате мрежата според принципот на црна кутија. Во овој случај, „црната кутија“ значи дека за време на обуката, внатрешната структура на мрежата е целосно игнорирана и се користи само целокупниот резултат (награда за епизодата) и од тоа зависи дали тежините на одредена мрежа ќе да бидат наследени од следните генерации. Во ситуации кога не добиваме многу повратни информации од околината - и во многу традиционални RL проблеми, протокот на награди е многу редок - проблемот оди од „делумно црна кутија“ до „целосно црна кутија“. Во овој случај, можете значително да ја зголемите продуктивноста, така што, се разбира, таков компромис е оправдан. „Кому му требаат градиенти ако и онака се безнадежно бучни? - ова е општото мислење.

Меѓутоа, во ситуации кога повратните информации се поактивни, работите почнуваат да одат наопаку за ES. Тимот на OpenAI опишува како едноставна мрежа за класификација MNIST била обучена со помош на ES, а овој пат обуката била 1000 пати побавна. Факт е дека сигналот за градиент во класификацијата на слики е исклучително информативен за тоа како да се научи мрежата за подобра класификација. Така, проблемот е помал со техниката RL, а повеќе со ретките награди во средини кои произведуваат бучни градиенти.

Решението на природата

Ако се обидеме да научиме од примерот на природата, размислувајќи за начините за развој на ВИ, тогаш во некои случаи вештачката интелигенција може да се смета како пристап ориентиран кон проблем. На крајот на краиштата, природата работи во рамките на ограничувањата што компјутерските научници едноставно ги немаат. Постои мислење дека чисто теоретски пристап за решавање на одреден проблем може да обезбеди поефикасни решенија од емпириските алтернативи. Сепак, сè уште мислам дека би било вредно да се тестира како динамичен систем кој работи под одредени ограничувања (Земјата) генерира агенти (животни, особено цицачи) способни за флексибилно и сложено однесување. Додека некои од овие ограничувања не се применуваат во симулираните светови на науката за податоци, други се во ред.

Откако го испитавме интелектуалното однесување на цицачите, гледаме дека тоа е формирано како резултат на сложеното взаемно влијание на два тесно поврзани процеси: учење од туѓите искуства и учење од правење. Првото често се поистоветува со еволуцијата поттикната од природната селекција, но овде користам поширок термин за да ги земам предвид епигенетиката, микробиомите и другите механизми кои овозможуваат споделување искуства помеѓу генетски неповрзани организми. Вториот процес, учење од искуство, се сите информации што животното успева да ги научи во текот на својот живот, а овие информации директно се одредуваат од интеракцијата на ова животно со надворешниот свет. Оваа категорија вклучува сè, од учење за препознавање предмети до совладување на комуникацијата својствена за процесот на учење.

Грубо кажано, овие два процеси кои се случуваат во природата може да се споредат со две опции за оптимизирање на невронските мрежи. Еволутивните стратегии, каде информациите за градиентите се користат за ажурирање на информациите за организмот, се блиску до учење од искуството на другите. Слично на тоа, градиентните методи, каде што стекнувањето на едно или друго искуство води до една или друга промена во однесувањето на агентот, се споредливи со учењето од сопственото искуство. Ако размислиме за видовите на интелигентно однесување или способности кои секој од овие два пристапи ги развива кај животните, споредбата станува поизразена. Во двата случаи, „еволутивните методи“ промовираат проучување на реактивни однесувања кои овозможуваат да се развие одредена кондиција (доволна за да се остане жив). Учењето да одите или да избегате од заробеништво во многу случаи е еквивалентно на повеќе „инстинктивни“ однесувања што се „тврдо поврзани“ кај многу животни на генетско ниво. Дополнително, овој пример потврдува дека еволутивните методи се применливи во случаи кога сигналот за награда е исклучително редок (на пример, фактот за успешно подигање бебе). Во таков случај, невозможно е да се поврзе наградата со некој специфичен збир на дејства што можеби биле извршени многу години пред да се појави овој факт. Од друга страна, ако земеме во предвид случај во кој ES не успева, имено класификацијата на слики, резултатите се неверојатно споредливи со резултатите од учењето на животните постигнати во безброј бихејвиорални психолошки експерименти спроведени повеќе од 100 години.

Учење од животните

Методите што се користат во засилено учење во многу случаи се преземени директно од психолошката литература за оперативно уредување, а оперантното уредување беше проучено користејќи ја животинската психологија. Инаку, Ричард Сатон, еден од двајцата основачи на засилено учење, има диплома по психологија. Во контекст на оперативното условување, животните учат да ја поврзуваат наградата или казната со специфични модели на однесување. Обучувачите и истражувачите можат да манипулираат со оваа асоцијација за награда на еден или друг начин, провоцирајќи ги животните да покажат интелигенција или одредени однесувања. Меѓутоа, оперантното условување, како што се користи во истражувањето на животните, не е ништо повеќе од поизразена форма на истото условување врз основа на кое животните учат во текот на нивниот живот. Постојано добиваме сигнали за позитивно засилување од околината и соодветно го прилагодуваме нашето однесување. Всушност, многу невронаучници и когнитивни научници веруваат дека луѓето и другите животни всушност работат на уште повисоко ниво и постојано учат да го предвидат исходот од нивното однесување во идни ситуации врз основа на потенцијалните награди.

Централната улога на предвидувањето во учењето од искуството ја менува динамиката опишана погоре на значителни начини. Сигналот кој претходно се сметаше за многу редок (епизодна награда) се покажува како многу густ. Теоретски, ситуацијата е отприлика вака: во секое време, мозокот на цицачот ги пресметува резултатите врз основа на комплексен тек на сетилни дразби и дејства, додека животното едноставно е потопено во овој тек. Во овој случај, конечното однесување на животното дава силен сигнал кој мора да се користи за да го води прилагодувањето на предвидувањата и развојот на однесувањето. Мозокот ги користи сите овие сигнали со цел да ги оптимизира предвидувањата (и, соодветно, квалитетот на преземените активности) во иднина. Преглед на овој пристап е даден во одличната книга „Несигурност за сурфањеКогнитивниот научник и филозоф Енди Кларк. Ако ваквото расудување го екстраполираме на обуката на вештачки агенси, тогаш се открива фундаментална маана во учењето за зајакнување: сигналот што се користи во оваа парадигма е безнадежно слаб во споредба со она што би можело да биде (или треба да биде). Во случаи кога е невозможно да се зголеми заситеноста на сигналот (можеби затоа што е инхерентно слаба или поврзана со реактивност на ниско ниво), веројатно е подобро да се претпочита метод за обука што е добро паралелизиран, на пример, ES.

Побогата обука на невронски мрежи

Надоврзувајќи се на принципите на повисока нервна активност својствена за мозокот на цицачите, кој е постојано зафатен со предвидувања, неодамнешниот напредок е направен во учењето за зајакнување, што сега ја зема предвид важноста на таквите предвидувања. Можам веднаш да ви препорачам две слични дела:

Во двата труда, авторите ја дополнуваат типичната стандардна политика на нивните невронски мрежи со резултати од предвидување за состојбата на животната средина во иднина. Во првата статија, предвидувањето се применува на различни мерни променливи, а во втората, предвидувањето се применува на промените во околината и однесувањето на агентот како таков. Во двата случаи, реткиот сигнал поврзан со позитивното засилување станува многу побогат и поинформативен, овозможувајќи и побрзо учење и стекнување посложени однесувања. Ваквите подобрувања се достапни само со методи кои користат сигнал за градиент, а не со методи кои работат на принципот „црна кутија“, како што е ES.

Покрај тоа, учењето од искуство и методите на градиент се многу поефикасни. Дури и во случаите кога беше можно да се проучи одреден проблем со користење на методот ES побрзо отколку со користење на засилено учење, добивката беше постигната поради фактот што стратегијата ES вклучува многу пати повеќе податоци отколку со RL. Размислувајќи во овој случај за принципите на учење кај животните, забележуваме дека резултатот од учењето од туѓ пример се манифестира по многу генерации, додека понекогаш само еден настан доживеан сам по себе е доволен за животното да ја научи лекцијата засекогаш. Додека како обука без примери Иако не се вклопува сосема во традиционалните методи на градиент, тој е многу поразбирлив од ES. Постојат, на пример, пристапи како што се нервна епизодна контрола, каде што се чуваат Q-вредностите за време на обуката, по што програмата ги проверува пред да преземе активности. Резултатот е метод на градиент кој ви овозможува да научите како да ги решавате проблемите многу побрзо од порано. Во една статија за нервната епизодна контрола, авторите го споменуваат човечкиот хипокампус, кој е способен да задржи информации за некој настан дури и по едно искуство и, според тоа, игра критична улога во процесот на паметење. Таквите механизми бараат пристап до внатрешната организација на агентот, што исто така, по дефиниција, е невозможно во парадигмата ES.

Па, зошто да не ги комбинирате?

Веројатно е дека голем дел од оваа статија може да остави впечаток дека ги застапувам методите на RL. Сепак, всушност мислам дека долгорочно најдобро решение е да се комбинираат двата методи, така што секој да се користи во ситуациите во кои најдобро одговара. Очигледно, во случај на многу реактивни политики или во ситуации со многу ретки сигнали за позитивно засилување, ES победува, особено ако ја имате на располагање компјутерската моќ на која можете да извршите масовно паралелно тренирање. Од друга страна, методите за градиент кои користат засилено учење или надгледувано учење ќе бидат корисни кога имаме пристап до опсежни повратни информации и треба да научиме како да го решиме проблемот брзо и со помалку податоци.

Осврнувајќи се на природата, откриваме дека првиот метод, во суштина, ги поставува темелите за вториот. Ова е причината зошто, во текот на еволуцијата, цицачите развија мозоци кои им овозможуваат исклучително ефикасно да учат од сложените сигнали кои доаѓаат од околината. Значи, прашањето останува отворено. Можеби еволутивните стратегии ќе ни помогнат да измислиме ефективни архитектури за учење кои исто така ќе бидат корисни за методите за учење на градиент. На крајот на краиштата, решението пронајдено по природа е навистина многу успешно.

Извор: www.habr.com

Додадете коментар