🥇Оқытуды күшейту немесе эволюциялық стратегиялар? — Екеуі де

Эй Хабр!

Біз мұнда екі жыл бұрынғы, коды жоқ және анық академиялық сипаттағы мәтіндердің аудармаларын жиі жариялауды шешпейміз, бірақ бүгін біз ерекшелік жасаймыз. Мақаланың атауында туындаған дилемма көптеген оқырмандарымызды алаңдатады деп үміттенеміз және сіз бұл пост түпнұсқада талқыланатын эволюциялық стратегиялар туралы іргелі жұмысты оқыдыңыз немесе оны қазір оқисыз. Мысыққа қош келдіңіз!

2017 жылдың наурызында OpenAI «қағазымен терең білім беру қоғамдастығында толқындар жасады.Эволюциялық стратегиялар күшейтілген оқытуға масштабталатын балама ретінде" Бұл жұмыс күшейтілген оқытудың (RL) сынаға айналмағаны және күрделі нейрондық желілерді жаттықтыру кезінде басқа әдістерді қолданып көрген жөн екендігінің пайдасына әсерлі нәтижелерді сипаттады. Одан кейін күшейтілген оқытудың маңыздылығы және оның проблеманы шешуге үйретудің «болуы керек» технологиясы мәртебесіне қаншалықты лайық екендігі туралы пікірталас басталды. Бұл жерде мен бұл екі технологияны бәсекелес деп санауға болмайтынын айтқым келеді, олардың біреуі екіншісінен жақсырақ; керісінше, олар түптеп келгенде бірін-бірі толықтырады. Шынында да, егер сіз оны жасау үшін не қажет екендігі туралы аздап ойласаңыз жалпы AI және мұндай жүйелер, олар өмір бойы үйренуге, пайымдауға және жоспарлауға қабілетті болса, онда біз осы немесе басқа аралас шешім қажет болады деген қорытындыға келетініміз анық. Айтпақшы, эволюция барысында сүтқоректілерге және басқа да жоғары жануарларға күрделі интеллект берген табиғат дәл осы біріктірілген шешім болды.

Эволюциялық стратегиялар

OpenAI жұмысының негізгі тезисі дәстүрлі кері таралумен біріктірілген күшейтілген оқытуды пайдаланудың орнына, олар «эволюциялық стратегия» (ES) деп аталатын нәрсені пайдаланып күрделі мәселелерді шешу үшін нейрондық желіні сәтті оқытты. Бұл ES тәсілі параллель жұмыс істейтін бірнеше агенттерді қамтитын және осы бөлуден таңдалған параметрлерді қолданатын салмақтардың желі бойынша таралуын қолдаудан тұрады. Әрбір агент өз ортасында жұмыс істейді және эпизодтың белгілі бір саны немесе кезеңдері аяқталғаннан кейін, алгоритм фитнес ұпайы ретінде көрсетілген жиынтық сыйақыны қайтарады. Осы мәнді ескере отырып, параметрлерді бөлуді сәтті емес агенттерден айыру арқылы неғұрлым табысты агенттерге ауыстыруға болады. Жүздеген агенттердің қатысуымен мұндай операцияны миллиондаған рет қайталау арқылы салмақтарды бөлуді агенттерге жүктелген тапсырманы шешу үшін жоғары сапалы саясатты құруға мүмкіндік беретін кеңістікке жылжытуға болады. Шынында да, мақалада келтірілген нәтижелер әсерлі: егер сіз мың агентті параллель орындасаңыз, онда екі аяқтағы антропоморфтық қозғалысты жарты сағаттан аз уақыт ішінде үйренуге болатыны көрсетілген (бұл ең озық RL әдістерінің өзі көп шығынды қажет етеді) бір сағаттан артық). Толық ақпарат алу үшін мен тамаша оқуды ұсынамын пошта эксперимент авторларынан, сондай-ақ ғылыми мақала.

OpenAI-дан ES әдісі арқылы зерттелген антропоморфты тік жүруді үйретудің әртүрлі стратегиялары.

Қара қорап

Бұл әдістің үлкен артықшылығы - оны оңай параллельдеуге болады. A3C сияқты RL әдістері жұмысшы ағындары мен параметр сервері арасында ақпарат алмасуды талап етсе, ES тек жарамдылық бағалаулары мен жалпыланған параметрді тарату ақпаратын қажет етеді. Дәл осы қарапайымдылыққа байланысты бұл әдіс масштабтау мүмкіндіктері бойынша қазіргі заманғы RL әдістерінен әлдеқайда алда. Дегенмен, мұның бәрі бекер емес: желіні қара жәшік принципі бойынша оңтайландыру керек. Бұл жағдайда «қара жәшік» жаттығу кезінде желінің ішкі құрылымы толығымен еленбейді және тек жалпы нәтиже (эпизод үшін сыйақы) пайдаланылады және белгілі бір желінің салмақтары соған байланысты болады. кейінгі ұрпақтарға мұра болады. Біз қоршаған ортадан көп кері байланыс ала алмайтын жағдайларда (және көптеген дәстүрлі RL мәселелерінде сыйақылар ағыны өте сирек) мәселе «жартылай қара жәшік» болудан «толығымен қара жәшікке» дейін барады. Бұл жағдайда сіз өнімділікті айтарлықтай арттыра аласыз, сондықтан, әрине, мұндай ымыраға келу орынды. «Егер олар үмітсіз шулы болса, градиенттер кімге керек?» – бұл жалпы пікір.

Дегенмен, кері байланыс белсендірек болған жағдайда, ES үшін бәрі дұрыс емес бола бастайды. OpenAI командасы қарапайым MNIST жіктеу желісінің ES көмегімен қалай оқытылғанын сипаттайды және бұл жолы оқыту 1000 есе баяу болды. Кескінді жіктеудегі градиент сигналы желіні жақсырақ жіктеуді қалай үйретуге қатысты өте ақпараттандыратыны факт. Осылайша, мәселе RL техникасында азырақ және шулы градиенттерді шығаратын орталарда сирек марапаттармен көбірек.

Табиғат шешімі

Егер біз AI-ны дамыту жолдарын ойластырып, табиғаттың мысалынан үйренуге тырысатын болсақ, онда кейбір жағдайларда AI ретінде қарастыруға болады. проблемаға бағытталған көзқарас. Өйткені, табиғат компьютер ғалымдарында жоқ шектеулер аясында әрекет етеді. Белгілі бір мәселені шешуге таза теориялық көзқарас эмпирикалық баламаларға қарағанда тиімдірек шешімдерді бере алады деген пікір бар. Дегенмен, мен әлі де белгілі бір шектеулер (Жер) жағдайында жұмыс істейтін динамикалық жүйенің икемді және күрделі мінез-құлыққа қабілетті агенттерді (жануарлар, әсіресе сүтқоректілер) қалай тудырғанын тексеру орынды болар еді деп ойлаймын. Бұл шектеулердің кейбіреулері деректер ғылымының модельденген әлемдерінде қолданылмаса да, басқалары жақсы.

Сүтқоректілердің интеллектуалдық мінез-құлқын зерттей отырып, оның өзара тығыз байланысты екі процестің күрделі өзара әсерінің нәтижесінде қалыптасқанын көреміз: басқалардың тәжірибесінен үйрену и жасай отырып үйрену. Біріншісі көбінесе табиғи сұрыпталу нәтижесіндегі эволюциямен теңестіріледі, бірақ мен бұл жерде мен эпигенетиканы, микробиомаларды және генетикалық байланысы жоқ организмдер арасында тәжірибе алмасуға мүмкіндік беретін басқа механизмдерді есепке алу үшін кеңірек терминді қолданамын. Екінші процесс, тәжірибеден үйрену, жануардың өмір бойы меңгере алатын барлық ақпараты және бұл ақпарат осы жануардың сыртқы әлеммен өзара әрекеттесуімен тікелей анықталады. Бұл категорияға объектілерді тануды үйренуден бастап оқу процесіне тән қарым-қатынасты меңгеруге дейінгі барлық нәрсе кіреді.

Бір сөзбен айтқанда, табиғатта болатын бұл екі процесті нейрондық желілерді оңтайландырудың екі нұсқасымен салыстыруға болады. Ағза туралы ақпаратты жаңарту үшін градиенттер туралы ақпарат пайдаланылатын эволюциялық стратегиялар басқалардың тәжірибесінен үйренуге жақындайды. Сол сияқты, бір немесе басқа тәжірибе алу агенттің мінез-құлқындағы сол немесе басқа өзгерістерге әкелетін градиенттік әдістерді өз тәжірибесінен үйренумен салыстыруға болады. Осы екі тәсілдің әрқайсысы жануарларда дамитын интеллектуалды мінез-құлық немесе қабілет түрлері туралы ойласақ, салыстыру айқынырақ болады. Екі жағдайда да «эволюциялық әдістер» адамның белгілі бір фитнесті (тірі қалу үшін жеткілікті) дамытуға мүмкіндік беретін реактивті мінез-құлықты зерттеуге ықпал етеді. Жаяу жүруді немесе тұтқындаудан қашуды үйрену көптеген жағдайларда генетикалық деңгейде көптеген жануарларда «қатты сымды» болатын «инстинктивті» мінез-құлыққа баламалы. Сонымен қатар, бұл мысал марапаттау сигналы өте сирек кездесетін жағдайларда (мысалы, нәрестені сәтті тәрбиелеу фактісі) эволюциялық әдістерді қолдануға болатынын растайды. Мұндай жағдайда сыйақыны осы факті пайда болғанға дейін көптеген жылдар бұрын орындалған әрекеттердің нақты жиынтығымен салыстыру мүмкін емес. Екінші жағынан, егер ES сәтсіз болған жағдайды, атап айтқанда кескін классификациясын қарастыратын болсақ, нәтижелер 100-ден астам жылдар бойы жүргізілген сансыз мінез-құлық психологиялық эксперименттерінде қол жеткізілген жануарларды үйрену нәтижелерімен керемет салыстырылады.

Жануарлардан үйрену

Оқытуды бекітуде қолданылатын әдістер көп жағдайда тікелей психологиялық әдебиеттерден алынады оперантты кондициялау, ал оперантты кондиция жануарлар психологиясы арқылы зерттелді. Айтпақшы, Ричард Саттон, күшейтілген оқытудың екі негізін қалаушылардың бірі, психология бакалавры дәрежесіне ие. Оперативті кондиция контекстінде жануарлар марапатты немесе жазаны белгілі бір мінез-құлық үлгілерімен байланыстыруды үйренеді. Жаттықтырушылар мен зерттеушілер жануарларды ақыл-ойды немесе белгілі бір мінез-құлықтарды көрсетуге арандата отырып, бұл марапаттау қауымдастығын бір жолмен басқара алады. Дегенмен, жануарларды зерттеуде қолданылатын оперантты кондициялау, жануарлар өмір бойы үйренетін бірдей кондицияның неғұрлым айқын формасынан басқа ештеңе емес. Біз үнемі қоршаған ортадан позитивті күшейту сигналдарын аламыз және соған сәйкес мінез-құлқымызды реттейміз. Шындығында, көптеген неврологтар мен когнитивті ғалымдар адамдар мен басқа жануарлар шын мәнінде одан да жоғары деңгейде жұмыс істейді және ықтимал сыйақыларға негізделген болашақ жағдайларда өз мінез-құлқының нәтижесін болжауды үнемі үйренеді деп санайды.

Тәжірибеден үйренудегі болжаудың орталық рөлі жоғарыда сипатталған динамикаларды айтарлықтай өзгертеді. Бұрын өте сирек (эпизодтық сыйақы) деп есептелген сигнал өте тығыз болып шығады. Теориялық тұрғыдан алғанда, жағдай мынадай: кез келген уақытта сүтқоректілердің миы сенсорлық ынталандырулар мен әрекеттердің күрделі ағыны негізінде нәтижелерді есептейді, ал жануар бұл ағынға жай ғана батырылады. Бұл жағдайда жануардың соңғы мінез-құлқы болжамдарды түзету және мінез-құлықты дамыту үшін пайдаланылуы керек күшті сигнал береді. Ми болашақта болжамдарды (және, тиісінше, қабылданған әрекеттердің сапасын) оңтайландыру үшін осы сигналдардың барлығын пайдаланады. Бұл тәсілге шолу тамаша кітапта берілген «Серфинг белгісіздігі» когнитивтік ғалым және философ Энди Кларк. Егер біз мұндай пайымдауды жасанды агенттерді оқытуға экстраполяциялайтын болсақ, онда күшейтілген оқытудағы іргелі кемшілік ашылады: бұл парадигмада қолданылатын сигнал ол болуы мүмкін (немесе болуы керек)мен салыстырғанда үмітсіз әлсіз. Сигналдың қанықтылығын арттыру мүмкін болмаған жағдайларда (мүмкін ол әлсіз немесе төмен деңгейдегі реактивтілікке байланысты болуы мүмкін), жақсы параллельді оқыту әдісіне артықшылық берген дұрыс, мысалы, ES.

Нейрондық желілерді неғұрлым бай оқыту

Үнемі болжам жасаумен айналысатын сүтқоректілердің миына тән жоғары нейрондық белсенділік қағидаттарына сүйене отырып, қазіргі уақытта мұндай болжамдардың маңыздылығын ескере отырып, күшейтілген оқытуда соңғы жетістіктерге қол жеткізілді. Мен сізге бірден екі ұқсас жұмысты ұсына аламын:

Осы екі мақалада да авторлар өздерінің нейрондық желілерінің әдеттегі әдепкі саясатын болашақта қоршаған ортаның күйі туралы болжау нәтижелерімен толықтырады. Бірінші мақалада болжау әртүрлі өлшем айнымалыларына қолданылады, ал екіншісінде болжау ортадағы өзгерістерге және сол сияқты агент әрекетіне қолданылады. Екі жағдайда да, оң күшейтуге байланысты сирек сигнал әлдеқайда бай және ақпараттылығы жоғары болады, бұл тезірек үйренуге және күрделірек мінез-құлықтарды меңгеруге мүмкіндік береді. Мұндай жақсартулар ES сияқты «қара жәшік» принципінде жұмыс істейтін әдістермен емес, градиент сигналын пайдаланатын әдістермен ғана қол жетімді.

Сонымен қатар, тәжірибеден және градиенттік әдістерден үйрену әлдеқайда тиімді. Белгілі бір мәселені ES әдісін қолдана отырып, күшейтілген оқытуды пайдаланудан жылдамырақ зерттеу мүмкін болған жағдайда да, ES стратегиясы RL-ге қарағанда бірнеше есе көп деректерді қамтығандықтан табысқа қол жеткізілді. Бұл жағдайда жануарлардың үйрену принциптері туралы ой елегінен өткізе отырып, біз біреудің үлгісінен үйренудің нәтижесі көптеген ұрпақтан кейін көрінетінін, ал кейде жануардың мәңгілікке сабақ алуы үшін өздігінен басынан өткен бір оқиға жеткілікті болатынын атап өтеміз. Ұнаған кезде мысалдарсыз оқыту Ол дәстүрлі градиент әдістеріне сәйкес келмесе де, ол ES-ге қарағанда әлдеқайда түсінікті. сияқты тәсілдер бар жүйке эпизодтық бақылау, мұнда Q-мәндері оқу процесінде сақталады, содан кейін бағдарлама әрекеттерді орындау алдында оларды тексереді. Нәтижесі - градиент әдісі, ол есептерді бұрынғыдан әлдеқайда жылдам шешуді үйренуге мүмкіндік береді. Нейрондық эпизодтық бақылау туралы мақалада авторлар бір тәжірибеден кейін де оқиға туралы ақпаратты сақтауға қабілетті адам гиппокампусын атап өтеді, сондықтан шешуші рөл есте сақтау процесінде. Мұндай механизмдер агенттің ішкі ұйымына қол жеткізуді талап етеді, бұл да анықтамасы бойынша ES парадигмасында мүмкін емес.

Ендеше, неге оларды біріктірмеске?

Бұл мақаланың көп бөлігі мен RL әдістерін қолдайтындай әсер қалдыруы мүмкін. Дегенмен, менің ойымша, ұзақ мерзімді перспективада ең жақсы шешім екі әдісті біріктіру болып табылады, сондықтан әрқайсысы ең қолайлы жағдайларда қолданылады. Әлбетте, көптеген реактивті саясаттар жағдайында немесе оң күшейтудің өте сирек сигналдары бар жағдайларда, ES жеңеді, әсіресе сізде жаппай параллель жаттығуларды орындауға болатын есептеу қуаты бар болса. Екінші жағынан, кеңейтілген оқытуды немесе бақылаудағы оқытуды пайдаланатын градиенттік әдістер бізде кең кері байланыс мүмкіндігі болған кезде және мәселені тез және аз деректермен шешуді үйрену қажет болғанда пайдалы болады.

Табиғатқа жүгінсек, бірінші әдіс, мәні бойынша, екіншісінің негізін қалайды. Сондықтан эволюция барысында сүтқоректілер қоршаған ортадан келетін күрделі сигналдардан өте тиімді үйренуге мүмкіндік беретін миды дамытты. Демек, мәселе ашық күйінде қалады. Мүмкін эволюциялық стратегиялар градиентті оқыту әдістеріне де пайдалы болатын тиімді оқу архитектурасын ойлап табуға көмектеседі. Өйткені, табиғат тапқан шешім шынымен де өте сәтті.

Ақпарат көзі: www.habr.com

Оқытуды күшейту немесе эволюциялық стратегиялар? - Екеуіде