Эй Хабр!
Біз мұнда екі жыл бұрынғы, коды жоқ және анық академиялық сипаттағы мәтіндердің аудармаларын жиі жариялауды шешпейміз, бірақ бүгін біз ерекшелік жасаймыз. Мақаланың атауында туындаған дилемма көптеген оқырмандарымызды алаңдатады деп үміттенеміз және сіз бұл пост түпнұсқада талқыланатын эволюциялық стратегиялар туралы іргелі жұмысты оқыдыңыз немесе оны қазір оқисыз. Мысыққа қош келдіңіз!
2017 жылдың наурызында OpenAI «қағазымен терең білім беру қоғамдастығында толқындар жасады.
Эволюциялық стратегиялар
OpenAI жұмысының негізгі тезисі дәстүрлі кері таралумен біріктірілген күшейтілген оқытуды пайдаланудың орнына, олар «эволюциялық стратегия» (ES) деп аталатын нәрсені пайдаланып күрделі мәселелерді шешу үшін нейрондық желіні сәтті оқытты. Бұл ES тәсілі параллель жұмыс істейтін бірнеше агенттерді қамтитын және осы бөлуден таңдалған параметрлерді қолданатын салмақтардың желі бойынша таралуын қолдаудан тұрады. Әрбір агент өз ортасында жұмыс істейді және эпизодтың белгілі бір саны немесе кезеңдері аяқталғаннан кейін, алгоритм фитнес ұпайы ретінде көрсетілген жиынтық сыйақыны қайтарады. Осы мәнді ескере отырып, параметрлерді бөлуді сәтті емес агенттерден айыру арқылы неғұрлым табысты агенттерге ауыстыруға болады. Жүздеген агенттердің қатысуымен мұндай операцияны миллиондаған рет қайталау арқылы салмақтарды бөлуді агенттерге жүктелген тапсырманы шешу үшін жоғары сапалы саясатты құруға мүмкіндік беретін кеңістікке жылжытуға болады. Шынында да, мақалада келтірілген нәтижелер әсерлі: егер сіз мың агентті параллель орындасаңыз, онда екі аяқтағы антропоморфтық қозғалысты жарты сағаттан аз уақыт ішінде үйренуге болатыны көрсетілген (бұл ең озық RL әдістерінің өзі көп шығынды қажет етеді) бір сағаттан артық). Толық ақпарат алу үшін мен тамаша оқуды ұсынамын
OpenAI-дан ES әдісі арқылы зерттелген антропоморфты тік жүруді үйретудің әртүрлі стратегиялары.
Қара қорап
Бұл әдістің үлкен артықшылығы - оны оңай параллельдеуге болады. A3C сияқты RL әдістері жұмысшы ағындары мен параметр сервері арасында ақпарат алмасуды талап етсе, ES тек жарамдылық бағалаулары мен жалпыланған параметрді тарату ақпаратын қажет етеді. Дәл осы қарапайымдылыққа байланысты бұл әдіс масштабтау мүмкіндіктері бойынша қазіргі заманғы RL әдістерінен әлдеқайда алда. Дегенмен, мұның бәрі бекер емес: желіні қара жәшік принципі бойынша оңтайландыру керек. Бұл жағдайда «қара жәшік» жаттығу кезінде желінің ішкі құрылымы толығымен еленбейді және тек жалпы нәтиже (эпизод үшін сыйақы) пайдаланылады және белгілі бір желінің салмақтары соған байланысты болады. кейінгі ұрпақтарға мұра болады. Біз қоршаған ортадан көп кері байланыс ала алмайтын жағдайларда (және көптеген дәстүрлі RL мәселелерінде сыйақылар ағыны өте сирек) мәселе «жартылай қара жәшік» болудан «толығымен қара жәшікке» дейін барады. Бұл жағдайда сіз өнімділікті айтарлықтай арттыра аласыз, сондықтан, әрине, мұндай ымыраға келу орынды. «Егер олар үмітсіз шулы болса, градиенттер кімге керек?» – бұл жалпы пікір.
Дегенмен, кері байланыс белсендірек болған жағдайда, ES үшін бәрі дұрыс емес бола бастайды. OpenAI командасы қарапайым MNIST жіктеу желісінің ES көмегімен қалай оқытылғанын сипаттайды және бұл жолы оқыту 1000 есе баяу болды. Кескінді жіктеудегі градиент сигналы желіні жақсырақ жіктеуді қалай үйретуге қатысты өте ақпараттандыратыны факт. Осылайша, мәселе RL техникасында азырақ және шулы градиенттерді шығаратын орталарда сирек марапаттармен көбірек.
Табиғат шешімі
Егер біз AI-ны дамыту жолдарын ойластырып, табиғаттың мысалынан үйренуге тырысатын болсақ, онда кейбір жағдайларда AI ретінде қарастыруға болады.
Сүтқоректілердің интеллектуалдық мінез-құлқын зерттей отырып, оның өзара тығыз байланысты екі процестің күрделі өзара әсерінің нәтижесінде қалыптасқанын көреміз: басқалардың тәжірибесінен үйрену и жасай отырып үйрену. Біріншісі көбінесе табиғи сұрыпталу нәтижесіндегі эволюциямен теңестіріледі, бірақ мен бұл жерде мен эпигенетиканы, микробиомаларды және генетикалық байланысы жоқ организмдер арасында тәжірибе алмасуға мүмкіндік беретін басқа механизмдерді есепке алу үшін кеңірек терминді қолданамын. Екінші процесс, тәжірибеден үйрену, жануардың өмір бойы меңгере алатын барлық ақпараты және бұл ақпарат осы жануардың сыртқы әлеммен өзара әрекеттесуімен тікелей анықталады. Бұл категорияға объектілерді тануды үйренуден бастап оқу процесіне тән қарым-қатынасты меңгеруге дейінгі барлық нәрсе кіреді.
Бір сөзбен айтқанда, табиғатта болатын бұл екі процесті нейрондық желілерді оңтайландырудың екі нұсқасымен салыстыруға болады. Ағза туралы ақпаратты жаңарту үшін градиенттер туралы ақпарат пайдаланылатын эволюциялық стратегиялар басқалардың тәжірибесінен үйренуге жақындайды. Сол сияқты, бір немесе басқа тәжірибе алу агенттің мінез-құлқындағы сол немесе басқа өзгерістерге әкелетін градиенттік әдістерді өз тәжірибесінен үйренумен салыстыруға болады. Осы екі тәсілдің әрқайсысы жануарларда дамитын интеллектуалды мінез-құлық немесе қабілет түрлері туралы ойласақ, салыстыру айқынырақ болады. Екі жағдайда да «эволюциялық әдістер» адамның белгілі бір фитнесті (тірі қалу үшін жеткілікті) дамытуға мүмкіндік беретін реактивті мінез-құлықты зерттеуге ықпал етеді. Жаяу жүруді немесе тұтқындаудан қашуды үйрену көптеген жағдайларда генетикалық деңгейде көптеген жануарларда «қатты сымды» болатын «инстинктивті» мінез-құлыққа баламалы. Сонымен қатар, бұл мысал марапаттау сигналы өте сирек кездесетін жағдайларда (мысалы, нәрестені сәтті тәрбиелеу фактісі) эволюциялық әдістерді қолдануға болатынын растайды. Мұндай жағдайда сыйақыны осы факті пайда болғанға дейін көптеген жылдар бұрын орындалған әрекеттердің нақты жиынтығымен салыстыру мүмкін емес. Екінші жағынан, егер ES сәтсіз болған жағдайды, атап айтқанда кескін классификациясын қарастыратын болсақ, нәтижелер 100-ден астам жылдар бойы жүргізілген сансыз мінез-құлық психологиялық эксперименттерінде қол жеткізілген жануарларды үйрену нәтижелерімен керемет салыстырылады.
Жануарлардан үйрену
Оқытуды бекітуде қолданылатын әдістер көп жағдайда тікелей психологиялық әдебиеттерден алынады
Тәжірибеден үйренудегі болжаудың орталық рөлі жоғарыда сипатталған динамикаларды айтарлықтай өзгертеді. Бұрын өте сирек (эпизодтық сыйақы) деп есептелген сигнал өте тығыз болып шығады. Теориялық тұрғыдан алғанда, жағдай мынадай: кез келген уақытта сүтқоректілердің миы сенсорлық ынталандырулар мен әрекеттердің күрделі ағыны негізінде нәтижелерді есептейді, ал жануар бұл ағынға жай ғана батырылады. Бұл жағдайда жануардың соңғы мінез-құлқы болжамдарды түзету және мінез-құлықты дамыту үшін пайдаланылуы керек күшті сигнал береді. Ми болашақта болжамдарды (және, тиісінше, қабылданған әрекеттердің сапасын) оңтайландыру үшін осы сигналдардың барлығын пайдаланады. Бұл тәсілге шолу тамаша кітапта берілген «
Нейрондық желілерді неғұрлым бай оқыту
Үнемі болжам жасаумен айналысатын сүтқоректілердің миына тән жоғары нейрондық белсенділік қағидаттарына сүйене отырып, қазіргі уақытта мұндай болжамдардың маңыздылығын ескере отырып, күшейтілген оқытуда соңғы жетістіктерге қол жеткізілді. Мен сізге бірден екі ұқсас жұмысты ұсына аламын:
Осы екі мақалада да авторлар өздерінің нейрондық желілерінің әдеттегі әдепкі саясатын болашақта қоршаған ортаның күйі туралы болжау нәтижелерімен толықтырады. Бірінші мақалада болжау әртүрлі өлшем айнымалыларына қолданылады, ал екіншісінде болжау ортадағы өзгерістерге және сол сияқты агент әрекетіне қолданылады. Екі жағдайда да, оң күшейтуге байланысты сирек сигнал әлдеқайда бай және ақпараттылығы жоғары болады, бұл тезірек үйренуге және күрделірек мінез-құлықтарды меңгеруге мүмкіндік береді. Мұндай жақсартулар ES сияқты «қара жәшік» принципінде жұмыс істейтін әдістермен емес, градиент сигналын пайдаланатын әдістермен ғана қол жетімді.
Сонымен қатар, тәжірибеден және градиенттік әдістерден үйрену әлдеқайда тиімді. Белгілі бір мәселені ES әдісін қолдана отырып, күшейтілген оқытуды пайдаланудан жылдамырақ зерттеу мүмкін болған жағдайда да, ES стратегиясы RL-ге қарағанда бірнеше есе көп деректерді қамтығандықтан табысқа қол жеткізілді. Бұл жағдайда жануарлардың үйрену принциптері туралы ой елегінен өткізе отырып, біз біреудің үлгісінен үйренудің нәтижесі көптеген ұрпақтан кейін көрінетінін, ал кейде жануардың мәңгілікке сабақ алуы үшін өздігінен басынан өткен бір оқиға жеткілікті болатынын атап өтеміз. Ұнаған кезде
Ендеше, неге оларды біріктірмеске?
Бұл мақаланың көп бөлігі мен RL әдістерін қолдайтындай әсер қалдыруы мүмкін. Дегенмен, менің ойымша, ұзақ мерзімді перспективада ең жақсы шешім екі әдісті біріктіру болып табылады, сондықтан әрқайсысы ең қолайлы жағдайларда қолданылады. Әлбетте, көптеген реактивті саясаттар жағдайында немесе оң күшейтудің өте сирек сигналдары бар жағдайларда, ES жеңеді, әсіресе сізде жаппай параллель жаттығуларды орындауға болатын есептеу қуаты бар болса. Екінші жағынан, кеңейтілген оқытуды немесе бақылаудағы оқытуды пайдаланатын градиенттік әдістер бізде кең кері байланыс мүмкіндігі болған кезде және мәселені тез және аз деректермен шешуді үйрену қажет болғанда пайдалы болады.
Табиғатқа жүгінсек, бірінші әдіс, мәні бойынша, екіншісінің негізін қалайды. Сондықтан эволюция барысында сүтқоректілер қоршаған ортадан келетін күрделі сигналдардан өте тиімді үйренуге мүмкіндік беретін миды дамытты. Демек, мәселе ашық күйінде қалады. Мүмкін эволюциялық стратегиялар градиентті оқыту әдістеріне де пайдалы болатын тиімді оқу архитектурасын ойлап табуға көмектеседі. Өйткені, табиғат тапқан шешім шынымен де өте сәтті.
Ақпарат көзі: www.habr.com