Омӯзиши тақвият ё стратегияҳои эволютсионӣ? - Ҳарду

Эй Ҳабр!

Мо аксар вақт тасмим намегирем, ки тарҷумаҳои матнҳои дусоларо дар ин ҷо ҷойгир кунем, бидуни рамз ва возеҳ хусусияти академӣ - аммо имрӯз мо истисно мекунем. Мо умедворем, ки мушкилие, ки дар сарлавҳаи мақола оварда шудааст, бисёре аз хонандагони моро ба ташвиш меорад ва шумо аллакай кори бунёдиро дар бораи стратегияҳои эволютсионӣ, ки бо он ин паём дар асл баҳс мекунад, хондаед ё ҳоло онро хонед. Хуш омадед ба гурба!

Омӯзиши тақвият ё стратегияҳои эволютсионӣ? - Ҳарду

Дар моҳи марти соли 2017, OpenAI дар ҷомеаи омӯзиши амиқ бо коғази "Стратегияҳои эволютсия ҳамчун алтернативаи миқёспазир ба омӯзиши мустаҳкам" Ин кор натиҷаҳои таъсирбахшро ба манфиати он тавсиф кард, ки омӯзиши мустаҳкамкунӣ (RL) ба як каҷ табдил наёфтааст ва ҳангоми омӯзиши шабакаҳои мураккаби нейронӣ, тавсия дода мешавад, ки усулҳои дигарро санҷед. Пас аз он баҳс дар бораи аҳамияти омӯзиши тақвият ва то чӣ андоза сазовори мақоми он ҳамчун технологияи "ҳатмӣ" барои таълими ҳалли мушкилот сар зад. Дар ин ҷо мехоҳам бигӯям, ки ин ду технология набояд рақобатпазир ҳисобида шаванд, ки яке аз онҳо баръало беҳтар аз дигараш аст; баръакс, дар нихояти кор якдигарро пурра мекунанд. Дар ҳақиқат, агар шумо каме дар бораи он чизе, ки барои эҷод кардан лозим аст, фикр кунед АИ умумӣ ва чунин системахое, ки дар давоми тамоми мавчудияти худ барои омухтан, мулохиза кардан ва ба накша гирифтан кодир мебуданд, дар он сурат мо кариб ба хулосае меоем, ки ин ё он халли якчоя талаб карда мешавад. Дар омади гап, махз хамин халли якчояи табиат ба миён омад, ки дар рафти эволюция ба ширхурон ва дигар хайвоноти олитар интеллекти мураккаб додааст.

Стратегияҳои эволютсионӣ

Тезиси асосии коғази OpenAI аз он иборат буд, ки ба ҷои истифодаи омӯзиши мустаҳкамкунӣ дар якҷоягӣ бо backpropagation анъанавӣ, онҳо бомуваффақият як шабакаи нейронро барои ҳалли мушкилоти мураккаб бо истифода аз он чизе, ки онҳо "стратегияи эволютсионӣ" (ES) меноманд, омӯзониданд. Ин равиши ES аз нигоҳ доштани тақсимоти вазнҳо дар саросари шабака иборат аст, ки бо ҷалби агентҳои сершумор дар баробари кор ва истифодаи параметрҳои аз ин тақсимот интихобшуда. Ҳар як агент дар муҳити худ амал мекунад ва пас аз анҷоми шумораи муайяни эпизодҳо ё марҳилаҳои эпизод, алгоритм мукофоти ҷамъшударо бармегардонад, ки ҳамчун холҳои фитнес ифода шудааст. Бо дарназардошти ин арзиш, тақсимоти параметрҳоро метавон ба агентҳои муваффақтар гузаронд ва аз агентҳои камтар муваффақ маҳрум карда шавад. Бо иштироки садхо нафар агентхо миллионхо маротиба такрор кардани ин гуна амалиёт таксимоти вазнхоро ба фазое гузарондан мумкин аст, ки ба агентихо барои халли вазифаи ба зиммаашон гузошташуда сиёсати баландсифат тартиб додан мумкин аст. Воқеан, натиҷаҳои дар мақола овардашуда таъсирбахшанд: нишон дода шудааст, ки агар шумо ҳазор агентро мувозӣ иҷро кунед, пас ҳаракати антропоморфӣ дар ду поро дар муддати камтар аз ним соат омӯхтан мумкин аст (дар ҳоле ки ҳатто усулҳои пешрафтаи RL хароҷоти бештарро талаб мекунанд. аз як соат дар ин бора). Барои маълумоти муфассал, ман тавсия медиҳам, ки хондани аъло пост аз муаллифони тачриба, инчунин мақолаи илмӣ.

Омӯзиши тақвият ё стратегияҳои эволютсионӣ? - Ҳарду

Стратегияҳои гуногуни таълими қадамҳои рости антропоморфӣ, ки бо истифода аз усули ES аз OpenAI омӯхта шудаанд.

Қуттии сиёҳ

Бартарии бузурги ин усул дар он аст, ки онро ба осонӣ параллел кардан мумкин аст. Дар ҳоле ки усулҳои RL, ба монанди A3C, мубодилаи иттилоотро байни риштаҳои коргарӣ ва сервери параметр талаб мекунанд, ES танҳо ба ҳисобҳои фитнесс ва маълумоти умумии тақсимоти параметрҳо ниёз дорад. Махз ба туфайли хамин соддагй ин усул аз чихати имкониятхои васеъкунй аз усулхои муосири RL хеле пеш аст. Аммо, ҳамаи ин бефоида нест: шумо бояд шабакаро мувофиқи принсипи қуттии сиёҳ оптимизатсия кунед. Дар ин ҳолат, "қуттии сиёҳ" маънои онро дорад, ки ҳангоми омӯзиш сохтори дохилии шабака комилан нодида гирифта мешавад ва танҳо натиҷаи умумӣ (мукофот барои эпизод) истифода мешавад ва аз он вобаста аст, ки вазнҳои шабакаи мушаххас ба наслхои минбаъда мерос мондаанд. Дар ҳолатҳое, ки мо аз муҳити атроф фикру мулоҳизаҳои зиёд қабул намекунем - ва дар бисёре аз мушкилоти анъанавии RL ҷараёни мукофотҳо хеле кам аст - мушкилот аз "қуттии қисман сиёҳ" ба "қуттии комилан сиёҳ" мегузарад. Дар ин ҳолат, шумо метавонед ба таври назаррас баланд бардоштани ҳосилнокӣ, аз ин рӯ, албатта, чунин созиш асоснок аст. "Ба кӣ градиентҳо лозим аст, агар онҳо ба ҳар ҳол бесарусомон бошанд?" — Чунин аст акидаи умумй.

Бо вуҷуди ин, дар ҳолатҳое, ки фикру мулоҳизаҳо фаъолтаранд, корҳо барои ES хато мекунанд. Дастаи OpenAI тасвир мекунад, ки чӣ гуна шабакаи оддии таснифоти MNIST бо истифода аз ES омӯзонида шудааст ва ин дафъа омӯзиш 1000 маротиба сусттар буд. Далели он аст, ки сигнали градиентӣ дар таснифоти тасвирҳо дар бораи чӣ гуна таълим додани таснифоти беҳтари шабака хеле иттилоотӣ аст. Ҳамин тариқ, мушкилот бо техникаи RL камтар аст ва бештар бо мукофотҳои кам дар муҳитҳое, ки градиентҳои пурғавғо ба вуҷуд меоранд.

Ҳалли табиат

Агар мо кӯшиш кунем, ки аз мисоли табиат биомӯзем, дар бораи роҳҳои рушди AI фикр кунем, пас дар баъзе ҳолатҳо AI-ро метавон чунин тасаввур кард. муносибати ба проблема нигаронидашуда. Дар ниҳоят, табиат дар доираи маҳдудиятҳое амал мекунад, ки олимони компютерӣ надоранд. Чунин ақида вуҷуд дорад, ки муносибати сирф назариявӣ ба ҳалли як масъалаи муайян метавонад нисбат ба алтернативаҳои эмпирикӣ ҳалли самараноктар пешниҳод кунад. Бо вуҷуди ин, ман то ҳол фикр мекунам, ки санҷиши он бамаврид аст, ки системаи динамикӣ дар зери маҳдудиятҳои муайян кор мекунад (Замин) агентҳоро (ҳайвонот, махсусан ширхӯрон) ба вуҷуд овардааст, ки қобилияти рафтори чандир ва мураккаб доранд. Гарчанде ки баъзе аз ин маҳдудиятҳо дар ҷаҳони тақлидшудаи илми маълумот татбиқ намешаванд, дигарон хубанд.

Рафтори зеҳнии ширхӯронро дида баромада, мебинем, ки он дар натиҷаи таъсири мураккаби ду раванди ба ҳам зич алоқаманд ба вуҷуд омадааст: аз тачрибаи дигарон омузанд и бо кор омухтан. Аввалин аксар вақт бо эволютсияе, ки тавассути интихоби табиӣ бармеояд, баробар карда мешавад, аммо дар ин ҷо ман истилоҳи васеътареро истифода мебарам, то эпигенетика, микробиомаҳо ва дигар механизмҳоро ба назар гирам, ки мубодилаи таҷрибаҳоро байни организмҳои аз ҷиҳати генетикӣ ба ҳам алоқаманд имкон намедиҳанд. Раванди дуюм, ки аз таҷриба омӯхта мешавад, ҳама маълумотест, ки ҳайвон дар тӯли умраш аз худ мекунад ва ин маълумот мустақиман бо ҳамкории ин ҳайвон бо олами беруна муайян карда мешавад. Ин категория ҳама чизро аз омӯхтани шинохти ашё то азхудкунии муоширати ба раванди таълим хос дар бар мегирад.

Тахминан, ин ду равандеро, ки дар табиат рух медиҳанд, метавон бо ду варианти оптимизатсияи шабакаҳои нейрон муқоиса кард. Стратегияҳои эволютсионӣ, ки дар он маълумот дар бораи градиентҳо барои навсозии маълумот дар бораи организм истифода мешавад, ба омӯзиши таҷрибаи дигарон наздик мешаванд. Ба ҳамин монанд, усулҳои градиентӣ, ки ба даст овардани ин ё он таҷриба ба ин ё он тағйирот дар рафтори агент оварда мерасонад, бо омӯхтани таҷрибаи шахсии худ муқоиса карда мешавад. Агар мо дар бораи навъҳои рафтор ё қобилиятҳои интеллектуалӣ, ки ҳар яке аз ин ду равиш дар ҳайвонот инкишоф меёбанд, фикр кунем, муқоиса бештар равшантар мешавад. Дар ҳарду ҳолат, "усулҳои эволютсионӣ" ба омӯзиши рафтори реактивӣ мусоидат мекунанд, ки ба кас имкон медиҳанд, ки фитнесси муайянро инкишоф диҳанд (барои зинда мондан кофӣ). Омӯзиши роҳ рафтан ё фирор аз асирӣ дар бисёр мавридҳо ба рафтори бештари “инстинктивӣ” баробар аст, ки дар бисёре аз ҳайвонот дар сатҳи генетикӣ “муқаррарӣ” доранд. Илова бар ин, ин мисол тасдиқ мекунад, ки усулҳои эволютсионӣ дар ҳолатҳое истифода мешаванд, ки сигнали мукофот хеле кам аст (масалан, далели бомуваффақият тарбияи кӯдак). Дар чунин маврид мукофотро бо ягон мачмуи мушаххаси амалхое, ки солхои зиёд пеш аз руй додани ин факт ичро шуда буданд, алокаманд кардан мумкин нест. Аз тарафи дигар, агар мо парвандаеро, ки дар он ES ноком мешавад, ба назар гирем, яъне таснифи тасвирҳо, натиҷаҳо бо натиҷаҳои омӯзиши ҳайвонот, ки дар таҷрибаҳои психологии рафтории зиёда аз 100 сол гузаронида шудаанд, ба таври назаррас муқоиса карда мешаванд.

Омӯзиш аз ҳайвонот

Усулҳое, ки дар омӯзиши таҳким истифода мешаванд, дар бисёр мавридҳо мустақиман аз адабиёти равоншиносӣ гирифта шудаанд кондитсионерӣ, ва кондитсионерӣ бо истифода аз психологияи ҳайвонот омӯхта шуд. Дар омади гап, Ричард Саттон, яке аз ду асосгузори омӯзиши тақвият, дараҷаи бакалаврӣ дар психология дорад. Дар заминаи кондитсионерии оперантӣ, ҳайвонот меомӯзанд, ки мукофот ё ҷазоро бо намунаҳои рафтори мушаххас алоқаманд кунанд. Тренерҳо ва муҳаққиқон метавонанд ин иттиҳодияи мукофотро бо ин ё он роҳ идора карда, ҳайвонҳоро барои нишон додани зеҳн ё рафтори муайян таҳрик кунанд. Бо вуҷуди ин, кондитсионерӣ, ки дар тадқиқоти ҳайвонот истифода мешавад, чизе беш аз як шакли равшани ҳамон кондитсионер аст, ки дар асоси он ҳайвонот дар тӯли ҳаёти худ меомӯзанд. Мо ҳамеша сигналҳои таҳкими мусбатро аз муҳити атроф мегирем ва рафтори худро мувофиқи он танзим мекунем. Дарвоқеъ, бисёре аз неврологҳо ва олимони когнитивӣ боварӣ доранд, ки одамон ва ҳайвоноти дигар воқеан дар сатҳи боз ҳам баландтар фаъолият мекунанд ва пайваста пешгӯии натиҷаи рафтори худро дар ҳолатҳои оянда дар асоси мукофотҳои эҳтимолӣ меомӯзанд.

Нақши марказии пешгӯӣ дар омӯхтани таҷриба динамикаи дар боло тавсифшударо бо роҳҳои назаррас тағир медиҳад. Сигнал, ки қаблан хеле камшумор ҳисобида мешуд (мукофоти эпизодӣ) хеле зич мешавад. Аз чихати назариявй вазъият чунин аст: дар хар вакт майнаи ширхур дар асоси чараёни мураккаби ангезандахои хиссиёт ва амалхо натичахоро хисоб мекунад, дар сурате, ки хайвон ба ин чараён гута мешавад. Дар ин ҳолат, рафтори ниҳоии ҳайвон сигнали қавӣ медиҳад, ки бояд барои роҳнамоии ислоҳи пешгӯиҳо ва рушди рафтор истифода шавад. Майна ҳамаи ин сигналҳоро барои оптимизатсияи пешгӯиҳо (ва мувофиқан сифати амалҳои андешидашуда) дар оянда истифода мебарад. Шарҳи ин равиш дар китоби аъло оварда шудааст "Серфинги номуайянӣ” олими маърифатӣ ва файласуф Энди Кларк. Агар мо чунин далелҳоро ба омӯзиши агентҳои сунъӣ экстраполятсия кунем, он гоҳ як камбудии бунёдии омӯзиши тақвият ошкор мешавад: сигнале, ки дар ин парадигма истифода мешавад, дар муқоиса бо он чизе, ки метавонад бошад (ё бояд бошад) ноумед аст. Дар ҳолатҳое, ки баланд бардоштани сершавии сигнал ғайриимкон аст (шояд аз сабаби он, ки он табиатан заиф аст ё бо реактивии сатҳи паст алоқаманд аст), эҳтимолан беҳтар аст, ки усули омӯзиши хуб параллелизатсияшуда, масалан, ES.

Омӯзиши бойтари шабакаҳои нейрон

Дар асоси принсипҳои фаъолияти олии асабӣ, ки ба майнаи ширхӯрон хос аст, ки пайваста бо пешгӯиҳо банд аст, дар омӯзиши такмилдиҳӣ пешрафтҳои охирин ба даст оварда шудаанд, ки ҳоло аҳамияти чунин пешгӯиҳо ба назар гирифта мешаванд. Ман фавран метавонам ду асари шабеҳро ба шумо тавсия диҳам:

Дар ҳардуи ин мақолаҳо, муаллифон сиёсати муқаррарии пешфарзи шабакаҳои нейронии худро бо натиҷаҳои пешгӯӣ дар бораи вазъи муҳити зист дар оянда пурра мекунанд. Дар мақолаи аввал пешгӯӣ ба як қатор тағирёбандаҳои андозагирӣ истифода мешавад ва дар дуюм, пешгӯӣ ба тағирот дар муҳити зист ва рафтори агент ҳамчун чунин истифода бурда мешавад. Дар ҳарду ҳолат, сигнали камёфт, ки бо тақвияти мусбӣ алоқаманд аст, хеле бойтар ва иттилоотӣ мегардад, ки ҳам барои омӯзиши тезтар ва ҳам ба даст овардани рафтори мураккабтар имкон медиҳад. Чунин беҳбудиҳо танҳо бо усулҳое мавҷуданд, ки сигнали градиентиро истифода мебаранд, на бо усулҳое, ки аз рӯи принсипи "қуттии сиёҳ" кор мекунанд, ба монанди ES.

Илова бар ин, омӯхтани таҷриба ва усулҳои градиентӣ хеле самараноктар аст. Ҳатто дар ҳолатҳое, ки бо истифода аз усули ES назар ба истифодаи омӯзиши тақвият зудтар омӯхтани як масъалаи мушаххас имконпазир буд, фоида аз он ба даст омад, ки стратегияи ES нисбат ба RL якчанд маротиба зиёдтар маълумотро дар бар мегирад. Дар ин маврид дар бораи принсипҳои омӯхтани ҳайвонот фикр карда, мо қайд мекунем, ки натиҷаи омӯхтан аз намунаи касе пас аз наслҳои зиёд зоҳир мешавад, дар ҳоле ки баъзан як ҳодисаи худ аз сар гузаронидашуда кифоя аст, ки ҳайвон ҳамеша дарси ибрат гирад. Дар ҳоле ки мисли таълим бе мисолхо Гарчанде ки он ба усулҳои анъанавии градиент мувофиқат намекунад, он нисбат ба ES хеле фаҳмотар аст. Масалан, чунин равишҳо вуҷуд доранд назорати эпизодии асаб, ки дар он арзишҳои Q ҳангоми омӯзиш нигоҳ дошта мешаванд, ки пас аз он барнома онҳоро пеш аз андешидани амалҳо тафтиш мекунад. Натиҷа як усули градиентист, ки ба шумо имкон медиҳад, ки чӣ гуна ҳалли мушкилотро нисбат ба пештара зудтар омӯзед. Дар мақолае дар бораи назорати эпизодии асаб, муаллифон дар бораи гиппокампуси инсон ёдовар мешаванд, ки қодир аст, ҳатто пас аз як таҷрибаи як маълумот дар бораи ҳодисаро нигоҳ дорад ва аз ин рӯ, бозӣ мекунад. роли мухим дар процесси хотирчамъй. Чунин механизмҳо дастрасӣ ба созмони дохилии агентро талаб мекунанд, ки ин низ тибқи таъриф дар парадигмаи ES ғайриимкон аст.

Пас, чаро онҳоро муттаҳид накунед?

Эҳтимол аст, ки қисми зиёди ин мақола метавонад таассуроте ба вуҷуд орад, ки ман усулҳои RL-ро ҷонибдорӣ мекунам. Бо вуҷуди ин, ман воқеан фикр мекунам, ки дар муддати тӯлонӣ ҳалли беҳтарин ин якҷоя кардани ҳарду усул аст, то ҳар яке дар ҳолатҳое истифода шаванд, ки дар он беҳтарин мувофиқ аст. Аён аст, ки дар сурати бисёр сиёсатҳои реактивӣ ё дар ҳолатҳои дорои сигналҳои хеле ками таҳкими мусбӣ, ES ғолиб меояд, хусусан агар шумо қудрати ҳисоббарорӣ дар ихтиёри худ дошта бошед, ки дар он шумо метавонед омӯзиши оммавии параллелӣ иҷро кунед. Аз тарафи дигар, усулҳои градиентӣ бо истифода аз омӯзиши тақвият ё омӯзиши назоратӣ вақте муфид хоҳанд буд, вақте ки мо ба фикру мулоҳизаҳои васеъ дастрасӣ дорем ва бояд чӣ гуна ҳалли зуд ва бо маълумоти камтарро омӯзем.

Ба табиат ру оварда, мебинем, ки усули якум аслан ба усули дуюм асос мегузорад. Аз ин рӯ, дар тӯли эволютсия, ширхӯрон майнаеро инкишоф доданд, ки ба онҳо имкон медиҳанд, ки аз сигналҳои мураккабе, ки аз муҳити атроф меоянд, хеле самаранок омӯзанд. Пас, савол боз боқӣ мемонад. Эҳтимол стратегияҳои эволютсионӣ ба мо дар ихтироъ кардани меъмории муассири омӯзиш кӯмак кунанд, ки барои усулҳои омӯзиши градиентӣ низ муфид хоҳанд буд. Баъд аз ҳама, роҳи ҳалли табиат дар ҳақиқат хеле муваффақ аст.

Манбаъ: will.com

Илова Эзоҳ