🥇Tagħlim ta' rinfurzar jew strateġiji evoluttivi? — It-tnejn

Ħej Habr!

Ma tantx niddeċiedu li nipoġġu hawn traduzzjonijiet ta’ testi li kellhom sentejn, mingħajr kodiċi u b’mod ċar ta’ natura akkademika - iżda llum se nagħmlu eċċezzjoni. Nittamaw li d-dilemma maħluqa fit-titlu tal-artiklu tinkwieta lil ħafna mill-qarrejja tagħna, u diġà qrajt ix-xogħol fundamentali dwar l-istrateġiji evoluzzjonarji li biha targumenta din il-kariga fl-oriġinal jew se taqrah issa. Merħba lill-qattus!

F'Marzu 2017, OpenAI għamel mewġ fil-komunità tat-tagħlim fil-fond bil-karta "Strateġiji ta' Evoluzzjoni bħala Alternattiva Skalabbli għat-Tagħlim ta' Tisħiħ" Dan ix-xogħol iddeskriva riżultati impressjonanti favur il-fatt li t-tagħlim ta 'rinfurzar (RL) ma sarx feles, u meta tħarreġ netwerks newrali kumplessi, huwa rakkomandabbli li tipprova metodi oħra. Imbagħad faqqa’ dibattitu dwar l-importanza tat-tagħlim ta’ rinfurzar u kif jistħoqqlu l-istatus tiegħu bħala teknoloġija “must-have” għat-tagħlim tas-soluzzjoni tal-problemi. Hawnhekk irrid ngħid li dawn iż-żewġ teknoloġiji m'għandhomx jitqiesu bħala li jikkompetu, li waħda minnhom hija ċarament aħjar mill-oħra; għall-kuntrarju, fl-aħħar mill-aħħar jikkumplimentaw lil xulxin. Tabilħaqq, jekk taħseb ftit dwar dak li hemm bżonn biex toħloq AI ġenerali u sistemi bħal dawn, li matul l-eżistenza tagħhom ikunu kapaċi li jitgħallmu, ġudizzju u ppjanar, allura kważi ċertament naslu għall-konklużjoni li din jew dik is-soluzzjoni magħquda se tkun meħtieġa. Mill-mod, kienet preċiżament din is-soluzzjoni magħquda li n-natura waslet għaliha, li mogħni mammiferi u annimali oħra ogħla b'intelliġenza kumplessa matul il-kors tal-evoluzzjoni.

Strateġiji Evoluzzjonarji

It-teżi ewlenija tad-dokument OpenAI kienet li, minflok ma użaw it-tagħlim ta 'rinfurzar flimkien ma' backpropagation tradizzjonali, huma ħarrġu b'suċċess netwerk newrali biex isolvu problemi kumplessi billi użaw dik li sejħu "strateġija evoluttiva" (ES). Dan l-approċċ ES jikkonsisti fiż-żamma ta' distribuzzjoni ta' piżijiet fin-netwerk kollu, li tinvolvi aġenti multipli li jaħdmu b'mod parallel u li jużaw parametri magħżula minn din id-distribuzzjoni. Kull aġent jopera fl-ambjent tiegħu stess, u mat-tlestija ta 'numru speċifikat ta' episodji jew stadji ta 'episodju, l-algoritmu jirritorna premju kumulattiv, espress bħala punteġġ ta' fitness. B'kont meħud ta' dan il-valur, id-distribuzzjoni tal-parametri tista' tiġi mċaqilqa lejn aġenti ta' aktar suċċess, u jċaħħdu lil dawk ta' inqas suċċess. Billi tirrepeti operazzjoni bħal din miljuni ta 'drabi bil-parteċipazzjoni ta' mijiet ta 'aġenti, huwa possibbli li d-distribuzzjoni tal-piżijiet titmexxa għal spazju li jippermetti lill-aġenti jifformulaw politika ta' kwalità għolja biex isolvu l-kompitu assenjat lilhom. Tabilħaqq, ir-riżultati ppreżentati fl-artiklu huma impressjonanti: huwa muri li jekk tmexxi elf aġent b'mod parallel, allura l-lokomozzjoni antropomorfika fuq żewġ saqajn tista 'titgħallem f'inqas minn nofs siegħa (filwaqt li anke l-metodi RL l-aktar avvanzati jeħtieġu infiq aktar minn siegħa fuq dan). Għal informazzjoni aktar dettaljata, nirrakkomanda li taqra l-eċċellenti wara mill-awturi tal-esperiment, kif ukoll artikolu xjentifiku.

Strateġiji differenti għat-tagħlim tal-mixi wieqfa antropomorfiku, studjati bl-użu tal-metodu ES minn OpenAI.

Kaxxa sewda

Il-benefiċċju kbir ta 'dan il-metodu huwa li jista' jiġi parallelizzat faċilment. Filwaqt li l-metodi RL, bħall-A3C, jeħtieġu li l-informazzjoni tiġi skambjata bejn il-ħjut tal-ħaddiema u server tal-parametri, ES jeħtieġ biss stimi tal-kundizzjoni u informazzjoni ġeneralizzata dwar id-distribuzzjoni tal-parametri. Huwa minħabba din is-sempliċità li dan il-metodu huwa ferm qabel il-metodi RL moderni f'termini ta 'kapaċitajiet ta' skalar. Madankollu, dan kollu ma jiġix għalxejn: trid tottimizza n-netwerk skont il-prinċipju tal-kaxxa s-sewda. F'dan il-każ, il-"kaxxa s-sewda" tfisser li waqt it-taħriġ l-istruttura interna tan-netwerk hija kompletament injorata, u jintuża biss ir-riżultat ġenerali (premju għall-episodju), u jiddependi minnu jekk il-piżijiet ta 'netwerk partikolari humiex se jintirtu minn ġenerazzjonijiet ta’ wara. F'sitwazzjonijiet fejn ma nirċievux ħafna feedback mill-ambjent—u f'ħafna problemi tradizzjonali ta' RL il-fluss ta' premjijiet huwa skars ħafna—il-problema tmur minn "kaxxa parzjalment sewda" għal "kaxxa kompletament sewda." F'dan il-każ, tista 'żżid il-produttività b'mod sinifikanti, għalhekk, ovvjament, kompromess bħal dan huwa ġġustifikat. "Min għandu bżonn gradjenti jekk xorta waħda huma storbjużi bla tama?" - din hija l-opinjoni ġenerali.

Madankollu, f'sitwazzjonijiet fejn ir-rispons huwa aktar attiv, l-affarijiet jibdew imorru ħażin għall-ES. It-tim ta 'OpenAI jiddeskrivi kif netwerk ta' klassifikazzjoni MNIST sempliċi ġie mħarreġ bl-użu ta 'ES, u din id-darba t-taħriġ kien 1000 darba aktar bil-mod. Il-fatt hu li s-sinjal tal-gradjent fil-klassifikazzjoni tal-immaġni huwa estremament informattiv dwar kif tgħallem in-netwerk klassifikazzjoni aħjar. Għalhekk, il-problema hija inqas bit-teknika RL u aktar bi premjijiet skarsi f'ambjenti li jipproduċu gradjenti storbjużi.

Is-soluzzjoni tan-natura

Jekk nippruvaw nitgħallmu mill-eżempju tan-natura, naħsbu dwar modi kif niżviluppaw l-AI, allura f'xi każijiet l-AI tista' titqies bħala approċċ orjentat lejn il-problema. Wara kollox, in-natura topera fi ħdan restrizzjonijiet li x-xjenzati tal-kompjuter sempliċement m'għandhomx. Hemm opinjoni li approċċ purament teoretiku għas-soluzzjoni ta 'problema partikolari jista' jipprovdi soluzzjonijiet aktar effettivi minn alternattivi empiriċi. Madankollu, għadni naħseb li jkun utli li jiġi ttestjat kif sistema dinamika li topera taħt ċerti restrizzjonijiet (id-Dinja) ġġenerat aġenti (annimali, partikolarment mammiferi) li kapaċi jġibu mġiba flessibbli u kumplessa. Filwaqt li xi wħud minn dawn ir-restrizzjonijiet ma japplikawx f'dinjiet simulati tax-xjenza tad-dejta, oħrajn huma tajbin.

Wara li eżaminajna l-imġieba intellettwali tal-mammiferi, naraw li hija ffurmata bħala riżultat tal-influwenza reċiproka kumplessa ta 'żewġ proċessi interrelatati mill-qrib: tagħlim mill-esperjenzi ta’ ħaddieħor и titgħallem billi tagħmel. L-ewwel huwa spiss assimilat mal-evoluzzjoni mmexxija mill-għażla naturali, iżda hawnhekk nuża terminu usa 'biex nikkunsidra l-epiġenetika, mikrobijomi, u mekkaniżmi oħra li jippermettu l-qsim ta' esperjenzi bejn organiżmi ġenetikament mhux relatati. It-tieni proċess, it-tagħlim mill-esperjenza, huwa l-informazzjoni kollha li annimal jirnexxilu jitgħallem tul ħajtu, u din l-informazzjoni hija ddeterminata direttament mill-interazzjoni ta’ dan l-annimal mad-dinja ta’ barra. Din il-kategorija tinkludi kollox mit-tagħlim biex jagħrfu l-oġġetti sal-ħakma tal-komunikazzjoni inerenti fil-proċess tat-tagħlim.

Bejn wieħed u ieħor, dawn iż-żewġ proċessi li jseħħu fin-natura jistgħu jitqabblu ma 'żewġ għażliet għall-ottimizzazzjoni tan-netwerks newrali. Strateġiji evoluzzjonarji, fejn l-informazzjoni dwar il-gradjenti tintuża biex taġġorna l-informazzjoni dwar l-organiżmu, jersqu qrib it-tagħlim mill-esperjenza ta 'oħrajn. Bl-istess mod, metodi ta 'gradjent, fejn il-kisba ta' esperjenza waħda jew oħra twassal għal bidla waħda jew oħra fl-imġiba tal-aġent, huma komparabbli mat-tagħlim mill-esperjenza tiegħu stess. Jekk naħsbu dwar it-tipi ta 'mġieba jew kapaċitajiet intelliġenti li kull wieħed minn dawn iż-żewġ approċċi jiżviluppa fl-annimali, il-paragun isir aktar evidenti. Fiż-żewġ każijiet, "metodi evoluzzjonarji" jippromwovu l-istudju ta 'mgieba reattivi li jippermettu li wieħed jiżviluppa ċerta fitness (biżżejjed biex jibqa' ħaj). It-tagħlim li jimxi jew jaħrab mill-jasar huwa f'ħafna każijiet ekwivalenti għal imġieba aktar "istintiva" li hija "hard-wired" f'ħafna annimali fil-livell ġenetiku. Barra minn hekk, dan l-eżempju jikkonferma li l-metodi evoluzzjonarji huma applikabbli f'każijiet fejn is-sinjal tal-premju huwa estremament rari (pereżempju, il-fatt ta 'trobbija b'suċċess ta' tarbija). F'każ bħal dan, huwa impossibbli li l-premju jiġi korrelat ma' kwalunkwe sett speċifiku ta 'azzjonijiet li setgħu saru ħafna snin qabel l-okkorrenza ta' dan il-fatt. Min-naħa l-oħra, jekk nikkunsidraw każ li fih l-ES jonqos, jiġifieri l-klassifikazzjoni tal-immaġini, ir-riżultati huma komparabbli b'mod notevoli mar-riżultati tat-tagħlim tal-annimali miksuba f'għadd ta' esperimenti psikoloġiċi tal-imġieba mwettqa fuq 100 sena 'l fuq.

Tagħlim mill-Annimali

Il-metodi użati fit-tagħlim ta' rinfurzar huma f'ħafna każijiet meħuda direttament mil-letteratura psikoloġika fuq kondizzjonament operanti, u l-kondizzjonament operant ġie studjat bl-użu tal-psikoloġija tal-annimali. Mill-mod, Richard Sutton, wieħed miż-żewġ fundaturi tat-tagħlim ta 'rinforz, għandu grad ta' baċellerat fil-psikoloġija. Fil-kuntest tal-kondizzjonament operanti, l-annimali jitgħallmu jassoċjaw premju jew kastig ma 'mudelli ta' mġiba speċifiċi. Dawk li jħarrġu u riċerkaturi jistgħu jimmanipulaw din l-assoċjazzjoni tal-premju b'xi mod jew ieħor, u jipprovokaw lill-annimali juru intelliġenza jew ċerti imġieba. Madankollu, il-kondizzjonament operant, kif użat fir-riċerka fuq l-annimali, huwa xejn aktar minn forma aktar evidenti tal-istess kondizzjonament li fuq il-bażi tiegħu l-annimali jitgħallmu tul ħajjithom. Il-ħin kollu nirċievu sinjali ta’ tisħiħ pożittiv mill-ambjent u naġġustaw l-imġieba tagħna kif xieraq. Fil-fatt, ħafna newroxjentisti u xjenzati konjittivi jemmnu li l-bnedmin u annimali oħra fil-fatt joperaw f'livell saħansitra ogħla u kontinwament jitgħallmu jbassru r-riżultat tal-imġieba tagħhom f'sitwazzjonijiet futuri bbażati fuq premjijiet potenzjali.

Ir-rwol ċentrali tat-tbassir fit-tagħlim mill-esperjenza jibdel id-dinamika deskritta hawn fuq b'modi sinifikanti. Is-sinjal li qabel kien meqjus skars ħafna (premju episodiku) jirriżulta li huwa dens ħafna. Teoretikament, is-sitwazzjoni hija xi ħaġa bħal din: fi kwalunkwe ħin partikolari, il-moħħ tal-mammiferu qed jikkalkula r-riżultati bbażati fuq fluss kumpless ta 'stimoli u azzjonijiet sensorji, filwaqt li l-annimal huwa sempliċement mgħaddas f'dan il-fluss. F'dan il-każ, l-imġieba finali tal-annimal tagħti sinjal qawwi li għandu jintuża biex jiggwida l-aġġustament tat-tbassir u l-iżvilupp tal-imġieba. Il-moħħ juża dawn is-sinjali kollha sabiex jottimizza t-tbassir (u, għaldaqstant, il-kwalità tal-azzjonijiet meħuda) fil-futur. Ħarsa ġenerali lejn dan l-approċċ tingħata fil-ktieb eċċellenti "Inċertezza tas-Surfing” xjentist konjittiv u filosofu Andy Clark. Jekk nestrapolaw tali raġunament għat-taħriġ ta 'aġenti artifiċjali, allura jiġi żvelat difett fundamentali fit-tagħlim ta' rinfurzar: is-sinjal użat f'din il-paradigma huwa bla tama dgħajjef meta mqabbel ma 'dak li jista' jkun (jew għandu jkun). F'każijiet fejn huwa impossibbli li tiżdied is-saturazzjoni tas-sinjal (forsi minħabba li hija intrinsikament dgħajfa jew assoċjata ma 'reattività ta' livell baxx), huwa probabbilment aħjar li tippreferi metodu ta 'taħriġ li huwa parallelizzat sew, pereżempju, ES.

Taħriġ aktar għani ta 'netwerks newrali

Filwaqt li jibni fuq il-prinċipji ta 'attività newrali ogħla inerenti fil-moħħ tal-mammiferi, li huwa kontinwament okkupat jagħmel tbassir, saru avvanzi reċenti fit-tagħlim ta' rinfurzar, li issa jqis l-importanza ta 'tbassir bħal dan. Nista' immedjatament nirrakkomandalek żewġ xogħlijiet simili:

F'dawn iż-żewġ dokumenti, l-awturi jissupplimentaw il-politika default tipika tan-netwerks newrali tagħhom b'riżultati ta 'tbassir dwar l-istat tal-ambjent fil-futur. Fl-ewwel artikolu, it-tbassir huwa applikat għal varjetà ta 'varjabbli ta' kejl, u fit-tieni, it-tbassir huwa applikat għal bidliet fl-ambjent u l-imġieba tal-aġent bħala tali. Fiż-żewġ każijiet, is-sinjal skars assoċjat ma 'rinfurzar pożittiv isir ħafna aktar sinjuri u aktar informattiv, li jippermetti kemm għal tagħlim aktar mgħaġġel kif ukoll l-akkwist ta' mgieba aktar kumplessi. Titjib bħal dan huwa disponibbli biss b'metodi ta' sinjal gradjent, mhux b'metodi ta' kaxxa sewda bħal ES.

Barra minn hekk, it-tagħlim mill-esperjenza u l-metodi tal-gradjent huma ħafna aktar effettivi. Anke f'każijiet fejn kien possibbli li tiġi studjata problema partikolari bl-użu tal-metodu ES aktar malajr milli bl-użu ta 'tagħlim ta' rinfurzar, il-gwadann inkiseb minħabba l-fatt li l-istrateġija ES kienet tinvolvi ħafna drabi aktar data milli bl-RL. Filwaqt li nirriflettu f’dan il-każ fuq il-prinċipji tat-tagħlim fl-annimali, ninnutaw li r-riżultat tat-tagħlim mill-eżempju ta’ xi ħadd ieħor jimmanifesta ruħu wara ħafna ġenerazzjonijiet, filwaqt li kultant avveniment wieħed esperjenzat minnu nnifsu jkun biżżejjed biex l-annimal jitgħallem il-lezzjoni għal dejjem. Filwaqt li bħal taħriġ mingħajr eżempji Filwaqt li ma tantx jidħol fil-metodi tradizzjonali tal-gradjent, huwa ħafna aktar intelliġibbli minn ES. Hemm, pereżempju, approċċi bħal kontroll episodiku newrali, fejn il-valuri Q huma maħżuna waqt it-taħriġ, u wara l-programm jiċċekkjahom qabel ma jieħu azzjonijiet. Ir-riżultat huwa metodu gradjent li jippermettilek titgħallem kif issolvi l-problemi ħafna aktar malajr minn qabel. F'artiklu dwar il-kontroll episodiku newrali, l-awturi jsemmu l-ippokampus tal-bniedem, li kapaċi jżomm informazzjoni dwar avveniment anke wara esperjenza waħda u, għalhekk, jilgħab rwol kritiku fil-proċess ta’ tiftakar. Tali mekkaniżmi jeħtieġu aċċess għall-organizzazzjoni interna tal-aġent, li huwa wkoll, bħala definizzjoni, impossibbli fil-paradigma ES.

Allura, għaliex ma tgħaqqadhomx?

Huwa probabbli li ħafna minn dan l-artikolu jista 'jħalli l-impressjoni li jien favur metodi RL. Madankollu, fil-fatt naħseb li fit-tul l-aħjar soluzzjoni hija li tgħaqqad iż-żewġ metodi, sabiex kull wieħed jintuża fis-sitwazzjonijiet li fihom ikun l-aktar adattat. Ovvjament, fil-każ ta 'ħafna politiki reattivi jew f'sitwazzjonijiet b'sinjali skarsi ħafna ta' tisħiħ pożittiv, l-ES jirbaħ, speċjalment jekk għandek is-saħħa tal-kompjuter għad-dispożizzjoni tiegħek li fuqha tista 'tmexxi taħriġ parallel b'mod massiv. Min-naħa l-oħra, metodi gradjenti li jużaw tagħlim ta’ rinfurzar jew tagħlim sorveljat se jkunu utli meta jkollna aċċess għal feedback estensiv u jkollna bżonn nitgħallmu kif insolvu problema malajr u b’inqas data.

Meta nduru għan-natura, insibu li l-ewwel metodu, essenzjalment, jistabbilixxi l-pedament għat-tieni. Huwa għalhekk li, matul l-evoluzzjoni, il-mammiferi żviluppaw imħuħ li jippermettulhom jitgħallmu b'mod estremament effettiv minn sinjali kumplessi li ġejjin mill-ambjent. Għalhekk, il-mistoqsija tibqa’ miftuħa. Forsi l-istrateġiji evoluzzjonarji se jgħinuna nivvintaw arkitetturi ta' tagħlim effettivi li jkunu utli wkoll għal metodi ta' tagħlim gradwali. Wara kollox, is-soluzzjoni misjuba min-natura hija tabilħaqq ta 'suċċess kbir.

Sors: www.habr.com

Tagħlim ta' rinfurzar jew strateġiji evoluttivi? - It-tnejn