Fersterking learen of evolúsjonêre strategyen? - Beide

Hoi Habr!

Wy beslute net faak om hjir oersettingen te pleatsen fan teksten dy't twa jier âld wiene, sûnder koade en dúdlik fan akademyske aard - mar hjoed meitsje wy in útsûndering. Wy hoopje dat it dilemma yn 'e titel fan it artikel in protte fan ús lêzers soargen makket, en jo hawwe it fûnemintele wurk al lêzen oer evolúsjonêre strategyen wêrmei dizze post yn' e orizjinele argumint is of it no sil lêze. Wolkom by de kat!

Fersterking learen of evolúsjonêre strategyen? - Beide

Yn maart 2017 makke OpenAI weagen yn 'e djippe learmienskip mei it papier "Evolúsjestrategyen as in skaalber alternatyf foar fersterking learen.” Dit wurk beskreau yndrukwekkende resultaten yn it foardiel fan it feit dat fersterking learen (RL) gjin wig wurden is, en by it oplieden fan komplekse neurale netwurken, is it oan te rieden om oare metoaden te besykjen. In debat ûntstie doe oer it belang fan fersterking learen en hoe't it fertsjinnet fan syn status as in "must-have" technology foar it learen fan probleemoplossing. Hjir wol ik sizze dat dizze twa technologyen net moatte wurde beskôge as konkurrearjende, wêrfan ien dúdlik better is as de oare; krekt oarsom, se komplementearje elkoar úteinlik. Yndied, as jo in bytsje tinke oer wat it kostet om te meitsjen algemiene AI en sokke systemen, dy't har hiele bestean by steat wêze soene om te learen, te oardieljen en te plannen, dan komme wy hast wis ta de konklúzje dat dizze of dy kombinearre oplossing nedich is. Troch de wei, it wie krekt dizze kombinearre oplossing dêr't de natuer kaam ta, dy't begiftigd sûchdieren en oare hegere bisten mei komplekse yntelliginsje yn de rin fan de evolúsje.

Evolúsjonêre strategyen

De haadproefskrift fan it OpenAI-papier wie dat se, ynstee fan fersterkingslearen te brûken kombineare mei tradisjonele efterpropagaasje, in neuraal netwurk mei súkses trainden om komplekse problemen op te lossen mei wat se in "evolúsjonêre strategy" (ES) neamden. Dizze ES-oanpak bestiet út it behâld fan in netwurk-brede ferdieling fan gewichten, wêrby't meardere aginten dy't parallel wurkje en gebrûk meitsje fan parameters selektearre út dizze ferdieling. Elke agint wurket yn har eigen omjouwing, en nei it foltôgjen fan in spesifisearre oantal ôfleverings of stadia fan in ôflevering, jout it algoritme in kumulative beleanning werom, útdrukt as in fitnessscore. Mei dizze wearde yn rekken brocht, kin de ferdieling fan parameters ferpleatst wurde nei mear suksesfolle aginten, minder suksesfolle ûntnimme. Troch sa'n operaasje miljoenen kearen te herheljen mei de dielname fan hûnderten aginten, is it mooglik om de ferdieling fan gewichten te ferpleatsen nei in romte wêrmei de aginten in belied fan hege kwaliteit kinne formulearje foar it oplossen fan 'e taak dy't har tawiisd is. Yndied, de resultaten presintearre yn it artikel binne yndrukwekkend: it wurdt sjen litten dat as jo rinne tûzen aginten parallel, dan kin antropomorphic beweging op twa skonken wurde leard yn minder as in heal oere (wylst sels de meast avansearre RL metoaden fereaskje útjeften mear dan ien oere op dizze). Foar mear detaillearre ynformaasje advisearje ik it lêzen fan 'e poerbêste post fan de skriuwers fan it eksperimint, lykas wittenskiplik artikel.

Fersterking learen of evolúsjonêre strategyen? - Beide

Ferskillende strategyen foar it learen fan antropomorfysk rjochte kuierjen, studearre mei de ES-metoade fan OpenAI.

Swarte doas

It grutte foardiel fan dizze metoade is dat it maklik parallelisearre wurde kin. Wylst RL metoaden, lykas A3C, fereaskje dat ynformaasje wurdt útwiksele tusken worker threads en in parameter tsjinner, ES allinnich nedich fitness skattings en generalisearre parameter distribúsje ynformaasje. It is troch dizze ienfâld dat dizze metoade fier foarút is fan moderne RL-metoaden yn termen fan skaalfergrutting. Dit alles komt lykwols net om 'e nocht: jo moatte it netwurk optimalisearje neffens it swarte doazeprinsipe. Yn dit gefal betsjuttet de "swarte doaze" dat by training de ynterne struktuer fan it netwurk folslein negearre wurdt, en allinich it totale resultaat (beleanning foar de ôflevering) wurdt brûkt, en it hinget derfan ôf oft de gewichten fan in bepaald netwurk sille wurde erfd troch folgjende generaasjes. Yn situaasjes dêr't wy krije net folle feedback fan de omjouwing - en yn in protte tradisjonele RL problemen de stream fan beleannings is hiel sparse - it probleem giet fan in "foar in part swarte doaze" nei in "folslein swarte doaze." Yn dit gefal kinne jo de produktiviteit signifikant ferheegje, dus, fansels, sa'n kompromis is rjochtfeardige. "Wa hat hellingen nedich as se dochs hopeleas lawaaierich binne?" - dit is de algemiene miening.

Yn situaasjes dêr't feedback mear aktyf is, begjinne dingen ferkeard te gean foar de ES. It OpenAI-team beskriuwt hoe't in ienfâldich MNIST-klassifikaasjenetwurk waard oplaat mei ES, en dizze kear wie de training 1000 kear stadiger. It feit is dat it gradientsinjaal yn ôfbyldingsklassifikaasje ekstreem ynformatyf is oer hoe't jo it netwurk bettere klassifikaasje kinne leare. Sa, it probleem is minder mei de RL technyk en mear mei sparse beleannings yn omjouwings dy't produsearje lawaaierige hellingen.

Natuerlike oplossing

As wy besykje te learen fan it foarbyld fan 'e natuer, tinke oer manieren om AI te ûntwikkeljen, dan kin AI yn guon gefallen tocht wurde as probleem-rjochte oanpak. De natuer wurket ommers binnen beheiningen dy't kompjûterwittenskippers gewoan net hawwe. D'r is in miening dat in suver teoretyske oanpak foar it oplossen fan in bepaald probleem effektiver oplossings leverje kin as empiryske alternativen. Ik tink lykwols noch dat it de muoite wurdich wêze soe om te testen hoe't in dynamysk systeem dat wurket ûnder bepaalde beheiningen (de ierde) aginten hat generearre (bisten, benammen sûchdieren) dy't fleksibel en kompleks gedrach hawwe kinne. Wylst guon fan dizze beheiningen net fan tapassing binne yn simulearre gegevenswittenskiplike wrâlden, binne oaren gewoan goed.

Nei't ûndersocht it yntellektuele gedrach fan sûchdieren, sjogge wy dat it wurdt foarme as gefolch fan 'e komplekse ûnderlinge ynfloed fan twa nau ferbûne prosessen: leare út de ûnderfiningen fan oaren и leare troch te dwaan. De earste wurdt faak lyksteld mei evolúsje dreaun troch natuerlike seleksje, mar hjir brûk ik in bredere term om rekken te hâlden mei epigenetika, mikrobiomen en oare meganismen dy't it dielen fan ûnderfiningen mooglik meitsje tusken genetysk net-relatearre organismen. It twadde proses, it learen fan ûnderfining, is alle ynformaasje dy't in bist yn syn libben leart, en dizze ynformaasje wurdt direkt bepaald troch de ynteraksje fan dit bist mei de bûtenwrâld. Dizze kategory omfettet alles fan learen om objekten te herkennen oant it behearjen fan de kommunikaasje dy't ynherinte is yn it learproses.

Rûchwei sprutsen kinne dizze twa prosessen dy't yn 'e natuer foarkomme, wurde fergelike mei twa opsjes foar it optimalisearjen fan neurale netwurken. Evolúsjonêre strategyen, wêrby't ynformaasje oer gradiënten brûkt wurdt om ynformaasje oer it organisme te aktualisearjen, komme ticht by it learen fan 'e ûnderfining fan oaren. Op deselde manier binne gradientmetoaden, wêrby't it krijen fan ien of oare ûnderfining liedt ta ien of oare feroaring yn it gedrach fan 'e agint, te fergelykjen mei it learen fan' e eigen ûnderfining. As wy tinke oer de soarten yntelliginte gedrach of kapasiteiten dy't elk fan dizze twa oanpakken yn bisten ûntwikkelt, wurdt de fergeliking mear útsprutsen. Yn beide gefallen befoarderje "evolúsjonêre metoaden" de stúdzje fan reaktive gedrach dy't it mooglik meitsje om in bepaalde fitness te ûntwikkeljen (genôch om yn libben te bliuwen). Learje om te rinnen of te ûntkommen út finzenskip is yn in protte gefallen lykweardich oan mear "ynstinktyf" gedrach dat by in protte bisten op genetysk nivo "hurd-wired" is. Derneist befêstiget dit foarbyld dat evolúsjonêre metoaden fan tapassing binne yn gefallen wêr't it beleanningssinjaal ekstreem seldsum is (bygelyks it feit fan suksesfolle opfieding fan in poppe). Yn sa'n gefal is it ûnmooglik om de beleanning te korrelearjen mei in spesifike set fan aksjes dy't in protte jierren foar it feit kinne wurde útfierd. Oan 'e oare kant, as wy beskôgje in gefal wêryn ES mislearret, nammentlik byld klassifikaasje, de resultaten binne opmerklik te fergelykjen mei de resultaten fan dier learen berikt yn ûntelbere gedrachsproblemen psychologyske eksperiminten útfierd oer 100-plus jierren.

Learje fan bisten

De metoaden dy't brûkt wurde yn fersterking learen binne yn in protte gefallen direkt út 'e psychologyske literatuer oer operative kondysje, en operante kondysje waard bestudearre mei help fan dierpsychology. Trouwens, Richard Sutton, ien fan 'e twa oprjochters fan fersterking learen, hat in bachelorstitel yn psychology. Yn 'e kontekst fan operante kondysje learje bisten om beleanning of straf te assosjearjen mei spesifike gedrachspatroanen. Trainers en ûndersikers kinne dizze beleanningsferiening op ien of oare manier manipulearje, bisten útlokje om yntelliginsje of bepaalde gedrach te demonstrearjen. Operante kondysje, lykas brûkt yn bisteûndersyk, is lykwols net mear as in mear útsprutsen foarm fan deselde kondysje op basis wêrfan bisten har hiele libben leare. Wy krije konstant sinjalen fan positive fersterking fan 'e omjouwing en oanpasse ús gedrach dêrop. Yn feite, in protte neuroscientists en kognitive wittenskippers leauwe dat minsken en oare bisten eins operearje op in noch heger nivo en hieltyd leare te foarsizze de útkomst fan harren gedrach yn takomstige situaasjes basearre op potinsjele beleannings.

De sintrale rol fan foarsizzing by it learen fan ûnderfining feroaret de dynamyk dy't hjirboppe beskreaun is op wichtige manieren. It sinjaal dat earder as tige sparse waard beskôge (episodyske beleanning) blykt tige dicht te wêzen. Teoretysk is de situaasje sa: op elts momint berekkent it brein fan it sûchdier de útkomsten op basis fan in komplekse stream fan sintúchlike prikels en aksjes, wylst it bist gewoan yn dizze stream ûnderdompele wurdt. Yn dit gefal jout it definitive gedrach fan it bist in sterk sinjaal dat brûkt wurde moat om de oanpassing fan prognosen en de ûntwikkeling fan gedrach te begelieden. It brein brûkt al dizze sinjalen om prognoazes (en dus de kwaliteit fan nommen aksjes) yn 'e takomst te optimalisearjen. In oersjoch fan dizze oanpak wurdt jûn yn it treflike boek "Surfing ûnwissichheid” kognitive wittenskipper en filosoof Andy Clark. As wy sa'n redenearring ekstrapolearje nei de oplieding fan keunstmjittige aginten, dan wurdt in fûnemintele flater yn fersterkingslearen ûntdutsen: it sinjaal dat yn dit paradigma brûkt wurdt is hopeleas swak yn ferliking mei wat it kin (of moat wêze). Yn gefallen dêr't it is ûnmooglik om te fergrutsjen it sinjaal sêding (miskien omdat it is ynherent swak of assosjearre mei leech-nivo reaktiviteit), it is nei alle gedachten better te leaver in training metoade dy't goed parallelized, Bygelyks, ES.

Rikere training fan neurale netwurken

Bouwe op 'e prinsipes fan hegere neuronale aktiviteit ynherinte yn' e sûchdierharsens, dy't konstant dwaande is mei it meitsjen fan foarsizzingen, binne resinte foarútgong makke yn fersterking learen, dy't no rekken hâldt mei it belang fan sokke foarsizzings. Ik kin jo fuortendaliks twa ferlykbere wurken oanbefelje:

Yn beide fan dizze papieren oanfolje de auteurs it typyske standertbelied fan har neurale netwurken mei foarsizzingsresultaten oer de tastân fan it miljeu yn 'e takomst. Yn it earste artikel wurdt prognose tapast op in ferskaat oan mjittingsfariabelen, en yn it twadde wurdt prognose tapast op feroaringen yn 'e omjouwing en it gedrach fan' e agint as sadanich. Yn beide gefallen wurdt it sparse sinjaal ferbûn mei positive fersterking folle riker en mear ynformatyf, wêrtroch sawol rapper learen as it oernimmen fan kompleksere gedrach kinne wurde. Sokke ferbetterings binne allinnich beskikber mei metoaden dy't brûke in gradient sinjaal, en net mei metoaden dy't wurkje op in "swarte doaze" prinsipe, lykas ES.

Derneist binne learen fan ûnderfining en gradientmetoaden folle effektiver. Sels yn gefallen wêr't it mooglik wie om in bepaald probleem te studearjen mei de ES-metoade flugger as it brûken fan fersterkingslearen, waard de winst berikt troch it feit dat de ES-strategy in protte kearen mear gegevens befette as mei RL. Yn dit gefal reflektearje oer de prinsipes fan learen yn bisten, konstatearje wy dat it resultaat fan it learen fan in oar syn foarbyld nei in protte generaasjes ferskynt, wylst soms in inkeld barren dat sels belibbe is genôch foar it bist om de les foar altyd te learen. Wylst like training sûnder foarbylden Hoewol it net hielendal past yn tradisjonele gradientmetoaden, is it folle mear fersteanber dan ES. Der binne bygelyks oanpakken lykas neuronale episodyske kontrôle, wêr't Q-wearden wurde opslein tidens training, wêrnei't it programma se kontrolearret foardat se aksjes nimme. It resultaat is in gradientmetoade wêrmei jo kinne leare hoe't jo problemen folle rapper kinne oplosse as earder. Yn in artikel oer neuronale episodyske kontrôle neame de auteurs de minsklike hippocampus, dy't by steat is om ynformaasje te behâlden oer in evenemint sels nei in inkelde ûnderfining en dus spilet krityske rol yn it proses fan ûnthâlden. Sokke meganismen fereaskje tagong ta de ynterne organisaasje fan 'e agint, dy't ek, per definysje, ûnmooglik is yn it ES-paradigma.

Dus, wêrom net kombinearje se?

It is wierskynlik dat in protte fan dit artikel de yndruk litte kin dat ik RL-metoaden foarstelle. Ik tink lykwols eins dat op 'e lange termyn de bêste oplossing is om beide metoaden te kombinearjen, sadat elk brûkt wurdt yn' e situaasjes wêryn it it bêste past. Fansels, yn it gefal fan in protte reaktyf belied of yn situaasjes mei heul sparse sinjalen fan positive fersterking, wint de ES, foaral as jo de komputerkrêft ta jo beskikking hawwe wêrop jo massaal parallele training kinne útfiere. Oan 'e oare kant sille gradientmetoaden mei help fan fersterkingslearen of learen ûnder begelieding nuttich wêze as wy tagong hawwe ta wiidweidige feedback en moatte leare hoe't jo in probleem fluch en mei minder gegevens kinne oplosse.

Oer de natuer, fine wy ​​dat de earste metoade, yn wêzen, de basis leit foar de twadde. Dit is wêrom, yn 'e rin fan' e evolúsje, hawwe sûchdieren harsens ûntwikkele dy't se ekstreem effektyf kinne leare fan komplekse sinjalen dy't út 'e omjouwing komme. Dat, de fraach bliuwt iepen. Miskien sille evolúsjonêre strategyen ús helpe om effektive leararsjitektueren út te finen dy't ek nuttich sille wêze foar metoaden foar gradientlear. De troch de natuer fûn oplossing is ommers tige slagge.

Boarne: www.habr.com

Add a comment