🥇Kas tugevdada õppimist või evolutsioonistrateegiaid? — mõlemad

Tere Habr!

Me ei otsusta sageli postitada siia tõlkeid tekstidest, mis olid kaks aastat vanad, ilma koodita ja selgelt akadeemilist laadi – kuid täna teeme erandi. Loodame, et artikli pealkirjas püstitatud dilemma teeb paljudele meie lugejatele muret ja olete juba lugenud evolutsioonistrateegiaid käsitlevat põhiteost, millega see postitus originaalis vaieldab või seda nüüd loete. Tere tulemast kassi juurde!

2017. aasta märtsis lõi OpenAI sügavas õppekogukonnas laineid paberiga „Evolutsioonistrateegiad kui skaleeritav alternatiiv õppimisele.” See töö kirjeldas muljetavaldavaid tulemusi selle kasuks, et tugevdusõpe (RL) ei ole muutunud kiiluks ning keeruliste närvivõrkude treenimisel on soovitatav proovida muid meetodeid. Seejärel puhkes arutelu tugevdava õppimise tähtsuse ja selle üle, kuivõrd see väärib selle staatust probleemide lahendamise õpetamise "peab-oma" tehnoloogiana. Siinkohal tahan öelda, et neid kahte tehnoloogiat ei tohiks pidada konkureerivaks, millest üks on selgelt parem kui teine; vastupidi, lõppkokkuvõttes täiendavad nad üksteist. Tõepoolest, kui mõtlete natuke selle üle, mida selle loomiseks vaja on üldine AI ja sellised süsteemid, mis kogu oma olemasolu jooksul oleksid õppimis-, otsustus- ja planeerimisvõimelised, siis jõuame peaaegu kindlasti järeldusele, et seda või teist kombineeritud lahendust on vaja. Muide, just sellise kombineeritud lahenduseni jõudis loodus, mis andis imetajatele ja teistele kõrgematele loomadele evolutsiooni käigus keeruka intelligentsuse.

Evolutsioonilised strateegiad

OpenAI töö põhitees oli see, et selle asemel, et kasutada tugevdusõpet koos traditsioonilise tagasilevimisega, koolitasid nad edukalt närvivõrku keeruliste probleemide lahendamiseks, kasutades seda, mida nad nimetasid "evolutsioonistrateegiaks" (ES). See ES-lähenemine seisneb kogu võrku hõlmava kaalujaotuse säilitamises, kaasates mitut paralleelselt töötavat agenti ja kasutades sellest jaotusest valitud parameetreid. Iga agent töötab oma keskkonnas ja teatud arvu episoodide või episoodi etappide läbimisel tagastab algoritm kumulatiivse tasu, mis on väljendatud sobivusskoorina. Seda väärtust arvesse võttes saab parameetrite jaotust nihutada edukamate agentide suunas, jättes ilma vähem edukamad. Korrates sellist operatsiooni sadade agentide osalusel miljoneid kordi, on võimalik kaalude jaotus nihutada ruumi, mis võimaldab agentidel koostada neile pandud ülesande lahendamiseks kvaliteetse poliitika. Artiklis esitatud tulemused on tõepoolest muljetavaldavad: on näidatud, et kui käivitada paralleelselt tuhat agenti, saab antropomorfset liikumist kahel jalal õppida vähem kui poole tunniga (samas, isegi kõige arenenumad RL-meetodid nõuavad rohkem kulutusi kui üks tund sellel). Täpsema teabe saamiseks soovitan lugeda suurepärast postitus eksperimendi autoritelt, samuti teaduslik artikkel.

Erinevad strateegiad antropomorfse püstikõndi õpetamiseks, mida uuriti OpenAI ES-meetodil.

Must kast

Selle meetodi suur eelis on see, et seda saab hõlpsasti paralleelselt ühendada. Kui RL-meetodid, nagu A3C, nõuavad teabe vahetamist töölõimede ja parameetriserveri vahel, vajab ES ainult sobivuse hinnanguid ja üldist parameetrite jaotuse teavet. Just selle lihtsuse tõttu on see meetod skaleerimisvõimaluste osas tänapäevastest RL-meetoditest kaugel ees. See kõik aga ei tule asjata: võrku tuleb optimeerida musta kasti põhimõttel. Sel juhul tähendab “must kast” seda, et treeningu ajal ignoreeritakse täielikult võrgu sisemist struktuuri ja kasutatakse ainult üldist tulemust (episoodi tasu) ja sellest sõltub, kas konkreetse võrgu kaalud päranduda järgmistele põlvkondadele. Olukordades, kus me ei saa keskkonnalt palju tagasisidet – ja paljude traditsiooniliste RL-probleemide puhul on preemiate voog väga napp –, muutub probleem "osaliselt mustast kastist" "täiesti mustaks kastiks". Sel juhul saate tootlikkust märkimisväärselt tõsta, seega on selline kompromiss loomulikult õigustatud. "Kellele on vaja gradiente, kui need on niikuinii lootusetult lärmakad?" - see on üldine arvamus.

Olukordades, kus tagasiside on aga aktiivsem, hakkavad ES-i jaoks asjad viltu minema. OpenAI meeskond kirjeldab, kuidas ES-i abil koolitati lihtsat MNIST klassifikatsioonivõrku ja seekord oli koolitus 1000 korda aeglasem. Fakt on see, et pildi klassifikatsiooni gradientsignaal on võrgu parema klassifitseerimise õpetamise osas äärmiselt informatiivne. Seega on probleem vähem RL-tehnikas ja pigem hõredates hüvedes keskkondades, mis tekitavad mürarikkaid gradiente.

Looduse lahendus

Kui püüame õppida looduse eeskujust, mõeldes tehisintellekti arendamise viisidele, siis mõnel juhul võib tehisintellekti mõelda kui probleemile orienteeritud lähenemine. Loodus tegutseb ju piirangutes, mida arvutiteadlastel lihtsalt ei ole. Arvatakse, et puhtalt teoreetiline lähenemine konkreetse probleemi lahendamisele võib pakkuda tõhusamaid lahendusi kui empiirilised alternatiivid. Siiski arvan endiselt, et tasuks testida, kuidas teatud piirangute all töötav dünaamiline süsteem (Maa) on tekitanud aineid (loomad, eriti imetajad), kes on võimelised käituma paindlikult ja keerukalt. Kuigi mõned neist piirangutest ei kehti simuleeritud andmeteaduse maailmades, on teised lihtsalt head.

Olles uurinud imetajate intellektuaalset käitumist, näeme, et see kujuneb kahe omavahel tihedalt seotud protsessi kompleksse vastastikuse mõju tulemusena: teiste kogemustest õppimine и õppides tegutsedes. Esimest võrdsustatakse sageli looduslikust valikust juhitud evolutsiooniga, kuid siin kasutan laiemat terminit, et võtta arvesse epigeneetikat, mikrobioome ja muid mehhanisme, mis võimaldavad kogemusi jagada geneetiliselt mitteseotud organismide vahel. Teine protsess, kogemusest õppimine, on kogu teave, mida loomal õnnestub kogu elu jooksul õppida ja selle teabe määrab otseselt selle looma suhtlemine välismaailmaga. See kategooria hõlmab kõike alates objektide äratundmise õppimisest kuni õppeprotsessile omase suhtluse valdamiseni.

Laias laastus võib neid kahte looduses toimuvat protsessi võrrelda kahe võimalusega närvivõrkude optimeerimiseks. Evolutsioonilised strateegiad, kus gradientide teavet kasutatakse organismi kohta käiva teabe värskendamiseks, on lähedal teiste kogemustest õppimisele. Samamoodi on oma kogemusest õppimisega võrreldavad gradientmeetodid, kus ühe või teise kogemuse saamine toob kaasa ühe või teise muutuse agendi käitumises. Kui mõelda sellele, millist tüüpi intelligentset käitumist või võimeid need kaks lähenemist loomadel arendavad, muutub võrdlus selgemaks. Mõlemal juhul edendavad "evolutsioonilised meetodid" reaktiivse käitumise uurimist, mis võimaldab arendada teatud sobivust (piisavalt elus püsimiseks). Kõndima või vangistuses põgenemise õppimine on paljudel juhtudel samaväärne "instinktiivsema" käitumisega, mis on paljudel loomadel geneetilisel tasandil "kõvasti seotud". Lisaks kinnitab see näide, et evolutsioonilised meetodid on rakendatavad juhtudel, kui tasusignaal on äärmiselt haruldane (näiteks lapse eduka kasvatamise fakt). Sellisel juhul on võimatu seostada tasu ühegi konkreetse tegevusega, mis võidi sooritada palju aastaid enne selle fakti ilmnemist. Teisest küljest, kui võtta arvesse juhtumit, kus ES ebaõnnestub, nimelt kujutiste klassifitseerimine, on tulemused märkimisväärselt võrreldavad loomade õppimise tulemustega, mis on saavutatud lugematutes käitumispsühholoogilistes katsetes, mis on läbi viidud üle 100 aasta.

Loomadelt õppimine

Tugevdusõppes kasutatavad meetodid on paljudel juhtudel võetud otse psühholoogilisest kirjandusest operantne konditsioneerimineja operantset konditsioneerimist uuriti loomapsühholoogia abil. Muide, Richard Sutton, üks kahest tugevdusõppe rajajast, on omandanud bakalaureuse kraadi psühholoogias. Operantse tingimise kontekstis õpivad loomad seostama tasu või karistust konkreetsete käitumismustritega. Koolitajad ja teadlased saavad seda tasuühendust ühel või teisel viisil manipuleerida, provotseerides loomi intelligentsust või teatud käitumist demonstreerima. Loomade uurimisel kasutatav operantne konditsioneerimine pole aga midagi muud kui sama tingimise väljendunud vorm, mille alusel loomad kogu oma elu õpivad. Saame pidevalt keskkonnast positiivse tugevduse signaale ja kohandame oma käitumist vastavalt sellele. Tegelikult usuvad paljud neuroteadlased ja kognitiivteadlased, et inimesed ja teised loomad tegutsevad tegelikult veelgi kõrgemal tasemel ning õpivad pidevalt ennustama oma käitumise tulemust tulevastes olukordades võimalike hüvede põhjal.

Prognoosimise keskne roll kogemusest õppimisel muudab ülalkirjeldatud dünaamikat olulisel määral. Varem väga hõredaks peetud signaal (episoodiline tasu) osutub väga tihedaks. Teoreetiliselt on olukord umbes selline: imetaja aju arvutab igal ajahetkel tulemusi keeruka sensoorsete stiimulite ja tegevuste voo põhjal, samal ajal kui loom on lihtsalt sellesse voogu uppunud. Sel juhul annab looma lõplik käitumine tugeva signaali, mida tuleb kasutada prognooside korrigeerimisel ja käitumise kujunemisel. Aju kasutab kõiki neid signaale, et optimeerida prognoose (ja vastavalt ka tehtud toimingute kvaliteeti) tulevikus. Ülevaade sellest lähenemisest on antud suurepärases raamatus "Surfamise ebakindlus” kognitiivteadlane ja filosoof Andy Clark. Kui ekstrapoleerida selline arutluskäik tehisagentide väljaõppele, siis ilmneb tugevdusõppe põhiline viga: selles paradigmas kasutatav signaal on lootusetult nõrk võrreldes sellega, mis see võiks (või peaks olema). Juhtudel, kui signaali küllastust pole võimalik suurendada (võib-olla seetõttu, et see on oma olemuselt nõrk või seotud madala reaktiivsusega), on ilmselt parem eelistada hästi paralleelset treeningmeetodit, näiteks ES.

Närvivõrkude rikkalikum koolitus

Tuginedes pidevalt ennustuste tegemisega hõivatud imetajate ajule omase kõrgema närviaktiivsuse põhimõtetele, on viimastel aastatel tehtud edusamme õppimise tugevdamises, mis võtab nüüd arvesse selliste ennustuste tähtsust. Võin teile kohe soovitada kahte sarnast teost:

Mõlemas artiklis täiendavad autorid oma närvivõrkude tüüpilist vaikepoliitikat ennustustulemustega keskkonna seisundi kohta tulevikus. Esimeses artiklis rakendatakse prognoosimist mitmesugustele mõõtemuutujatele ja teises keskkonnas ja agendi käitumises toimuvatele muutustele kui sellisele. Mõlemal juhul muutub positiivse tugevdusega seotud hõre signaal palju rikkalikumaks ja informatiivsemaks, võimaldades nii kiiremat õppimist kui ka keerukamate käitumisviiside omandamist. Sellised täiustused on saadaval ainult meetoditega, mis kasutavad gradientsignaali, mitte aga meetoditega, mis töötavad "musta kasti" põhimõttel (nt ES).

Lisaks on kogemustest õppimine ja gradientmeetodid palju tõhusamad. Isegi juhtudel, kui ES-meetodiga oli võimalik konkreetset probleemi uurida kiiremini kui tugevdusõppega, saavutati kasu tänu sellele, et ES-i strateegia hõlmas kordades rohkem andmeid kui RL-i puhul. Mõeldes antud juhul loomade õppimise põhimõtetele, märgime, et kellegi teise eeskujul õppimise tulemus avaldub paljude põlvkondade järel, samas kui mõnikord piisab ühest enda kogetud sündmusest, et loom saaks õppetunni igaveseks õppida. Kuigi meeldib koolitus ilma näideteta Kuigi see ei sobi päris traditsiooniliste gradiendimeetoditega, on see palju arusaadavam kui ES. On näiteks selliseid lähenemisi nagu neuraalne episoodiline kontroll, kus Q-väärtused salvestatakse treeningprotsessi ajal, mille järel programm kontrollib neid enne toimingute tegemist. Tulemuseks on gradientmeetod, mis võimaldab õppida probleeme senisest palju kiiremini lahendama. Artiklis neuraalse episoodilise kontrolli kohta mainivad autorid inimese hipokampust, mis on võimeline säilitama teavet sündmuse kohta isegi pärast ühekordset kogemust ja seetõttu mängib kriitilist rolli mäletamise protsessis. Sellised mehhanismid nõuavad juurdepääsu agendi sisemisele organisatsioonile, mis on ES-i paradigmas samuti definitsiooni järgi võimatu.

Niisiis, miks mitte neid kombineerida?

Tõenäoliselt võib suur osa sellest artiklist jätta mulje, et pooldan RL-i meetodeid. Siiski arvan tegelikult, et pikemas perspektiivis on parim lahendus mõlema meetodi kombineerimine, nii et kumbagi kasutatakse olukorras, kus see kõige paremini sobib. Ilmselgelt võidab ES paljude reaktiivsete poliitikate puhul või olukordades, kus positiivse tugevduse signaalid on väga hõredad, eriti kui teie käsutuses on arvutusvõimsus, mille abil saate massiliselt paralleelselt treenida. Teisest küljest on tugevdusõpet või juhendatud õpet kasutavad gradientmeetodid kasulikud siis, kui meil on juurdepääs ulatuslikule tagasisidele ja peame õppima, kuidas probleemi kiiresti ja vähemate andmetega lahendada.

Looduse poole pöördudes leiame, et esimene meetod paneb sisuliselt aluse teisele. Seetõttu on imetajatel evolutsiooni käigus välja arenenud ajud, mis võimaldavad neil keskkonnast tulevatest keerulistest signaalidest ülitõhusalt õppida. Niisiis, küsimus jääb lahtiseks. Võib-olla aitavad evolutsioonilised strateegiad meil leiutada tõhusaid õppearhitektuure, mis on kasulikud ka gradientõppe meetodite jaoks. Looduse leitud lahendus on ju tõepoolest väga edukas.

Allikas: www.habr.com

Õppimise või evolutsioonistrateegiate tugevdamine? - Mõlemad