Tere Habr!
Me ei otsusta sageli postitada siia tõlkeid tekstidest, mis olid kaks aastat vanad, ilma koodita ja selgelt akadeemilist laadi – kuid täna teeme erandi. Loodame, et artikli pealkirjas püstitatud dilemma teeb paljudele meie lugejatele muret ja olete juba lugenud evolutsioonistrateegiaid käsitlevat põhiteost, millega see postitus originaalis vaieldab või seda nüüd loete. Tere tulemast kassi juurde!
2017. aasta märtsis lõi OpenAI sügavas õppekogukonnas laineid paberiga „
Evolutsioonilised strateegiad
OpenAI töö põhitees oli see, et selle asemel, et kasutada tugevdusõpet koos traditsioonilise tagasilevimisega, koolitasid nad edukalt närvivõrku keeruliste probleemide lahendamiseks, kasutades seda, mida nad nimetasid "evolutsioonistrateegiaks" (ES). See ES-lähenemine seisneb kogu võrku hõlmava kaalujaotuse säilitamises, kaasates mitut paralleelselt töötavat agenti ja kasutades sellest jaotusest valitud parameetreid. Iga agent töötab oma keskkonnas ja teatud arvu episoodide või episoodi etappide läbimisel tagastab algoritm kumulatiivse tasu, mis on väljendatud sobivusskoorina. Seda väärtust arvesse võttes saab parameetrite jaotust nihutada edukamate agentide suunas, jättes ilma vähem edukamad. Korrates sellist operatsiooni sadade agentide osalusel miljoneid kordi, on võimalik kaalude jaotus nihutada ruumi, mis võimaldab agentidel koostada neile pandud ülesande lahendamiseks kvaliteetse poliitika. Artiklis esitatud tulemused on tõepoolest muljetavaldavad: on näidatud, et kui käivitada paralleelselt tuhat agenti, saab antropomorfset liikumist kahel jalal õppida vähem kui poole tunniga (samas, isegi kõige arenenumad RL-meetodid nõuavad rohkem kulutusi kui üks tund sellel). Täpsema teabe saamiseks soovitan lugeda suurepärast
Erinevad strateegiad antropomorfse püstikõndi õpetamiseks, mida uuriti OpenAI ES-meetodil.
Must kast
Selle meetodi suur eelis on see, et seda saab hõlpsasti paralleelselt ühendada. Kui RL-meetodid, nagu A3C, nõuavad teabe vahetamist töölõimede ja parameetriserveri vahel, vajab ES ainult sobivuse hinnanguid ja üldist parameetrite jaotuse teavet. Just selle lihtsuse tõttu on see meetod skaleerimisvõimaluste osas tänapäevastest RL-meetoditest kaugel ees. See kõik aga ei tule asjata: võrku tuleb optimeerida musta kasti põhimõttel. Sel juhul tähendab “must kast” seda, et treeningu ajal ignoreeritakse täielikult võrgu sisemist struktuuri ja kasutatakse ainult üldist tulemust (episoodi tasu) ja sellest sõltub, kas konkreetse võrgu kaalud päranduda järgmistele põlvkondadele. Olukordades, kus me ei saa keskkonnalt palju tagasisidet – ja paljude traditsiooniliste RL-probleemide puhul on preemiate voog väga napp –, muutub probleem "osaliselt mustast kastist" "täiesti mustaks kastiks". Sel juhul saate tootlikkust märkimisväärselt tõsta, seega on selline kompromiss loomulikult õigustatud. "Kellele on vaja gradiente, kui need on niikuinii lootusetult lärmakad?" - see on üldine arvamus.
Olukordades, kus tagasiside on aga aktiivsem, hakkavad ES-i jaoks asjad viltu minema. OpenAI meeskond kirjeldab, kuidas ES-i abil koolitati lihtsat MNIST klassifikatsioonivõrku ja seekord oli koolitus 1000 korda aeglasem. Fakt on see, et pildi klassifikatsiooni gradientsignaal on võrgu parema klassifitseerimise õpetamise osas äärmiselt informatiivne. Seega on probleem vähem RL-tehnikas ja pigem hõredates hüvedes keskkondades, mis tekitavad mürarikkaid gradiente.
Looduse lahendus
Kui püüame õppida looduse eeskujust, mõeldes tehisintellekti arendamise viisidele, siis mõnel juhul võib tehisintellekti mõelda kui
Olles uurinud imetajate intellektuaalset käitumist, näeme, et see kujuneb kahe omavahel tihedalt seotud protsessi kompleksse vastastikuse mõju tulemusena: teiste kogemustest õppimine и õppides tegutsedes. Esimest võrdsustatakse sageli looduslikust valikust juhitud evolutsiooniga, kuid siin kasutan laiemat terminit, et võtta arvesse epigeneetikat, mikrobioome ja muid mehhanisme, mis võimaldavad kogemusi jagada geneetiliselt mitteseotud organismide vahel. Teine protsess, kogemusest õppimine, on kogu teave, mida loomal õnnestub kogu elu jooksul õppida ja selle teabe määrab otseselt selle looma suhtlemine välismaailmaga. See kategooria hõlmab kõike alates objektide äratundmise õppimisest kuni õppeprotsessile omase suhtluse valdamiseni.
Laias laastus võib neid kahte looduses toimuvat protsessi võrrelda kahe võimalusega närvivõrkude optimeerimiseks. Evolutsioonilised strateegiad, kus gradientide teavet kasutatakse organismi kohta käiva teabe värskendamiseks, on lähedal teiste kogemustest õppimisele. Samamoodi on oma kogemusest õppimisega võrreldavad gradientmeetodid, kus ühe või teise kogemuse saamine toob kaasa ühe või teise muutuse agendi käitumises. Kui mõelda sellele, millist tüüpi intelligentset käitumist või võimeid need kaks lähenemist loomadel arendavad, muutub võrdlus selgemaks. Mõlemal juhul edendavad "evolutsioonilised meetodid" reaktiivse käitumise uurimist, mis võimaldab arendada teatud sobivust (piisavalt elus püsimiseks). Kõndima või vangistuses põgenemise õppimine on paljudel juhtudel samaväärne "instinktiivsema" käitumisega, mis on paljudel loomadel geneetilisel tasandil "kõvasti seotud". Lisaks kinnitab see näide, et evolutsioonilised meetodid on rakendatavad juhtudel, kui tasusignaal on äärmiselt haruldane (näiteks lapse eduka kasvatamise fakt). Sellisel juhul on võimatu seostada tasu ühegi konkreetse tegevusega, mis võidi sooritada palju aastaid enne selle fakti ilmnemist. Teisest küljest, kui võtta arvesse juhtumit, kus ES ebaõnnestub, nimelt kujutiste klassifitseerimine, on tulemused märkimisväärselt võrreldavad loomade õppimise tulemustega, mis on saavutatud lugematutes käitumispsühholoogilistes katsetes, mis on läbi viidud üle 100 aasta.
Loomadelt õppimine
Tugevdusõppes kasutatavad meetodid on paljudel juhtudel võetud otse psühholoogilisest kirjandusest
Prognoosimise keskne roll kogemusest õppimisel muudab ülalkirjeldatud dünaamikat olulisel määral. Varem väga hõredaks peetud signaal (episoodiline tasu) osutub väga tihedaks. Teoreetiliselt on olukord umbes selline: imetaja aju arvutab igal ajahetkel tulemusi keeruka sensoorsete stiimulite ja tegevuste voo põhjal, samal ajal kui loom on lihtsalt sellesse voogu uppunud. Sel juhul annab looma lõplik käitumine tugeva signaali, mida tuleb kasutada prognooside korrigeerimisel ja käitumise kujunemisel. Aju kasutab kõiki neid signaale, et optimeerida prognoose (ja vastavalt ka tehtud toimingute kvaliteeti) tulevikus. Ülevaade sellest lähenemisest on antud suurepärases raamatus "
Närvivõrkude rikkalikum koolitus
Tuginedes pidevalt ennustuste tegemisega hõivatud imetajate ajule omase kõrgema närviaktiivsuse põhimõtetele, on viimastel aastatel tehtud edusamme õppimise tugevdamises, mis võtab nüüd arvesse selliste ennustuste tähtsust. Võin teile kohe soovitada kahte sarnast teost:
Mõlemas artiklis täiendavad autorid oma närvivõrkude tüüpilist vaikepoliitikat ennustustulemustega keskkonna seisundi kohta tulevikus. Esimeses artiklis rakendatakse prognoosimist mitmesugustele mõõtemuutujatele ja teises keskkonnas ja agendi käitumises toimuvatele muutustele kui sellisele. Mõlemal juhul muutub positiivse tugevdusega seotud hõre signaal palju rikkalikumaks ja informatiivsemaks, võimaldades nii kiiremat õppimist kui ka keerukamate käitumisviiside omandamist. Sellised täiustused on saadaval ainult meetoditega, mis kasutavad gradientsignaali, mitte aga meetoditega, mis töötavad "musta kasti" põhimõttel (nt ES).
Lisaks on kogemustest õppimine ja gradientmeetodid palju tõhusamad. Isegi juhtudel, kui ES-meetodiga oli võimalik konkreetset probleemi uurida kiiremini kui tugevdusõppega, saavutati kasu tänu sellele, et ES-i strateegia hõlmas kordades rohkem andmeid kui RL-i puhul. Mõeldes antud juhul loomade õppimise põhimõtetele, märgime, et kellegi teise eeskujul õppimise tulemus avaldub paljude põlvkondade järel, samas kui mõnikord piisab ühest enda kogetud sündmusest, et loom saaks õppetunni igaveseks õppida. Kuigi meeldib
Niisiis, miks mitte neid kombineerida?
Tõenäoliselt võib suur osa sellest artiklist jätta mulje, et pooldan RL-i meetodeid. Siiski arvan tegelikult, et pikemas perspektiivis on parim lahendus mõlema meetodi kombineerimine, nii et kumbagi kasutatakse olukorras, kus see kõige paremini sobib. Ilmselgelt võidab ES paljude reaktiivsete poliitikate puhul või olukordades, kus positiivse tugevduse signaalid on väga hõredad, eriti kui teie käsutuses on arvutusvõimsus, mille abil saate massiliselt paralleelselt treenida. Teisest küljest on tugevdusõpet või juhendatud õpet kasutavad gradientmeetodid kasulikud siis, kui meil on juurdepääs ulatuslikule tagasisidele ja peame õppima, kuidas probleemi kiiresti ja vähemate andmetega lahendada.
Looduse poole pöördudes leiame, et esimene meetod paneb sisuliselt aluse teisele. Seetõttu on imetajatel evolutsiooni käigus välja arenenud ajud, mis võimaldavad neil keskkonnast tulevatest keerulistest signaalidest ülitõhusalt õppida. Niisiis, küsimus jääb lahtiseks. Võib-olla aitavad evolutsioonilised strateegiad meil leiutada tõhusaid õppearhitektuure, mis on kasulikud ka gradientõppe meetodite jaoks. Looduse leitud lahendus on ju tõepoolest väga edukas.
Allikas: www.habr.com