Učenje s krepitvijo ali evolucijske strategije? - Oboje

Pozdravljeni, Habr!

Ne odločamo se pogosto, da bi tukaj objavljali prevode besedil, ki so bili stari dve leti, brez kode in očitno akademske narave - a danes bomo naredili izjemo. Upamo, da dilema, postavljena v naslovu članka, skrbi marsikaterega našega bralca in ste temeljno delo o evolucijskih strategijah, s katerim argumentira ta prispevek, v izvirniku že prebrali oziroma ga boste prebrali zdaj. Dobrodošli pri mački!

Učenje s krepitvijo ali evolucijske strategije? - Oboje

Marca 2017 je OpenAI vzbudil valove v skupnosti globokega učenja s prispevkom »Razvojne strategije kot razširljiva alternativa učenju s krepitvijo" To delo je opisalo impresivne rezultate v prid dejstvu, da učenje z okrepitvijo (RL) ni postalo klin, in pri usposabljanju zapletenih nevronskih mrež je priporočljivo preizkusiti druge metode. Nato je izbruhnila razprava o pomenu učenja s krepitvijo in o tem, kako si zasluži status tehnologije, ki jo je treba imeti za poučevanje reševanja problemov. Tukaj želim povedati, da teh dveh tehnologij ne bi smeli obravnavati kot konkurenčnih, od katerih je ena očitno boljša od druge; nasprotno, navsezadnje se dopolnjujeta. Res, če malo pomislite, kaj je potrebno za ustvarjanje splošni AI in takšnih sistemov, ki bi bili ves čas svojega obstoja sposobni učenja, presojanja in načrtovanja, potem bomo skoraj zagotovo prišli do tega, da bo potrebna takšna ali ona kombinirana rešitev. Mimogrede, prav do te kombinirane rešitve je prišla narava, ki je sesalce in druge višje živali tekom evolucije obdarila s kompleksno inteligenco.

Evolucijske strategije

Glavna teza dokumenta OpenAI je bila, da so namesto uporabe učenja z ojačitvijo v kombinaciji s tradicionalnim širjenjem nazaj uspešno usposobili nevronsko mrežo za reševanje zapletenih problemov z uporabo tega, kar so imenovali "evolucijska strategija" (ES). Ta pristop ES je sestavljen iz vzdrževanja porazdelitve uteži po celotnem omrežju, ki vključuje več agentov, ki delujejo vzporedno in uporabljajo parametre, izbrane iz te porazdelitve. Vsak agent deluje v svojem okolju in po zaključku določenega števila epizod ali stopenj epizode algoritem vrne kumulativno nagrado, izraženo kot ocena telesne pripravljenosti. Ob upoštevanju te vrednosti se lahko porazdelitev parametrov premakne proti uspešnejšim agentom in prikrajša manj uspešne. Z večmilijonsko ponovitvijo takšne operacije ob sodelovanju stotin agentov je mogoče premakniti porazdelitev uteži v prostor, ki bo agentom omogočil oblikovanje kakovostne politike za reševanje naloge, ki jim je dodeljena. Dejansko so rezultati, predstavljeni v članku, impresivni: dokazano je, da če vzporedno izvajate tisoč agentov, se antropomorfnega gibanja na dveh nogah lahko naučite v manj kot pol ure (medtem ko tudi najnaprednejše metode RL zahtevajo večjo porabo več kot eno uro o tem). Za podrobnejše informacije priporočam branje odličnega post od avtorjev poskusa, pa tudi znanstveni članek.

Učenje s krepitvijo ali evolucijske strategije? - Oboje

Različne strategije za poučevanje antropomorfne pokončne hoje, preučene z uporabo metode ES iz OpenAI.

Črna škatla

Velika prednost te metode je, da jo je mogoče enostavno vzporediti. Medtem ko metode RL, kot je A3C, zahtevajo izmenjavo informacij med delovnimi nitmi in strežnikom parametrov, ES potrebuje samo ocene sposobnosti in splošne informacije o porazdelitvi parametrov. Prav zaradi te preprostosti je ta metoda daleč pred sodobnimi metodami RL glede na zmožnosti skaliranja. Vendar vse to ni zaman: omrežje morate optimizirati po principu črne skrinjice. V tem primeru »črna skrinjica« pomeni, da se med treningom popolnoma zanemari notranja struktura mreže in se uporabi samo skupni rezultat (nagrada za epizodo), od katerega je odvisno, ali bodo uteži posamezne mreže podedujejo naslednje generacije. V situacijah, ko ne prejmemo veliko povratnih informacij iz okolja – in pri številnih tradicionalnih težavah RL je tok nagrad zelo redek – se težava spremeni iz »delno črne skrinjice« v »popolnoma črno skrinjico«. V tem primeru lahko znatno povečate produktivnost, zato je seveda takšen kompromis upravičen. "Kdo potrebuje gradiente, če so tako ali tako brezupno hrupni?" - to je splošno mnenje.

Toda v situacijah, ko je povratna informacija bolj aktivna, gredo stvari za ES narobe. Ekipa OpenAI opisuje, kako je bilo preprosto klasifikacijsko omrežje MNIST usposobljeno z uporabo ES in tokrat je bilo usposabljanje 1000-krat počasnejše. Dejstvo je, da je gradientni signal pri klasifikaciji slik izjemno informativen glede tega, kako omrežje naučiti boljše klasifikacije. Tako je problem manj pri tehniki RL in bolj pri redkih nagradah v okoljih, ki ustvarjajo hrupne gradiente.

Rešitev narave

Če se poskušamo učiti iz primera narave in razmišljamo o načinih za razvoj umetne inteligence, potem lahko v nekaterih primerih umetno inteligenco razumemo kot problemsko usmerjen pristop. Navsezadnje narava deluje znotraj omejitev, ki jih računalničarji preprosto nimajo. Obstaja mnenje, da lahko čisto teoretični pristop k reševanju določenega problema zagotovi učinkovitejše rešitve kot empirične alternative. Še vedno pa menim, da bi bilo vredno preizkusiti, kako je dinamičen sistem, ki deluje pod določenimi omejitvami (Zemlja), ustvaril agente (živali, zlasti sesalce), ki so sposobni prožnega in kompleksnega vedenja. Medtem ko nekatere od teh omejitev ne veljajo v simuliranih svetovih znanosti o podatkih, so druge povsem v redu.

Ko smo preučili intelektualno vedenje sesalcev, vidimo, da nastane kot posledica kompleksnega medsebojnega vpliva dveh tesno povezanih procesov: učenje iz izkušenj drugih и učenje z delom. Prvo pogosto enačimo z evolucijo, ki jo poganja naravna selekcija, vendar tukaj uporabljam širši izraz, da upoštevam epigenetiko, mikrobiome in druge mehanizme, ki omogočajo izmenjavo izkušenj med genetsko nepovezanimi organizmi. Drugi proces, učenje iz izkušenj, so vse informacije, ki se jih žival uspe naučiti skozi svoje življenje, in te informacije neposredno določa interakcija te živali z zunanjim svetom. Ta kategorija vključuje vse od učenja prepoznavanja predmetov do obvladovanja komunikacije, ki je del učnega procesa.

V grobem lahko ta dva procesa, ki se dogajata v naravi, primerjamo z dvema možnostma optimizacije nevronskih mrež. Evolucijske strategije, kjer se informacije o gradientih uporabljajo za posodobitev informacij o organizmu, se približajo učenju iz izkušenj drugih. Podobno so gradientne metode, kjer pridobivanje ene ali drugačne izkušnje povzroči takšno ali drugačno spremembo v vedenju agenta, primerljive z učenjem iz lastne izkušnje. Če pomislimo na vrste inteligentnega vedenja ali sposobnosti, ki jih vsak od teh dveh pristopov razvije pri živalih, postane primerjava bolj izrazita. V obeh primerih "evolucijske metode" spodbujajo preučevanje reaktivnega vedenja, ki omogoča, da se razvije določena telesna pripravljenost (zadostna za preživetje). Učenje hoje ali pobeg iz ujetništva je v mnogih primerih enakovredno bolj »instinktivnemu« vedenju, ki je pri mnogih živalih »prirejeno« na genetski ravni. Poleg tega ta primer potrjuje, da so evolucijske metode uporabne v primerih, ko je znak nagrajevanja izjemno redek (na primer dejstvo uspešne vzgoje otroka). V takem primeru je nagrade nemogoče povezati z določenim sklopom dejanj, ki so bila morda izvedena mnogo let pred nastopom tega dejstva. Po drugi strani pa, če upoštevamo primer, v katerem ES ne uspe, in sicer klasifikacijo slik, so rezultati neverjetno primerljivi z rezultati učenja živali, doseženimi v neštetih vedenjskih psiholoških poskusih, izvedenih več kot 100 let.

Učenje od živali

Metode, ki se uporabljajo pri učenju s krepitvijo, so v mnogih primerih vzete neposredno iz psihološke literature operantno kondicioniranje, operantno kondicioniranje pa so preučevali s pomočjo psihologije živali. Mimogrede, Richard Sutton, eden od dveh utemeljiteljev učenja s krepitvijo, ima diplomo iz psihologije. V kontekstu operantnega pogojevanja se živali naučijo povezovati nagrado ali kazen s posebnimi vedenjskimi vzorci. Trenerji in raziskovalci lahko na tak ali drugačen način manipulirajo s to zvezo nagrajevanja, tako da spodbujajo živali, da pokažejo inteligenco ali določeno vedenje. Vendar pa operantno pogojevanje, kot se uporablja v raziskavah na živalih, ni nič drugega kot izrazitejša oblika istega pogojevanja, na podlagi katerega se živali učijo vse življenje. Nenehno prejemamo signale pozitivne okrepitve iz okolja in temu prilagodimo svoje vedenje. Pravzaprav mnogi nevroznanstveniki in kognitivni znanstveniki verjamejo, da ljudje in druge živali dejansko delujejo na še višji ravni in se nenehno učijo napovedovati izid svojega vedenja v prihodnjih situacijah na podlagi potencialnih nagrad.

Osrednja vloga napovedovanja pri učenju iz izkušenj pomembno spreminja zgoraj opisano dinamiko. Signal, ki je prej veljal za zelo redkega (epizodična nagrada), se je izkazal za zelo gost. Teoretično je situacija približno takšna: v danem trenutku možgani sesalca izračunavajo rezultate na podlagi kompleksnega toka čutnih dražljajev in dejanj, medtem ko je žival preprosto potopljena v ta tok. V tem primeru daje končno vedenje živali močan signal, ki ga je treba uporabiti za usmerjanje prilagajanja napovedi in razvoja vedenja. Možgani uporabljajo vse te signale, da optimizirajo napovedi (in s tem kakovost izvedenih ukrepov) v prihodnosti. Pregled tega pristopa je podan v odlični knjigi “Deskanje Negotovost” kognitivni znanstvenik in filozof Andy Clark. Če takšno sklepanje ekstrapoliramo na usposabljanje umetnih agentov, potem se razkrije temeljna napaka v učenju z okrepitvijo: signal, uporabljen v tej paradigmi, je brezupno šibek v primerjavi s tem, kar bi lahko bil (ali bi moral biti). V primerih, ko je nemogoče povečati nasičenost signala (morda zato, ker je sama po sebi šibka ali povezana z nizko stopnjo reaktivnosti), je verjetno bolje izbrati metodo usposabljanja, ki je dobro vzporedna, na primer ES.

Bogatejše usposabljanje nevronskih mrež

Na podlagi načel višje nevronske aktivnosti, ki je lastna možganom sesalcev, ki so nenehno zaposleni z napovedmi, je bil nedavno dosežen napredek pri učenju s krepitvijo, ki zdaj upošteva pomen takšnih napovedi. Takoj vam lahko priporočim dve podobni deli:

V obeh prispevkih avtorji tipično privzeto politiko svojih nevronskih mrež dopolnjujejo z rezultati napovedi o stanju okolja v prihodnosti. V prvem članku je napovedovanje uporabljeno za različne merske spremenljivke, v drugem pa je napovedovanje uporabljeno za spremembe v okolju in obnašanje agenta kot takega. V obeh primerih postane redek signal, povezan s pozitivno okrepitvijo, veliko bogatejši in bolj informativen, kar omogoča hitrejše učenje in pridobivanje bolj zapletenega vedenja. Takšne izboljšave so na voljo samo pri metodah, ki uporabljajo gradientni signal, in ne pri metodah, ki delujejo po principu »črne skrinjice«, kot je ES.

Poleg tega so učenje iz izkušenj in gradientne metode veliko bolj učinkovite. Tudi v primerih, ko je bilo mogoče posamezen problem z metodo ES proučiti hitreje kot z učenjem z okrepitvijo, je bil dobiček dosežen zaradi dejstva, da je strategija ES vključevala večkrat več podatkov kot z RL. Če v tem primeru razmišljamo o principih učenja pri živalih, ugotavljamo, da se rezultat učenja iz zgleda nekoga drugega pokaže po mnogih generacijah, včasih pa je dovolj en sam dogodek, ki ga sama doživi, ​​da se žival lekcije nauči za vedno. Medtem ko je všeč usposabljanje brez primerov Čeprav se ne prilega povsem tradicionalnim metodam gradienta, je veliko bolj razumljiv kot ES. Obstajajo na primer pristopi, kot je npr nevronski epizodni nadzor, kjer se Q-vrednosti shranjujejo med procesom usposabljanja, nato pa jih program preveri, preden izvede dejanja. Rezultat je gradientna metoda, ki vam omogoča, da se naučite reševati probleme veliko hitreje kot prej. V članku o živčnem epizodnem nadzoru avtorji omenjajo človeški hipokampus, ki je sposoben obdržati informacijo o dogodku tudi po eni sami izkušnji in zato igra kritično vlogo v procesu pomnjenja. Takšni mehanizmi zahtevajo dostop do notranje organizacije agenta, kar je v paradigmi ES prav tako po definiciji nemogoče.

Torej, zakaj jih ne bi združili?

Verjetno bo večina tega članka pustila vtis, da zagovarjam metode RL. Vendar pa dejansko mislim, da je dolgoročno najboljša rešitev kombinacija obeh metod, tako da se vsaka uporablja v situacijah, v katerih je najprimernejša. Očitno je, da v primeru številnih reaktivnih politik ali v situacijah z zelo redkimi signali pozitivne okrepitve ES zmaga, še posebej, če imate na voljo računalniško moč, na kateri lahko izvajate množično vzporedno usposabljanje. Po drugi strani pa bodo gradientne metode, ki uporabljajo učenje s krepitvijo ali učenje pod nadzorom, uporabne, ko imamo dostop do obsežnih povratnih informacij in se moramo naučiti, kako rešiti problem hitro in z manj podatki.

Če se obrnemo k naravi, ugotovimo, da prva metoda v bistvu postavlja temelje drugi. Zato so sesalci tekom evolucije razvili možgane, ki jim omogočajo izjemno učinkovito učenje iz kompleksnih signalov, ki prihajajo iz okolja. Torej vprašanje ostaja odprto. Morda nam bodo evolucijske strategije pomagale izumiti učinkovite učne arhitekture, ki bodo uporabne tudi za gradientne učne metode. Navsezadnje je rešitev, ki jo je našla narava, res zelo uspešna.

Vir: www.habr.com

Dodaj komentar