Učenje s pojačanjem ili evolucijske strategije? - Oba

Hej Habr!

Ne odlučujemo se često ovdje postavljati prijevode tekstova starih dvije godine, bez šifre i jasno akademske prirode - ali danas ćemo napraviti izuzetak. Nadamo se da dilema postavljena u naslovu članka zabrinjava mnoge naše čitatelje, a već ste pročitali temeljni rad o evolucijskim strategijama s kojim se ovaj post raspravlja u originalu ili ćete ga pročitati sada. Dobrodošli u mačku!

Učenje s pojačanjem ili evolucijske strategije? - Oba

U martu 2017. OpenAI je napravio talase u zajednici dubokog učenja sa radom „Strategije evolucije kao skalabilna alternativa učenju s pojačanjem.” Ovaj rad je opisao impresivne rezultate u prilog činjenici da učenje s potkrepljenjem (RL) nije postalo klin, a kada se treniraju složene neuronske mreže, preporučljivo je isprobati druge metode. Tada je izbila debata o važnosti učenja s pojačanjem i o tome koliko zaslužuje status tehnologije koja se mora imati za rješavanje problema u nastavi. Ovdje želim reći da ove dvije tehnologije ne treba smatrati konkurentnim, od kojih je jedna očigledno bolja od druge; naprotiv, na kraju se nadopunjuju. Zaista, ako malo razmislite šta je potrebno za stvaranje general AI i takvih sistema, koji bi tokom svog postojanja bili sposobni za učenje, prosuđivanje i planiranje, onda ćemo gotovo sigurno doći do zaključka da će biti potrebno ovo ili ono kombinovano rešenje. Inače, upravo je do tog kombinovanog rješenja došla priroda, koja je tijekom evolucije sisavcima i drugim višim životinjama dala kompleksnu inteligenciju.

Evolucijske strategije

Glavna teza OpenAI dokumenta bila je da su, umjesto korištenja učenja s pojačanjem u kombinaciji s tradicionalnim propagacijom unazad, uspješno obučili neuronsku mrežu za rješavanje složenih problema koristeći ono što su nazvali “evolucionom strategijom” (ES). Ovaj ES pristup sastoji se od održavanja distribucije težine širom mreže, uključujući više agenata koji rade paralelno i koristeći parametre odabrane iz ove distribucije. Svaki agent radi u svom okruženju, a po završetku određenog broja epizoda ili faza epizode, algoritam vraća kumulativnu nagradu, izraženu kao kondicioni rezultat. Uzimajući ovu vrijednost u obzir, distribucija parametara se može pomjeriti prema uspješnijim agentima, uskraćujući manje uspješne. Ponavljanjem takve operacije milionima puta uz učešće stotina agenata, moguće je premjestiti distribuciju pondera na prostor koji će omogućiti agentima da formulišu visokokvalitetne politike za rješavanje zadatka koji im je dodijeljen. Zaista, rezultati predstavljeni u članku su impresivni: pokazuje se da ako paralelno vodite hiljadu agenata, onda se antropomorfna lokomocija na dvije noge može naučiti za manje od pola sata (dok čak i najnaprednije RL metode zahtijevaju više trošenja od jednog sata na ovome). Za detaljnije informacije preporučujem čitanje odličnog post od autora eksperimenta, kao i naučni članak.

Učenje s pojačanjem ili evolucijske strategije? - Oba

Različite strategije za podučavanje antropomorfnog uspravnog hoda, proučavane korištenjem ES metode iz OpenAI.

Crna kutija

Velika prednost ove metode je da se može lako paralelizirati. Dok RL metode, kao što je A3C, zahtijevaju razmjenu informacija između radničkih niti i servera parametara, ES-u su potrebne samo procjene sposobnosti i generalizirane informacije o raspodjeli parametara. Zbog ove jednostavnosti ova metoda je daleko ispred modernih RL metoda u pogledu mogućnosti skaliranja. Međutim, sve to nije uzaludno: mrežu morate optimizirati po principu crne kutije. U ovom slučaju, “crna kutija” znači da se tokom treninga potpuno ignoriše unutrašnja struktura mreže, a koristi se samo ukupni rezultat (nagrada za epizodu) i od toga zavisi da li će težine određene mreže naslijediti naredne generacije. U situacijama u kojima ne dobijamo mnogo povratnih informacija od okoline – a u mnogim tradicionalnim RL problemima protok nagrada je vrlo oskudan – problem prelazi iz „djelomično crne kutije“ u „potpuno crnu kutiju“. U ovom slučaju možete značajno povećati produktivnost, tako da je, naravno, takav kompromis opravdan. "Kome trebaju gradijenti ako su ionako beznadežno bučni?" - ovo je opšte mišljenje.

Međutim, u situacijama kada je povratna informacija aktivnija, stvari počinju da idu naopako za ES. OpenAI tim opisuje kako je jednostavna MNIST mreža za klasifikaciju obučena pomoću ES-a, a ovaj put je obuka bila 1000 puta sporija. Činjenica je da je gradijentni signal u klasifikaciji slika izuzetno informativan o tome kako naučiti mrežu boljoj klasifikaciji. Dakle, problem je manji s RL tehnikom, a više s rijetkim nagradama u okruženjima koja proizvode bučne gradijente.

Rešenje prirode

Ako pokušamo učiti na primjeru prirode, razmišljajući o načinima razvoja AI, onda se u nekim slučajevima AI može smatrati problemski orijentisan pristup. Na kraju krajeva, priroda djeluje unutar ograničenja koja kompjuterski naučnici jednostavno nemaju. Postoji mišljenje da čisto teorijski pristup rješavanju određenog problema može pružiti efikasnija rješenja od empirijskih alternativa. Međutim, i dalje mislim da bi bilo vrijedno testirati kako je dinamički sistem koji radi pod određenim ograničenjima (Zemlja) generirao agente (životinje, posebno sisare) sposobne za fleksibilno i složeno ponašanje. Dok se neka od ovih ograničenja ne primjenjuju na simulirane svjetove nauke o podacima, druga su sasvim u redu.

Ispitujući intelektualno ponašanje sisara, vidimo da je ono nastalo kao rezultat složenog međusobnog uticaja dva usko povezana procesa: učenje iz tuđih iskustava и učenje kroz rad. Prvo se često poistovjećuje s evolucijom vođenom prirodnom selekcijom, ali ovdje koristim širi pojam da uzmem u obzir epigenetiku, mikrobiome i druge mehanizme koji omogućavaju razmjenu iskustava između genetski nepovezanih organizama. Drugi proces, učenje iz iskustva, su sve informacije koje životinja uspije naučiti tijekom svog života, a te informacije su direktno određene interakcijom ove životinje s vanjskim svijetom. Ova kategorija uključuje sve od učenja do prepoznavanja objekata do ovladavanja komunikacijom svojstvenom procesu učenja.

Grubo govoreći, ova dva procesa koja se dešavaju u prirodi mogu se porediti sa dve opcije za optimizaciju neuronskih mreža. Evolucijske strategije, gdje se informacije o gradijentima koriste za ažuriranje informacija o organizmu, približavaju se učenju iz iskustva drugih. Slično, metode gradijenta, gdje stjecanje jednog ili drugog iskustva dovodi do jedne ili druge promjene u ponašanju agenta, uporedive su s učenjem iz vlastitog iskustva. Ako razmislimo o vrstama inteligentnog ponašanja ili sposobnosti koje svaki od ova dva pristupa razvija kod životinja, poređenje postaje izraženije. U oba slučaja, „evolucione metode“ promovišu proučavanje reaktivnog ponašanja koje omogućava da se razvije određena kondicija (dovoljna da ostane živ). Učenje hodanja ili bijega iz zatočeništva u mnogim je slučajevima ekvivalentno "instinktivnijem" ponašanju koje je "tvrdo ožičeno" kod mnogih životinja na genetskom nivou. Osim toga, ovaj primjer potvrđuje da su evolucijske metode primjenjive u slučajevima kada je signal nagrade izuzetno rijedak (na primjer, činjenica uspješnog podizanja bebe). U takvom slučaju nemoguće je povezati nagradu sa bilo kojim specifičnim skupom radnji koje su možda bile izvršene mnogo godina prije nastanka ove činjenice. S druge strane, ako uzmemo u obzir slučaj u kojem ES ne uspije, a to je klasifikacija slika, rezultati su izvanredno uporedivi s rezultatima učenja na životinjama postignutim u nebrojenim bihejvioralnim psihološkim eksperimentima provedenim više od 100 godina.

Učenje od životinja

Metode koje se koriste u učenju s potkrepljenjem su u mnogim slučajevima preuzete direktno iz psihološke literature nadalje operantno uslovljavanje, a operantno kondicioniranje proučavano je pomoću životinjske psihologije. Inače, Richard Sutton, jedan od dvojice osnivača učenja s pojačanjem, ima diplomu iz psihologije. U kontekstu operantnog uslovljavanja, životinje uče da povezuju nagradu ili kaznu sa specifičnim obrascima ponašanja. Treneri i istraživači mogu manipulirati ovom nagradnom asocijacijom na ovaj ili onaj način, provocirajući životinje da pokažu inteligenciju ili određena ponašanja. Međutim, operantno kondicioniranje, kako se koristi u istraživanjima na životinjama, nije ništa drugo nego izraženiji oblik istog uvjetovanja na temelju kojeg životinje uče tijekom svog života. Stalno primamo signale pozitivnog potkrepljenja iz okoline i u skladu s tim prilagođavamo svoje ponašanje. U stvari, mnogi neuroznanstvenici i kognitivni znanstvenici vjeruju da ljudi i druge životinje zapravo djeluju na još višem nivou i neprestano uče da predviđaju ishod svog ponašanja u budućim situacijama na osnovu potencijalnih nagrada.

Centralna uloga predviđanja u učenju iz iskustva mijenja gore opisanu dinamiku na značajan način. Signal koji se ranije smatrao vrlo rijetkim (epizodična nagrada) ispada vrlo gust. Teoretski, situacija je otprilike ovakva: u svakom trenutku, mozak sisara izračunava ishode na osnovu složenog toka senzornih podražaja i radnji, dok je životinja jednostavno uronjena u taj tok. U ovom slučaju, konačno ponašanje životinje daje snažan signal koji se mora koristiti za usmjeravanje prilagođavanja prognoze i razvoja ponašanja. Mozak koristi sve ove signale kako bi optimizirao prognoze (i, shodno tome, kvalitetu poduzetih radnji) u budućnosti. Pregled ovog pristupa dat je u odličnoj knjizi “Surfing Uncertainty” kognitivni naučnik i filozof Andy Clark. Ako takvo razmišljanje ekstrapoliramo na obuku vještačkih agenata, tada se otkriva fundamentalna mana u učenju s pojačanjem: signal korišten u ovoj paradigmi je beznadežno slab u usporedbi s onim što bi mogao biti (ili bi trebao biti). U slučajevima kada je nemoguće povećati zasićenost signala (možda zato što je inherentno slab ili povezan sa reaktivnošću niskog nivoa), vjerovatno je bolje dati prednost metodi obuke koja je dobro paralelna, na primjer, ES.

Bogatija obuka neuronskih mreža

Nadovezujući se na principe više neuronske aktivnosti svojstvene mozgu sisara, koji je stalno zauzet predviđanjima, nedavno je postignut napredak u učenju s pojačanjem, koje sada uzima u obzir važnost takvih predviđanja. Mogu vam odmah preporučiti dva slična rada:

U oba ova rada, autori dopunjuju tipičnu zadanu politiku svojih neuronskih mreža rezultatima predviđanja o stanju životne sredine u budućnosti. U prvom članku, predviđanje se primjenjuje na različite mjerne varijable, au drugom predviđanje se primjenjuje na promjene u okruženju i ponašanju agenta kao takvog. U oba slučaja, rijetki signal povezan s pozitivnim potkrepljenjem postaje mnogo bogatiji i informativniji, omogućavajući i brže učenje i stjecanje složenijih ponašanja. Takva poboljšanja su dostupna samo kod metoda koje koriste gradijentni signal, a ne i kod metoda koje rade na principu „crne kutije“, kao što je ES.

Osim toga, učenje iz iskustva i metode gradijenta su mnogo efikasnije. Čak iu slučajevima kada je bilo moguće proučiti određeni problem koristeći ES metodu brže nego korištenjem učenja s pojačanjem, dobitak je postignut zahvaljujući činjenici da je ES strategija uključivala višestruko više podataka nego kod RL. Osvrćući se u ovom slučaju na principe učenja kod životinja, napominjemo da se rezultat učenja na tuđem primjeru manifestira nakon mnogo generacija, dok je ponekad dovoljan samo jedan događaj da životinja zauvijek nauči lekciju. Dok se sviđa obuka bez primjera Iako se ne uklapa sasvim u tradicionalne metode gradijenta, mnogo je razumljiviji od ES-a. Postoje, na primjer, pristupi kao npr neuralna epizodna kontrola, gdje se Q-vrijednosti pohranjuju tokom treninga, nakon čega ih program provjerava prije poduzimanja radnji. Rezultat je metoda gradijenta koja vam omogućava da naučite kako rješavati probleme mnogo brže nego prije. U članku o neuralnoj epizodnoj kontroli, autori pominju ljudski hipokampus, koji je sposoban zadržati informaciju o događaju čak i nakon jednog iskustva i stoga igra kritičnu ulogu u procesu pamćenja. Takvi mehanizmi zahtijevaju pristup internoj organizaciji agenta, što je također, po definiciji, nemoguće u ES paradigmi.

Pa, zašto ih ne kombinirati?

Vjerovatno bi veći dio ovog članka mogao ostaviti utisak da zagovaram RL metode. Međutim, zapravo mislim da je dugoročno najbolje rješenje kombinirati obje metode tako da se svaka koristi u situacijama za koje je najprikladnija. Očigledno, u slučaju mnogih reaktivnih politika ili u situacijama s vrlo rijetkim signalima pozitivnog pojačanja, ES pobjeđuje, posebno ako imate na raspolaganju računsku snagu na kojoj možete izvoditi masovno paralelno treniranje. S druge strane, metode gradijenta koje koriste učenje s pojačanjem ili učenje pod nadzorom bit će korisne kada imamo pristup opsežnim povratnim informacijama i moramo naučiti kako riješiti problem brzo i s manje podataka.

Okrećući se prirodi, nalazimo da prvi metod, u suštini, postavlja temelje za drugi. Zbog toga su tokom evolucije sisari razvili mozak koji im omogućava da izuzetno efikasno uče iz složenih signala koji dolaze iz okoline. Dakle, pitanje ostaje otvoreno. Možda će nam evolucione strategije pomoći da izmislimo efikasne arhitekture učenja koje će takođe biti korisne za metode učenja sa gradijentom. Na kraju krajeva, rješenje koje je pronašla priroda je zaista vrlo uspješno.

izvor: www.habr.com

Dodajte komentar