🥇Učenje s potkrepljenjem ili evolucijske strategije? — Oboje

Hej Habr!

Ne odlučujemo se često ovdje objavljivati prijevode tekstova starih dvije godine, bez koda i jasno akademske prirode - ali danas ćemo napraviti iznimku. Nadamo se da dilema postavljena u naslovu članka zabrinjava mnoge naše čitatelje, a temeljno djelo o evolucijskim strategijama s kojim argumentira ovaj post ste već pročitali u izvorniku ili ćete ga sada pročitati. Dobrodošli u mačku!

U ožujku 2017. OpenAI je napravio valove u zajednici dubokog učenja s radom "Evolucijske strategije kao skalabilna alternativa učenju s potkrepljenjem" U ovom su radu opisani impresivni rezultati koji govore u prilog činjenici da učenje s potkrepljenjem (RL) nije postalo klin, a pri treniranju složenih neuronskih mreža preporučljivo je isprobati druge metode. Tada je izbila rasprava o važnosti učenja s potkrepljenjem i o tome koliko zaslužuje svoj status "neophodne" tehnologije za podučavanje rješavanja problema. Ovdje želim reći da se ove dvije tehnologije ne bi trebale smatrati konkurentima, od kojih je jedna očito bolja od druge; naprotiv, one se u konačnici međusobno nadopunjuju. Doista, ako malo razmislite o tome što je potrebno za stvaranje opći AI i takvih sustava, koji bi tijekom svog postojanja bili sposobni učiti, prosuđivati i planirati, tada ćemo gotovo sigurno doći do zaključka da će biti potrebno ovo ili ono kombinirano rješenje. Inače, upravo je do tog kombiniranog rješenja došla priroda koja je sisavce i druge više životinje tijekom evolucije obdarila složenom inteligencijom.

Evolucijske strategije

Glavna teza rada OpenAI-ja bila je da su, umjesto učenja potkrepljenja u kombinaciji s tradicionalnim širenjem unatrag, uspješno uvježbali neuronsku mrežu za rješavanje složenih problema koristeći ono što su nazvali "evolucijska strategija" (ES). Ovaj ES pristup sastoji se od održavanja distribucije težine na cijeloj mreži, uključujući više agenata koji rade paralelno i koriste parametre odabrane iz ove distribucije. Svaki agent radi u vlastitom okruženju, a nakon završetka određenog broja epizoda ili faza epizode, algoritam vraća kumulativnu nagradu, izraženu kao rezultat fitnessa. Uzimajući u obzir ovu vrijednost, distribucija parametara može se pomaknuti prema uspješnijim agentima, uskraćujući manje uspješne. Ponavljanjem takve operacije milijunima puta uz sudjelovanje stotina agenata moguće je premjestiti raspodjelu težina u prostor koji će agentima omogućiti formuliranje kvalitetne politike za rješavanje zadatka koji im je dodijeljen. Doista, rezultati predstavljeni u članku su impresivni: pokazalo se da ako paralelno pokrenete tisuću agenata, tada se antropomorfna lokomocija na dvije noge može naučiti za manje od pola sata (dok čak i najnaprednije RL metode zahtijevaju utrošak više više od jednog sata na ovo). Za detaljnije informacije preporučam čitanje izvrsnog pošta od autora eksperimenta, kao i znanstveni članak.

Različite strategije za podučavanje antropomorfnog uspravnog hodanja, proučavane pomoću ES metode iz OpenAI-ja.

Crna kutija

Velika prednost ove metode je što se može jednostavno paralelizirati. Dok RL metode, kao što je A3C, zahtijevaju razmjenu informacija između radnih niti i poslužitelja parametara, ES treba samo procjene prikladnosti i generalizirane informacije o distribuciji parametara. Upravo zbog te jednostavnosti ova metoda je daleko ispred modernih RL metoda u pogledu mogućnosti skaliranja. No, sve to nije uzalud: morate optimizirati mrežu prema principu crne kutije. U ovom slučaju “crna kutija” znači da se tijekom treninga potpuno zanemaruje unutarnja struktura mreže i koristi se samo ukupni rezultat (nagrada za epizodu), a o njemu ovisi hoće li težine pojedine mreže naslijediti sljedeće generacije. U situacijama u kojima ne dobivamo puno povratnih informacija iz okoline—a u mnogim tradicionalnim RL problemima protok nagrada je vrlo rijedak—problem prelazi iz "djelomično crne kutije" u "potpuno crnu kutiju". U ovom slučaju možete značajno povećati produktivnost, pa je, naravno, takav kompromis opravdan. "Kome trebaju gradijenti ako su ionako beznadno bučni?" - ovo je opće mišljenje.

Međutim, u situacijama kada je povratna informacija aktivnija, stvari počinju ići loše za ES. Tim OpenAI opisuje kako je jednostavna MNIST klasifikacijska mreža trenirana pomoću ES-a, a ovaj put je obuka bila 1000 puta sporija. Činjenica je da je gradijentni signal u klasifikaciji slika izuzetno informativan u pogledu toga kako naučiti mrežu boljoj klasifikaciji. Dakle, problem je manje s RL tehnikom, a više s rijetkim nagradama u okruženjima koja proizvode bučne gradijente.

Rješenje prirode

Ako pokušamo učiti na primjeru prirode, razmišljajući o načinima razvoja umjetne inteligencije, tada se u nekim slučajevima umjetna inteligencija može smatrati problemski orijentirani pristup. Uostalom, priroda djeluje unutar ograničenja koja računalni znanstvenici jednostavno nemaju. Postoji mišljenje da čisto teorijski pristup rješavanju određenog problema može dati učinkovitija rješenja od empirijskih alternativa. Međutim, i dalje mislim da bi bilo vrijedno ispitati kako je dinamički sustav koji djeluje pod određenim ograničenjima (Zemlja) generirao agente (životinje, posebno sisavce) sposobne za fleksibilno i složeno ponašanje. Dok se neka od ovih ograničenja ne primjenjuju u simuliranim svjetovima znanosti o podacima, druga su sasvim u redu.

Nakon što smo ispitali intelektualno ponašanje sisavaca, vidimo da ono nastaje kao rezultat složenog međusobnog utjecaja dva blisko povezana procesa: učenje iz tuđih iskustava и uči radeći. Prvo se često poistovjećuje s evolucijom potaknutom prirodnom selekcijom, ali ovdje koristim širi pojam kako bih uzeo u obzir epigenetiku, mikrobiome i druge mehanizme koji omogućuju razmjenu iskustava između genetski nepovezanih organizama. Drugi proces, učenje iz iskustva, sve su informacije koje životinja uspije naučiti tijekom svog života, a te su informacije izravno određene interakcijom te životinje s vanjskim svijetom. Ova kategorija uključuje sve, od učenja prepoznavanja predmeta do svladavanja komunikacije svojstvene procesu učenja.

Grubo govoreći, ova dva procesa koji se odvijaju u prirodi mogu se usporediti s dvije mogućnosti optimizacije neuronskih mreža. Evolucijske strategije, gdje se informacije o gradijentima koriste za ažuriranje informacija o organizmu, približavaju se učenju iz iskustava drugih. Slično, metode gradijenta, gdje stjecanje jednog ili drugog iskustva dovodi do jedne ili druge promjene u ponašanju agenta, usporedive su s učenjem iz vlastitog iskustva. Ako razmišljamo o vrstama inteligentnog ponašanja ili sposobnosti koje svaki od ova dva pristupa razvija kod životinja, usporedba postaje izraženija. U oba slučaja, “evolutivne metode” promiču proučavanje reaktivnog ponašanja koje omogućuje razvijanje određene kondicije (dovoljne za preživljavanje). Naučiti hodati ili pobjeći iz zatočeništva u mnogim je slučajevima jednako "instinktivnijem" ponašanju koje je kod mnogih životinja "ukorijenjeno" na genetskoj razini. Osim toga, ovaj primjer potvrđuje da su evolucijske metode primjenjive u slučajevima kada je signal nagrađivanja iznimno rijedak (primjerice, činjenica uspješnog odgoja bebe). U takvom slučaju nemoguće je povezati nagradu s bilo kojim specifičnim skupom radnji koje su možda izvedene mnogo godina prije nego što se ta činjenica dogodila. S druge strane, ako uzmemo u obzir slučaj u kojem ES ne uspijeva, naime klasifikacija slike, rezultati su nevjerojatno usporedivi s rezultatima učenja životinja postignutim u bezbrojnim bihevioralnim psihološkim eksperimentima provedenim tijekom više od 100 godina.

Učenje od životinja

Metode koje se koriste u učenju s potkrepljenjem u mnogim su slučajevima preuzete izravno iz psihološke literature operantno uvjetovanje, a operantno uvjetovanje proučavano je pomoću životinjske psihologije. Inače, Richard Sutton, jedan od dvojice utemeljitelja učenja s potkrepljenjem, diplomirao je psihologiju. U kontekstu operantnog uvjetovanja, životinje uče povezivati nagradu ili kaznu s određenim obrascima ponašanja. Treneri i istraživači mogu manipulirati ovom asocijacijom nagrađivanja na ovaj ili onaj način, provocirajući životinje da pokažu inteligenciju ili određena ponašanja. Međutim, operantno uvjetovanje, kakvo se koristi u istraživanjima na životinjama, nije ništa drugo nego izraženiji oblik istog uvjetovanja na temelju kojeg životinje uče tijekom svog života. Stalno primamo signale pozitivnog potkrepljenja iz okoline i prema tome prilagođavamo svoje ponašanje. Zapravo, mnogi neuroznanstvenici i kognitivni znanstvenici vjeruju da ljudi i druge životinje zapravo djeluju na još višoj razini i neprestano uče predviđati ishod svog ponašanja u budućim situacijama na temelju potencijalnih nagrada.

Središnja uloga predviđanja u učenju iz iskustva značajno mijenja gore opisanu dinamiku. Signal koji se prije smatrao vrlo rijetkim (epizodična nagrada) pokazao se vrlo gustim. Teoretski, situacija je otprilike ovakva: u bilo kojem trenutku mozak sisavca izračunava rezultate na temelju složenog toka osjetilnih podražaja i radnji, dok je životinja jednostavno uronjena u taj tok. U ovom slučaju, konačno ponašanje životinje daje snažan signal koji se mora koristiti za usmjeravanje korekcije prognoza i razvoja ponašanja. Mozak koristi sve te signale kako bi optimizirao prognoze (i, sukladno tome, kvalitetu poduzetih radnji) u budućnosti. Pregled ovog pristupa dat je u izvrsnoj knjizi “Neizvjesnost surfanja” kognitivni znanstvenik i filozof Andy Clark. Ako takvo rezoniranje ekstrapoliramo na obuku umjetnih agenata, tada se otkriva temeljna greška u učenju s potkrepljenjem: signal korišten u ovoj paradigmi je beznadno slab u usporedbi s onim što bi mogao biti (ili trebao biti). U slučajevima kada je nemoguće povećati zasićenje signala (možda zato što je inherentno slab ili povezan s niskom razinom reaktivnosti), vjerojatno je bolje preferirati metodu obuke koja je dobro paralelizirana, na primjer, ES.

Bogatije treniranje neuronskih mreža

Nadovezujući se na principe više neuralne aktivnosti svojstvene mozgu sisavaca, koji je stalno zaposlen predviđanjem, nedavno je postignut napredak u učenju s potkrepljenjem, koje sada uzima u obzir važnost takvih predviđanja. Odmah vam mogu preporučiti dva slična djela:

U oba ova rada, autori nadopunjuju tipičnu zadanu politiku svojih neuronskih mreža rezultatima predviđanja o stanju okoliša u budućnosti. U prvom članku predviđanje se primjenjuje na niz mjernih varijabli, au drugom se predviđanje primjenjuje na promjene u okruženju i ponašanju agenta kao takvog. U oba slučaja, rijetki signal povezan s pozitivnim potkrepljenjem postaje puno bogatiji i informativniji, omogućujući i brže učenje i stjecanje složenijeg ponašanja. Takva poboljšanja dostupna su samo s metodama koje koriste gradijentni signal, a ne s metodama koje rade na principu "crne kutije", kao što je ES.

Osim toga, učenje iz iskustva i metode gradijenta puno su učinkovitije. Čak iu slučajevima kada je bilo moguće proučavati određeni problem koristeći ES metodu brže nego korištenjem učenja s potkrepljenjem, dobitak je postignut zbog činjenice da je ES strategija uključivala višestruko više podataka nego s RL. Osvrćući se u ovom slučaju na principe učenja kod životinja, napominjemo da se rezultat učenja na tuđem primjeru očituje nakon više generacija, dok je ponekad dovoljan jedan događaj koji sama doživi da životinja nauči lekciju zauvijek. Dok kao trening bez primjera Iako se ne uklapa sasvim u tradicionalne metode gradijenta, mnogo je razumljiviji od ES-a. Postoje, na primjer, pristupi kao što su neuralna epizodna kontrola, gdje se Q-vrijednosti pohranjuju tijekom treninga, nakon čega ih program provjerava prije poduzimanja radnji. Rezultat je metoda gradijenta koja vam omogućuje da naučite rješavati probleme mnogo brže nego prije. U članku o neuralnoj epizodnoj kontroli, autori spominju ljudski hipokampus, koji je sposoban zadržati informacije o događaju čak i nakon jednog iskustva i, stoga, igra kritičnu ulogu u procesu pamćenja. Takvi mehanizmi zahtijevaju pristup unutarnjoj organizaciji agenta, što je također, po definiciji, nemoguće u ES paradigmi.

Dakle, zašto ih ne kombinirati?

Vjerojatno bi veći dio ovog članka mogao ostaviti dojam da zagovaram RL metode. Međutim, zapravo mislim da je dugoročno najbolje rješenje kombinirati obje metode, tako da se svaka koristi u situacijama u kojima je najprikladnija. Očito, u slučaju mnogih reaktivnih politika ili u situacijama s vrlo rijetkim signalima pozitivnog potkrepljenja, ES pobjeđuje, posebno ako imate na raspolaganju računalnu snagu na kojoj možete izvoditi masovnu paralelnu obuku. S druge strane, gradijentne metode koje koriste učenje s potkrepljenjem ili učenje pod nadzorom bit će korisne kada imamo pristup opsežnim povratnim informacijama i moramo naučiti kako riješiti problem brzo i s manje podataka.

Okrećući se prirodi, nalazimo da prva metoda, u biti, postavlja temelje za drugu. Zbog toga su sisavci tijekom evolucije razvili mozak koji im omogućuje izuzetno učinkovito učenje iz složenih signala koji dolaze iz okoline. Dakle, pitanje ostaje otvoreno. Možda će nam evolucijske strategije pomoći da izmislimo učinkovite arhitekture učenja koje će također biti korisne za gradijentne metode učenja. Uostalom, rješenje koje je pronašla priroda doista je vrlo uspješno.

Izvor: www.habr.com

Učenje s potkrepljenjem ili evolucijske strategije? - Obje