Hej Habr!
Ne odlučujemo se često ovdje postavljati prijevode tekstova starih dvije godine, bez šifre i jasno akademske prirode - ali danas ćemo napraviti izuzetak. Nadamo se da dilema postavljena u naslovu članka zabrinjava mnoge naše čitatelje, a već ste pročitali temeljni rad o evolucijskim strategijama s kojim se ovaj post raspravlja u originalu ili ćete ga pročitati sada. Dobrodošli u mačku!
U martu 2017. OpenAI je napravio talase u zajednici dubokog učenja sa radom „
Evolucijske strategije
Glavna teza OpenAI dokumenta bila je da su, umjesto korištenja učenja s pojačanjem u kombinaciji s tradicionalnim propagacijom unazad, uspješno obučili neuronsku mrežu za rješavanje složenih problema koristeći ono što su nazvali “evolucionom strategijom” (ES). Ovaj ES pristup sastoji se od održavanja distribucije težine širom mreže, uključujući više agenata koji rade paralelno i koristeći parametre odabrane iz ove distribucije. Svaki agent radi u svom okruženju, a po završetku određenog broja epizoda ili faza epizode, algoritam vraća kumulativnu nagradu, izraženu kao kondicioni rezultat. Uzimajući ovu vrijednost u obzir, distribucija parametara se može pomjeriti prema uspješnijim agentima, uskraćujući manje uspješne. Ponavljanjem takve operacije milionima puta uz učešće stotina agenata, moguće je premjestiti distribuciju pondera na prostor koji će omogućiti agentima da formulišu visokokvalitetne politike za rješavanje zadatka koji im je dodijeljen. Zaista, rezultati predstavljeni u članku su impresivni: pokazuje se da ako paralelno vodite hiljadu agenata, onda se antropomorfna lokomocija na dvije noge može naučiti za manje od pola sata (dok čak i najnaprednije RL metode zahtijevaju više trošenja od jednog sata na ovome). Za detaljnije informacije preporučujem čitanje odličnog
Različite strategije za podučavanje antropomorfnog uspravnog hoda, proučavane korištenjem ES metode iz OpenAI.
Crna kutija
Velika prednost ove metode je da se može lako paralelizirati. Dok RL metode, kao što je A3C, zahtijevaju razmjenu informacija između radničkih niti i servera parametara, ES-u su potrebne samo procjene sposobnosti i generalizirane informacije o raspodjeli parametara. Zbog ove jednostavnosti ova metoda je daleko ispred modernih RL metoda u pogledu mogućnosti skaliranja. Međutim, sve to nije uzaludno: mrežu morate optimizirati po principu crne kutije. U ovom slučaju, “crna kutija” znači da se tokom treninga potpuno ignoriše unutrašnja struktura mreže, a koristi se samo ukupni rezultat (nagrada za epizodu) i od toga zavisi da li će težine određene mreže naslijediti naredne generacije. U situacijama u kojima ne dobijamo mnogo povratnih informacija od okoline – a u mnogim tradicionalnim RL problemima protok nagrada je vrlo oskudan – problem prelazi iz „djelomično crne kutije“ u „potpuno crnu kutiju“. U ovom slučaju možete značajno povećati produktivnost, tako da je, naravno, takav kompromis opravdan. "Kome trebaju gradijenti ako su ionako beznadežno bučni?" - ovo je opšte mišljenje.
Međutim, u situacijama kada je povratna informacija aktivnija, stvari počinju da idu naopako za ES. OpenAI tim opisuje kako je jednostavna MNIST mreža za klasifikaciju obučena pomoću ES-a, a ovaj put je obuka bila 1000 puta sporija. Činjenica je da je gradijentni signal u klasifikaciji slika izuzetno informativan o tome kako naučiti mrežu boljoj klasifikaciji. Dakle, problem je manji s RL tehnikom, a više s rijetkim nagradama u okruženjima koja proizvode bučne gradijente.
Rešenje prirode
Ako pokušamo učiti na primjeru prirode, razmišljajući o načinima razvoja AI, onda se u nekim slučajevima AI može smatrati
Ispitujući intelektualno ponašanje sisara, vidimo da je ono nastalo kao rezultat složenog međusobnog uticaja dva usko povezana procesa: učenje iz tuđih iskustava и učenje kroz rad. Prvo se često poistovjećuje s evolucijom vođenom prirodnom selekcijom, ali ovdje koristim širi pojam da uzmem u obzir epigenetiku, mikrobiome i druge mehanizme koji omogućavaju razmjenu iskustava između genetski nepovezanih organizama. Drugi proces, učenje iz iskustva, su sve informacije koje životinja uspije naučiti tijekom svog života, a te informacije su direktno određene interakcijom ove životinje s vanjskim svijetom. Ova kategorija uključuje sve od učenja do prepoznavanja objekata do ovladavanja komunikacijom svojstvenom procesu učenja.
Grubo govoreći, ova dva procesa koja se dešavaju u prirodi mogu se porediti sa dve opcije za optimizaciju neuronskih mreža. Evolucijske strategije, gdje se informacije o gradijentima koriste za ažuriranje informacija o organizmu, približavaju se učenju iz iskustva drugih. Slično, metode gradijenta, gdje stjecanje jednog ili drugog iskustva dovodi do jedne ili druge promjene u ponašanju agenta, uporedive su s učenjem iz vlastitog iskustva. Ako razmislimo o vrstama inteligentnog ponašanja ili sposobnosti koje svaki od ova dva pristupa razvija kod životinja, poređenje postaje izraženije. U oba slučaja, „evolucione metode“ promovišu proučavanje reaktivnog ponašanja koje omogućava da se razvije određena kondicija (dovoljna da ostane živ). Učenje hodanja ili bijega iz zatočeništva u mnogim je slučajevima ekvivalentno "instinktivnijem" ponašanju koje je "tvrdo ožičeno" kod mnogih životinja na genetskom nivou. Osim toga, ovaj primjer potvrđuje da su evolucijske metode primjenjive u slučajevima kada je signal nagrade izuzetno rijedak (na primjer, činjenica uspješnog podizanja bebe). U takvom slučaju nemoguće je povezati nagradu sa bilo kojim specifičnim skupom radnji koje su možda bile izvršene mnogo godina prije nastanka ove činjenice. S druge strane, ako uzmemo u obzir slučaj u kojem ES ne uspije, a to je klasifikacija slika, rezultati su izvanredno uporedivi s rezultatima učenja na životinjama postignutim u nebrojenim bihejvioralnim psihološkim eksperimentima provedenim više od 100 godina.
Učenje od životinja
Metode koje se koriste u učenju s potkrepljenjem su u mnogim slučajevima preuzete direktno iz psihološke literature nadalje
Centralna uloga predviđanja u učenju iz iskustva mijenja gore opisanu dinamiku na značajan način. Signal koji se ranije smatrao vrlo rijetkim (epizodična nagrada) ispada vrlo gust. Teoretski, situacija je otprilike ovakva: u svakom trenutku, mozak sisara izračunava ishode na osnovu složenog toka senzornih podražaja i radnji, dok je životinja jednostavno uronjena u taj tok. U ovom slučaju, konačno ponašanje životinje daje snažan signal koji se mora koristiti za usmjeravanje prilagođavanja prognoze i razvoja ponašanja. Mozak koristi sve ove signale kako bi optimizirao prognoze (i, shodno tome, kvalitetu poduzetih radnji) u budućnosti. Pregled ovog pristupa dat je u odličnoj knjizi “
Bogatija obuka neuronskih mreža
Nadovezujući se na principe više neuronske aktivnosti svojstvene mozgu sisara, koji je stalno zauzet predviđanjima, nedavno je postignut napredak u učenju s pojačanjem, koje sada uzima u obzir važnost takvih predviđanja. Mogu vam odmah preporučiti dva slična rada:
U oba ova rada, autori dopunjuju tipičnu zadanu politiku svojih neuronskih mreža rezultatima predviđanja o stanju životne sredine u budućnosti. U prvom članku, predviđanje se primjenjuje na različite mjerne varijable, au drugom predviđanje se primjenjuje na promjene u okruženju i ponašanju agenta kao takvog. U oba slučaja, rijetki signal povezan s pozitivnim potkrepljenjem postaje mnogo bogatiji i informativniji, omogućavajući i brže učenje i stjecanje složenijih ponašanja. Takva poboljšanja su dostupna samo kod metoda koje koriste gradijentni signal, a ne i kod metoda koje rade na principu „crne kutije“, kao što je ES.
Osim toga, učenje iz iskustva i metode gradijenta su mnogo efikasnije. Čak iu slučajevima kada je bilo moguće proučiti određeni problem koristeći ES metodu brže nego korištenjem učenja s pojačanjem, dobitak je postignut zahvaljujući činjenici da je ES strategija uključivala višestruko više podataka nego kod RL. Osvrćući se u ovom slučaju na principe učenja kod životinja, napominjemo da se rezultat učenja na tuđem primjeru manifestira nakon mnogo generacija, dok je ponekad dovoljan samo jedan događaj da životinja zauvijek nauči lekciju. Dok se sviđa
Pa, zašto ih ne kombinirati?
Vjerovatno bi veći dio ovog članka mogao ostaviti utisak da zagovaram RL metode. Međutim, zapravo mislim da je dugoročno najbolje rješenje kombinirati obje metode tako da se svaka koristi u situacijama za koje je najprikladnija. Očigledno, u slučaju mnogih reaktivnih politika ili u situacijama s vrlo rijetkim signalima pozitivnog pojačanja, ES pobjeđuje, posebno ako imate na raspolaganju računsku snagu na kojoj možete izvoditi masovno paralelno treniranje. S druge strane, metode gradijenta koje koriste učenje s pojačanjem ili učenje pod nadzorom bit će korisne kada imamo pristup opsežnim povratnim informacijama i moramo naučiti kako riješiti problem brzo i s manje podataka.
Okrećući se prirodi, nalazimo da prvi metod, u suštini, postavlja temelje za drugi. Zbog toga su tokom evolucije sisari razvili mozak koji im omogućava da izuzetno efikasno uče iz složenih signala koji dolaze iz okoline. Dakle, pitanje ostaje otvoreno. Možda će nam evolucione strategije pomoći da izmislimo efikasne arhitekture učenja koje će takođe biti korisne za metode učenja sa gradijentom. Na kraju krajeva, rješenje koje je pronašla priroda je zaista vrlo uspješno.
izvor: www.habr.com