Hej Habr!
Ne odlučujemo se često ovdje objavljivati prijevode tekstova starih dvije godine, bez koda i jasno akademske prirode - ali danas ćemo napraviti iznimku. Nadamo se da dilema postavljena u naslovu članka zabrinjava mnoge naše čitatelje, a temeljno djelo o evolucijskim strategijama s kojim argumentira ovaj post ste već pročitali u izvorniku ili ćete ga sada pročitati. Dobrodošli u mačku!
U ožujku 2017. OpenAI je napravio valove u zajednici dubokog učenja s radom "
Evolucijske strategije
Glavna teza rada OpenAI-ja bila je da su, umjesto učenja potkrepljenja u kombinaciji s tradicionalnim širenjem unatrag, uspješno uvježbali neuronsku mrežu za rješavanje složenih problema koristeći ono što su nazvali "evolucijska strategija" (ES). Ovaj ES pristup sastoji se od održavanja distribucije težine na cijeloj mreži, uključujući više agenata koji rade paralelno i koriste parametre odabrane iz ove distribucije. Svaki agent radi u vlastitom okruženju, a nakon završetka određenog broja epizoda ili faza epizode, algoritam vraća kumulativnu nagradu, izraženu kao rezultat fitnessa. Uzimajući u obzir ovu vrijednost, distribucija parametara može se pomaknuti prema uspješnijim agentima, uskraćujući manje uspješne. Ponavljanjem takve operacije milijunima puta uz sudjelovanje stotina agenata moguće je premjestiti raspodjelu težina u prostor koji će agentima omogućiti formuliranje kvalitetne politike za rješavanje zadatka koji im je dodijeljen. Doista, rezultati predstavljeni u članku su impresivni: pokazalo se da ako paralelno pokrenete tisuću agenata, tada se antropomorfna lokomocija na dvije noge može naučiti za manje od pola sata (dok čak i najnaprednije RL metode zahtijevaju utrošak više više od jednog sata na ovo). Za detaljnije informacije preporučam čitanje izvrsnog
Različite strategije za podučavanje antropomorfnog uspravnog hodanja, proučavane pomoću ES metode iz OpenAI-ja.
Crna kutija
Velika prednost ove metode je što se može jednostavno paralelizirati. Dok RL metode, kao što je A3C, zahtijevaju razmjenu informacija između radnih niti i poslužitelja parametara, ES treba samo procjene prikladnosti i generalizirane informacije o distribuciji parametara. Upravo zbog te jednostavnosti ova metoda je daleko ispred modernih RL metoda u pogledu mogućnosti skaliranja. No, sve to nije uzalud: morate optimizirati mrežu prema principu crne kutije. U ovom slučaju “crna kutija” znači da se tijekom treninga potpuno zanemaruje unutarnja struktura mreže i koristi se samo ukupni rezultat (nagrada za epizodu), a o njemu ovisi hoće li težine pojedine mreže naslijediti sljedeće generacije. U situacijama u kojima ne dobivamo puno povratnih informacija iz okoline—a u mnogim tradicionalnim RL problemima protok nagrada je vrlo rijedak—problem prelazi iz "djelomično crne kutije" u "potpuno crnu kutiju". U ovom slučaju možete značajno povećati produktivnost, pa je, naravno, takav kompromis opravdan. "Kome trebaju gradijenti ako su ionako beznadno bučni?" - ovo je opće mišljenje.
Međutim, u situacijama kada je povratna informacija aktivnija, stvari počinju ići loše za ES. Tim OpenAI opisuje kako je jednostavna MNIST klasifikacijska mreža trenirana pomoću ES-a, a ovaj put je obuka bila 1000 puta sporija. Činjenica je da je gradijentni signal u klasifikaciji slika izuzetno informativan u pogledu toga kako naučiti mrežu boljoj klasifikaciji. Dakle, problem je manje s RL tehnikom, a više s rijetkim nagradama u okruženjima koja proizvode bučne gradijente.
Rješenje prirode
Ako pokušamo učiti na primjeru prirode, razmišljajući o načinima razvoja umjetne inteligencije, tada se u nekim slučajevima umjetna inteligencija može smatrati
Nakon što smo ispitali intelektualno ponašanje sisavaca, vidimo da ono nastaje kao rezultat složenog međusobnog utjecaja dva blisko povezana procesa: učenje iz tuđih iskustava и uči radeći. Prvo se često poistovjećuje s evolucijom potaknutom prirodnom selekcijom, ali ovdje koristim širi pojam kako bih uzeo u obzir epigenetiku, mikrobiome i druge mehanizme koji omogućuju razmjenu iskustava između genetski nepovezanih organizama. Drugi proces, učenje iz iskustva, sve su informacije koje životinja uspije naučiti tijekom svog života, a te su informacije izravno određene interakcijom te životinje s vanjskim svijetom. Ova kategorija uključuje sve, od učenja prepoznavanja predmeta do svladavanja komunikacije svojstvene procesu učenja.
Grubo govoreći, ova dva procesa koji se odvijaju u prirodi mogu se usporediti s dvije mogućnosti optimizacije neuronskih mreža. Evolucijske strategije, gdje se informacije o gradijentima koriste za ažuriranje informacija o organizmu, približavaju se učenju iz iskustava drugih. Slično, metode gradijenta, gdje stjecanje jednog ili drugog iskustva dovodi do jedne ili druge promjene u ponašanju agenta, usporedive su s učenjem iz vlastitog iskustva. Ako razmišljamo o vrstama inteligentnog ponašanja ili sposobnosti koje svaki od ova dva pristupa razvija kod životinja, usporedba postaje izraženija. U oba slučaja, “evolutivne metode” promiču proučavanje reaktivnog ponašanja koje omogućuje razvijanje određene kondicije (dovoljne za preživljavanje). Naučiti hodati ili pobjeći iz zatočeništva u mnogim je slučajevima jednako "instinktivnijem" ponašanju koje je kod mnogih životinja "ukorijenjeno" na genetskoj razini. Osim toga, ovaj primjer potvrđuje da su evolucijske metode primjenjive u slučajevima kada je signal nagrađivanja iznimno rijedak (primjerice, činjenica uspješnog odgoja bebe). U takvom slučaju nemoguće je povezati nagradu s bilo kojim specifičnim skupom radnji koje su možda izvedene mnogo godina prije nego što se ta činjenica dogodila. S druge strane, ako uzmemo u obzir slučaj u kojem ES ne uspijeva, naime klasifikacija slike, rezultati su nevjerojatno usporedivi s rezultatima učenja životinja postignutim u bezbrojnim bihevioralnim psihološkim eksperimentima provedenim tijekom više od 100 godina.
Učenje od životinja
Metode koje se koriste u učenju s potkrepljenjem u mnogim su slučajevima preuzete izravno iz psihološke literature
Središnja uloga predviđanja u učenju iz iskustva značajno mijenja gore opisanu dinamiku. Signal koji se prije smatrao vrlo rijetkim (epizodična nagrada) pokazao se vrlo gustim. Teoretski, situacija je otprilike ovakva: u bilo kojem trenutku mozak sisavca izračunava rezultate na temelju složenog toka osjetilnih podražaja i radnji, dok je životinja jednostavno uronjena u taj tok. U ovom slučaju, konačno ponašanje životinje daje snažan signal koji se mora koristiti za usmjeravanje korekcije prognoza i razvoja ponašanja. Mozak koristi sve te signale kako bi optimizirao prognoze (i, sukladno tome, kvalitetu poduzetih radnji) u budućnosti. Pregled ovog pristupa dat je u izvrsnoj knjizi “
Bogatije treniranje neuronskih mreža
Nadovezujući se na principe više neuralne aktivnosti svojstvene mozgu sisavaca, koji je stalno zaposlen predviđanjem, nedavno je postignut napredak u učenju s potkrepljenjem, koje sada uzima u obzir važnost takvih predviđanja. Odmah vam mogu preporučiti dva slična djela:
U oba ova rada, autori nadopunjuju tipičnu zadanu politiku svojih neuronskih mreža rezultatima predviđanja o stanju okoliša u budućnosti. U prvom članku predviđanje se primjenjuje na niz mjernih varijabli, au drugom se predviđanje primjenjuje na promjene u okruženju i ponašanju agenta kao takvog. U oba slučaja, rijetki signal povezan s pozitivnim potkrepljenjem postaje puno bogatiji i informativniji, omogućujući i brže učenje i stjecanje složenijeg ponašanja. Takva poboljšanja dostupna su samo s metodama koje koriste gradijentni signal, a ne s metodama koje rade na principu "crne kutije", kao što je ES.
Osim toga, učenje iz iskustva i metode gradijenta puno su učinkovitije. Čak iu slučajevima kada je bilo moguće proučavati određeni problem koristeći ES metodu brže nego korištenjem učenja s potkrepljenjem, dobitak je postignut zbog činjenice da je ES strategija uključivala višestruko više podataka nego s RL. Osvrćući se u ovom slučaju na principe učenja kod životinja, napominjemo da se rezultat učenja na tuđem primjeru očituje nakon više generacija, dok je ponekad dovoljan jedan događaj koji sama doživi da životinja nauči lekciju zauvijek. Dok kao
Dakle, zašto ih ne kombinirati?
Vjerojatno bi veći dio ovog članka mogao ostaviti dojam da zagovaram RL metode. Međutim, zapravo mislim da je dugoročno najbolje rješenje kombinirati obje metode, tako da se svaka koristi u situacijama u kojima je najprikladnija. Očito, u slučaju mnogih reaktivnih politika ili u situacijama s vrlo rijetkim signalima pozitivnog potkrepljenja, ES pobjeđuje, posebno ako imate na raspolaganju računalnu snagu na kojoj možete izvoditi masovnu paralelnu obuku. S druge strane, gradijentne metode koje koriste učenje s potkrepljenjem ili učenje pod nadzorom bit će korisne kada imamo pristup opsežnim povratnim informacijama i moramo naučiti kako riješiti problem brzo i s manje podataka.
Okrećući se prirodi, nalazimo da prva metoda, u biti, postavlja temelje za drugu. Zbog toga su sisavci tijekom evolucije razvili mozak koji im omogućuje izuzetno učinkovito učenje iz složenih signala koji dolaze iz okoline. Dakle, pitanje ostaje otvoreno. Možda će nam evolucijske strategije pomoći da izmislimo učinkovite arhitekture učenja koje će također biti korisne za gradijentne metode učenja. Uostalom, rješenje koje je pronašla priroda doista je vrlo uspješno.
Izvor: www.habr.com