Hei Habr!
Det er ikke ofte vi bestemmer oss for å legge ut oversettelser av tekster som var to år gamle, uten kode og tydeligvis av akademisk karakter – men i dag gjør vi et unntak. Vi håper at dilemmaet i tittelen på artikkelen bekymrer mange av våre lesere, og du har allerede lest det grunnleggende arbeidet med evolusjonsstrategier som dette innlegget argumenterer med i originalen eller vil lese det nå. Velkommen til katten!
I mars 2017 skapte OpenAI bølger i dyplæringssamfunnet med avisen "
Evolusjonsstrategier
Hovedtesen i OpenAI-artikkelen var at i stedet for å bruke forsterkende læring kombinert med tradisjonell backpropagation, trente de med hell et nevralt nettverk til å løse komplekse problemer ved å bruke det de kalte en "evolusjonær strategi" (ES). Denne ES-tilnærmingen består i å opprettholde en nettverksomfattende fordeling av vekter, involvere flere agenter som jobber parallelt og bruke parametere valgt fra denne distribusjonen. Hver agent opererer i sitt eget miljø, og ved fullføring av et spesifisert antall episoder eller stadier av en episode, returnerer algoritmen en kumulativ belønning, uttrykt som en kondisjonspoeng. Med denne verdien i betraktning, kan fordelingen av parametere flyttes mot mer vellykkede agenter, og frata mindre vellykkede. Ved å gjenta en slik operasjon millioner av ganger med deltakelse av hundrevis av agenter, er det mulig å flytte fordelingen av vekter til et rom som lar agentene formulere en høykvalitetspolicy for å løse oppgaven som er tildelt dem. Faktisk er resultatene som presenteres i artikkelen imponerende: det er vist at hvis du kjører tusen agenter parallelt, kan antropomorf bevegelse på to ben læres på mindre enn en halv time (mens selv de mest avanserte RL-metodene krever å bruke mer enn en time på dette). For mer detaljert informasjon anbefaler jeg å lese den utmerkede
Ulike strategier for undervisning av antropomorf oppreist gange, studert ved bruk av ES-metoden fra OpenAI.
Svart boks
Den store fordelen med denne metoden er at den lett kan parallelliseres. Mens RL-metoder, for eksempel A3C, krever at informasjon utveksles mellom arbeidertråder og en parameterserver, trenger ES bare egnethetsestimater og generalisert parameterdistribusjonsinformasjon. Det er på grunn av denne enkelheten at denne metoden er langt foran moderne RL-metoder når det gjelder skaleringsmuligheter. Alt dette kommer imidlertid ikke forgjeves: du må optimalisere nettverket i henhold til black box-prinsippet. I dette tilfellet betyr den "svarte boksen" at under trening blir den interne strukturen til nettverket fullstendig ignorert, og bare det samlede resultatet (belønning for episoden) brukes, og det avhenger av om vektene til et bestemt nettverk vil arves av påfølgende generasjoner. I situasjoner der vi ikke får mye tilbakemelding fra omgivelsene – og i mange tradisjonelle RL-problemer er flyten av belønninger svært sparsom – går problemet fra å være en «delvis svart boks» til en «helt svart boks». I dette tilfellet kan du øke produktiviteten betydelig, så selvfølgelig er et slikt kompromiss berettiget. "Hvem trenger gradienter hvis de er håpløst støyende likevel?" - Dette er den generelle oppfatningen.
Men i situasjoner der tilbakemeldinger er mer aktive, begynner ting å gå galt for ES. OpenAI-teamet beskriver hvordan et enkelt MNIST-klassifiseringsnettverk ble trent ved hjelp av ES, og denne gangen gikk treningen 1000 ganger langsommere. Faktum er at gradientsignalet i bildeklassifisering er ekstremt informativt om hvordan man lærer nettverket bedre klassifisering. Dermed er problemet mindre med RL-teknikken og mer med sparsomme belønninger i miljøer som produserer støyende gradienter.
Naturens løsning
Hvis vi prøver å lære av naturens eksempel, og tenker på måter å utvikle AI på, kan AI i noen tilfeller betraktes som
Etter å ha undersøkt den intellektuelle oppførselen til pattedyr, ser vi at den er dannet som et resultat av den komplekse gjensidige påvirkningen av to nært beslektede prosesser: lære av andres erfaringer и lærer av å gjøre. Førstnevnte sidestilles ofte med evolusjon drevet av naturlig utvalg, men her bruker jeg et bredere begrep for å ta hensyn til epigenetikk, mikrobiomer og andre mekanismer som muliggjør deling av erfaringer mellom genetisk ubeslektede organismer. Den andre prosessen, å lære av erfaring, er all informasjonen som et dyr klarer å lære gjennom hele livet, og denne informasjonen bestemmes direkte av interaksjonen mellom dette dyret og omverdenen. Denne kategorien inkluderer alt fra å lære å gjenkjenne objekter til å mestre kommunikasjonen som ligger i læringsprosessen.
Grovt sett kan disse to prosessene som foregår i naturen sammenlignes med to alternativer for å optimalisere nevrale nettverk. Evolusjonsstrategier, der informasjon om gradienter brukes til å oppdatere informasjon om organismen, kommer nærme å lære av andres erfaringer. Tilsvarende er gradientmetoder, der det å oppnå en eller annen erfaring fører til en eller annen endring i agentens atferd, sammenlignbare med å lære av ens egen erfaring. Hvis vi tenker på hvilke typer intelligent atferd eller evner som hver av disse to tilnærmingene utvikler hos dyr, blir sammenligningen mer uttalt. I begge tilfeller fremmer "evolusjonære metoder" studiet av reaktiv atferd som lar en utvikle en viss form (tilstrekkelig til å holde seg i live). Å lære å gå eller rømme fra fangenskap tilsvarer i mange tilfeller mer "instinktiv" atferd som er "hard-wired" hos mange dyr på genetisk nivå. I tillegg bekrefter dette eksemplet at evolusjonære metoder er anvendelige i tilfeller der belønningssignalet er ekstremt sjeldent (for eksempel faktum om vellykket oppdragelse av en baby). I et slikt tilfelle er det umulig å korrelere belønningen med et spesifikt sett med handlinger som kan ha blitt utført mange år før forekomsten av dette faktum. På den annen side, hvis vi vurderer et tilfelle der ES mislykkes, nemlig bildeklassifisering, er resultatene bemerkelsesverdig sammenlignbare med resultatene av dyrelæring oppnådd i utallige atferdspsykologiske eksperimenter utført over 100 år.
Lær av dyr
Metodene som brukes i forsterkende læring er i mange tilfeller hentet direkte fra den psykologiske litteraturen
Den sentrale rollen til prediksjon i å lære av erfaring endrer dynamikken beskrevet ovenfor på betydelige måter. Signalet som tidligere ble ansett som svært sparsomt (episodisk belønning) viser seg å være veldig tett. Teoretisk er situasjonen omtrent slik: til enhver tid beregner pattedyrets hjerne utfall basert på en kompleks strøm av sansestimuli og handlinger, mens dyret rett og slett er nedsenket i denne strømmen. I dette tilfellet gir den endelige atferden til dyret et sterkt signal som må brukes til å veilede justeringen av prognoser og utviklingen av atferd. Hjernen bruker alle disse signalene for å optimere prognoser (og følgelig kvaliteten på handlinger som er utført) i fremtiden. En oversikt over denne tilnærmingen er gitt i den utmerkede boken "
Rikere trening av nevrale nettverk
Ved å bygge på prinsippene for høyere nevral aktivitet som er iboende i pattedyrhjernen, som konstant er opptatt med å lage spådommer, har det blitt gjort nyere fremskritt innen forsterkningslæring, som nå tar hensyn til viktigheten av slike spådommer. Jeg kan umiddelbart anbefale deg to lignende verk:
I begge disse papirene supplerer forfatterne den typiske standardpolicyen til deres nevrale nettverk med prediksjonsresultater om miljøtilstanden i fremtiden. I den første artikkelen brukes prognoser på en rekke målevariabler, og i den andre brukes prognoser på endringer i miljøet og oppførselen til agenten som sådan. I begge tilfeller blir det sparsomme signalet knyttet til positiv forsterkning mye rikere og mer informativt, noe som gir mulighet for både raskere læring og tilegnelse av mer kompleks atferd. Slike forbedringer er kun tilgjengelige med metoder som bruker et gradientsignal, og ikke med metoder som opererer etter et «black box»-prinsipp, som ES.
I tillegg er erfaringslæring og gradientmetoder mye mer effektive. Selv i tilfeller hvor det var mulig å studere et bestemt problem ved hjelp av ES-metoden raskere enn ved bruk av forsterkningslæring, ble gevinsten oppnådd på grunn av at ES-strategien innebar mange ganger mer data enn med RL. Ved å reflektere i dette tilfellet over prinsippene for læring hos dyr, merker vi at resultatet av å lære fra andres eksempel manifesterer seg etter mange generasjoner, mens noen ganger er en enkelt hendelse opplevd av seg selv nok for at dyret kan lære leksjonen for alltid. Mens som
Så hvorfor ikke kombinere dem?
Det er sannsynlig at mye av denne artikkelen kan gi inntrykk av at jeg forfekter RL-metoder. Men jeg tror faktisk at på sikt er den beste løsningen å kombinere begge metodene, slik at hver enkelt brukes i de situasjonene den egner seg best. Åpenbart, i tilfelle av mange reaktive retningslinjer eller i situasjoner med svært sparsomme signaler om positiv forsterkning, vinner ES, spesielt hvis du har datakraften til din disposisjon som du kan kjøre massivt parallell trening på. På den annen side vil gradientmetoder som bruker forsterkende læring eller veiledet læring være nyttige når vi har tilgang til omfattende tilbakemeldinger og trenger å lære å løse et problem raskt og med mindre data.
Når vi vender oss til naturen, finner vi at den første metoden i hovedsak legger grunnlaget for den andre. Dette er grunnen til at pattedyr i løpet av evolusjonen har utviklet hjerner som lar dem lære ekstremt effektivt fra komplekse signaler som kommer fra miljøet. Så spørsmålet forblir åpent. Kanskje vil evolusjonsstrategier hjelpe oss med å finne opp effektive læringsarkitekturer som også vil være nyttige for gradientlæringsmetoder. Tross alt er løsningen funnet av naturen faktisk veldig vellykket.
Kilde: www.habr.com