🥇Forsterkende læring eller evolusjonære strategier? — Begge

Hei Habr!

Det er ikke ofte vi bestemmer oss for å legge ut oversettelser av tekster som var to år gamle, uten kode og tydeligvis av akademisk karakter – men i dag gjør vi et unntak. Vi håper at dilemmaet i tittelen på artikkelen bekymrer mange av våre lesere, og du har allerede lest det grunnleggende arbeidet med evolusjonsstrategier som dette innlegget argumenterer med i originalen eller vil lese det nå. Velkommen til katten!

I mars 2017 skapte OpenAI bølger i dyplæringssamfunnet med avisen "Evolusjonsstrategier som et skalerbart alternativ til forsterkende læring." Dette arbeidet beskrev imponerende resultater til fordel for det faktum at forsterkende læring (RL) ikke har blitt en kile, og når man trener komplekse nevrale nettverk, er det tilrådelig å prøve andre metoder. Det brøt ut en debatt om viktigheten av forsterkende læring og hvor fortjent dens status som en "må-ha" teknologi for å undervise i problemløsning. Her vil jeg si at disse to teknologiene ikke bør betraktes som konkurrerende, hvorav den ene er klart bedre enn den andre; tvert imot, de utfyller hverandre til syvende og sist. Faktisk, hvis du tenker litt på hva som skal til for å lage generell AI og slike systemer, som gjennom hele deres eksistens ville være i stand til å lære, bedømme og planlegge, så vil vi nesten helt sikkert komme til den konklusjon at denne eller den kombinerte løsningen vil være nødvendig. Det var forresten nettopp denne kombinerte løsningen naturen kom til, som ga pattedyr og andre høyerestående dyr kompleks intelligens i løpet av evolusjonen.

Evolusjonsstrategier

Hovedtesen i OpenAI-artikkelen var at i stedet for å bruke forsterkende læring kombinert med tradisjonell backpropagation, trente de med hell et nevralt nettverk til å løse komplekse problemer ved å bruke det de kalte en "evolusjonær strategi" (ES). Denne ES-tilnærmingen består i å opprettholde en nettverksomfattende fordeling av vekter, involvere flere agenter som jobber parallelt og bruke parametere valgt fra denne distribusjonen. Hver agent opererer i sitt eget miljø, og ved fullføring av et spesifisert antall episoder eller stadier av en episode, returnerer algoritmen en kumulativ belønning, uttrykt som en kondisjonspoeng. Med denne verdien i betraktning, kan fordelingen av parametere flyttes mot mer vellykkede agenter, og frata mindre vellykkede. Ved å gjenta en slik operasjon millioner av ganger med deltakelse av hundrevis av agenter, er det mulig å flytte fordelingen av vekter til et rom som lar agentene formulere en høykvalitetspolicy for å løse oppgaven som er tildelt dem. Faktisk er resultatene som presenteres i artikkelen imponerende: det er vist at hvis du kjører tusen agenter parallelt, kan antropomorf bevegelse på to ben læres på mindre enn en halv time (mens selv de mest avanserte RL-metodene krever å bruke mer enn en time på dette). For mer detaljert informasjon anbefaler jeg å lese den utmerkede post fra forfatterne av eksperimentet, samt vitenskapelig artikkel.

Ulike strategier for undervisning av antropomorf oppreist gange, studert ved bruk av ES-metoden fra OpenAI.

Svart boks

Den store fordelen med denne metoden er at den lett kan parallelliseres. Mens RL-metoder, for eksempel A3C, krever at informasjon utveksles mellom arbeidertråder og en parameterserver, trenger ES bare egnethetsestimater og generalisert parameterdistribusjonsinformasjon. Det er på grunn av denne enkelheten at denne metoden er langt foran moderne RL-metoder når det gjelder skaleringsmuligheter. Alt dette kommer imidlertid ikke forgjeves: du må optimalisere nettverket i henhold til black box-prinsippet. I dette tilfellet betyr den "svarte boksen" at under trening blir den interne strukturen til nettverket fullstendig ignorert, og bare det samlede resultatet (belønning for episoden) brukes, og det avhenger av om vektene til et bestemt nettverk vil arves av påfølgende generasjoner. I situasjoner der vi ikke får mye tilbakemelding fra omgivelsene – og i mange tradisjonelle RL-problemer er flyten av belønninger svært sparsom – går problemet fra å være en «delvis svart boks» til en «helt svart boks». I dette tilfellet kan du øke produktiviteten betydelig, så selvfølgelig er et slikt kompromiss berettiget. "Hvem trenger gradienter hvis de er håpløst støyende likevel?" - Dette er den generelle oppfatningen.

Men i situasjoner der tilbakemeldinger er mer aktive, begynner ting å gå galt for ES. OpenAI-teamet beskriver hvordan et enkelt MNIST-klassifiseringsnettverk ble trent ved hjelp av ES, og denne gangen gikk treningen 1000 ganger langsommere. Faktum er at gradientsignalet i bildeklassifisering er ekstremt informativt om hvordan man lærer nettverket bedre klassifisering. Dermed er problemet mindre med RL-teknikken og mer med sparsomme belønninger i miljøer som produserer støyende gradienter.

Naturens løsning

Hvis vi prøver å lære av naturens eksempel, og tenker på måter å utvikle AI på, kan AI i noen tilfeller betraktes som problemorientert tilnærming. Naturen opererer tross alt innenfor begrensninger som informatikere rett og slett ikke har. Det er en oppfatning at en rent teoretisk tilnærming til å løse et bestemt problem kan gi mer effektive løsninger enn empiriske alternativer. Imidlertid tror jeg fortsatt det vil være verdt å teste hvordan et dynamisk system som opererer under visse begrensninger (Jorden) har generert agenter (dyr, spesielt pattedyr) som er i stand til fleksibel og kompleks oppførsel. Mens noen av disse begrensningene ikke gjelder i de simulerte verdenene av datavitenskap, er andre helt fine.

Etter å ha undersøkt den intellektuelle oppførselen til pattedyr, ser vi at den er dannet som et resultat av den komplekse gjensidige påvirkningen av to nært beslektede prosesser: lære av andres erfaringer и lærer av å gjøre. Førstnevnte sidestilles ofte med evolusjon drevet av naturlig utvalg, men her bruker jeg et bredere begrep for å ta hensyn til epigenetikk, mikrobiomer og andre mekanismer som muliggjør deling av erfaringer mellom genetisk ubeslektede organismer. Den andre prosessen, å lære av erfaring, er all informasjonen som et dyr klarer å lære gjennom hele livet, og denne informasjonen bestemmes direkte av interaksjonen mellom dette dyret og omverdenen. Denne kategorien inkluderer alt fra å lære å gjenkjenne objekter til å mestre kommunikasjonen som ligger i læringsprosessen.

Grovt sett kan disse to prosessene som foregår i naturen sammenlignes med to alternativer for å optimalisere nevrale nettverk. Evolusjonsstrategier, der informasjon om gradienter brukes til å oppdatere informasjon om organismen, kommer nærme å lære av andres erfaringer. Tilsvarende er gradientmetoder, der det å oppnå en eller annen erfaring fører til en eller annen endring i agentens atferd, sammenlignbare med å lære av ens egen erfaring. Hvis vi tenker på hvilke typer intelligent atferd eller evner som hver av disse to tilnærmingene utvikler hos dyr, blir sammenligningen mer uttalt. I begge tilfeller fremmer "evolusjonære metoder" studiet av reaktiv atferd som lar en utvikle en viss form (tilstrekkelig til å holde seg i live). Å lære å gå eller rømme fra fangenskap tilsvarer i mange tilfeller mer "instinktiv" atferd som er "hard-wired" hos mange dyr på genetisk nivå. I tillegg bekrefter dette eksemplet at evolusjonære metoder er anvendelige i tilfeller der belønningssignalet er ekstremt sjeldent (for eksempel faktum om vellykket oppdragelse av en baby). I et slikt tilfelle er det umulig å korrelere belønningen med et spesifikt sett med handlinger som kan ha blitt utført mange år før forekomsten av dette faktum. På den annen side, hvis vi vurderer et tilfelle der ES mislykkes, nemlig bildeklassifisering, er resultatene bemerkelsesverdig sammenlignbare med resultatene av dyrelæring oppnådd i utallige atferdspsykologiske eksperimenter utført over 100 år.

Lær av dyr

Metodene som brukes i forsterkende læring er i mange tilfeller hentet direkte fra den psykologiske litteraturen operant kondisjonering, og operant kondisjonering ble studert ved hjelp av dyrepsykologi. Richard Sutton, en av de to grunnleggerne av forsterkende læring, har forresten en bachelorgrad i psykologi. I sammenheng med operant kondisjonering lærer dyr å assosiere belønning eller straff med spesifikke atferdsmønstre. Trenere og forskere kan manipulere denne belønningsforeningen på en eller annen måte, og provosere dyr til å demonstrere intelligens eller bestemt atferd. Imidlertid er operant kondisjonering, slik den brukes i dyreforskning, ikke annet enn en mer uttalt form for den samme kondisjoneringen som dyrene lærer gjennom hele livet. Vi mottar stadig signaler om positiv forsterkning fra omgivelsene og justerer oppførselen vår deretter. Faktisk tror mange nevrovitenskapsmenn og kognitive forskere at mennesker og andre dyr faktisk opererer på et enda høyere nivå og kontinuerlig lærer å forutsi utfallet av deres oppførsel i fremtidige situasjoner basert på potensielle belønninger.

Den sentrale rollen til prediksjon i å lære av erfaring endrer dynamikken beskrevet ovenfor på betydelige måter. Signalet som tidligere ble ansett som svært sparsomt (episodisk belønning) viser seg å være veldig tett. Teoretisk er situasjonen omtrent slik: til enhver tid beregner pattedyrets hjerne utfall basert på en kompleks strøm av sansestimuli og handlinger, mens dyret rett og slett er nedsenket i denne strømmen. I dette tilfellet gir den endelige atferden til dyret et sterkt signal som må brukes til å veilede justeringen av prognoser og utviklingen av atferd. Hjernen bruker alle disse signalene for å optimere prognoser (og følgelig kvaliteten på handlinger som er utført) i fremtiden. En oversikt over denne tilnærmingen er gitt i den utmerkede boken "Surfeusikkerhet” kognitiv vitenskapsmann og filosof Andy Clark. Hvis vi ekstrapolerer slike resonnementer til trening av kunstige midler, avsløres en grunnleggende feil i forsterkningslæring: signalet som brukes i dette paradigmet er håpløst svakt sammenlignet med hva det kunne være (eller burde være). I tilfeller hvor det er umulig å øke signalmetningen (kanskje fordi den er iboende svak eller assosiert med lavnivåreaktivitet), er det sannsynligvis bedre å foretrekke en treningsmetode som er godt parallellisert, for eksempel ES.

Rikere trening av nevrale nettverk

Ved å bygge på prinsippene for høyere nevral aktivitet som er iboende i pattedyrhjernen, som konstant er opptatt med å lage spådommer, har det blitt gjort nyere fremskritt innen forsterkningslæring, som nå tar hensyn til viktigheten av slike spådommer. Jeg kan umiddelbart anbefale deg to lignende verk:

I begge disse papirene supplerer forfatterne den typiske standardpolicyen til deres nevrale nettverk med prediksjonsresultater om miljøtilstanden i fremtiden. I den første artikkelen brukes prognoser på en rekke målevariabler, og i den andre brukes prognoser på endringer i miljøet og oppførselen til agenten som sådan. I begge tilfeller blir det sparsomme signalet knyttet til positiv forsterkning mye rikere og mer informativt, noe som gir mulighet for både raskere læring og tilegnelse av mer kompleks atferd. Slike forbedringer er kun tilgjengelige med metoder som bruker et gradientsignal, og ikke med metoder som opererer etter et «black box»-prinsipp, som ES.

I tillegg er erfaringslæring og gradientmetoder mye mer effektive. Selv i tilfeller hvor det var mulig å studere et bestemt problem ved hjelp av ES-metoden raskere enn ved bruk av forsterkningslæring, ble gevinsten oppnådd på grunn av at ES-strategien innebar mange ganger mer data enn med RL. Ved å reflektere i dette tilfellet over prinsippene for læring hos dyr, merker vi at resultatet av å lære fra andres eksempel manifesterer seg etter mange generasjoner, mens noen ganger er en enkelt hendelse opplevd av seg selv nok for at dyret kan lære leksjonen for alltid. Mens som trening uten eksempler Selv om det ikke helt passer inn i tradisjonelle gradientmetoder, er det mye mer forståelig enn ES. Det finnes for eksempel tilnærminger som f.eks nevral episodisk kontroll, hvor Q-verdier lagres under treningsprosessen, hvoretter programmet sjekker dem før handlinger tas. Resultatet er en gradientmetode som lar deg lære hvordan du løser problemer mye raskere enn før. I en artikkel om nevral episodisk kontroll nevner forfatterne den menneskelige hippocampus, som er i stand til å beholde informasjon om en hendelse selv etter en enkelt opplevelse, og derfor spiller kritisk rolle i ferd med å huske. Slike mekanismer krever tilgang til den interne organisasjonen til agenten, noe som også per definisjon er umulig i ES-paradigmet.

Så hvorfor ikke kombinere dem?

Det er sannsynlig at mye av denne artikkelen kan gi inntrykk av at jeg forfekter RL-metoder. Men jeg tror faktisk at på sikt er den beste løsningen å kombinere begge metodene, slik at hver enkelt brukes i de situasjonene den egner seg best. Åpenbart, i tilfelle av mange reaktive retningslinjer eller i situasjoner med svært sparsomme signaler om positiv forsterkning, vinner ES, spesielt hvis du har datakraften til din disposisjon som du kan kjøre massivt parallell trening på. På den annen side vil gradientmetoder som bruker forsterkende læring eller veiledet læring være nyttige når vi har tilgang til omfattende tilbakemeldinger og trenger å lære å løse et problem raskt og med mindre data.

Når vi vender oss til naturen, finner vi at den første metoden i hovedsak legger grunnlaget for den andre. Dette er grunnen til at pattedyr i løpet av evolusjonen har utviklet hjerner som lar dem lære ekstremt effektivt fra komplekse signaler som kommer fra miljøet. Så spørsmålet forblir åpent. Kanskje vil evolusjonsstrategier hjelpe oss med å finne opp effektive læringsarkitekturer som også vil være nyttige for gradientlæringsmetoder. Tross alt er løsningen funnet av naturen faktisk veldig vellykket.

Kilde: www.habr.com

Forsterkende læring eller evolusjonsstrategier? - Både