Hej Habr!
Vi beslutter os ikke ofte for at poste oversættelser af tekster, der var to år gamle, uden kode og klart af akademisk karakter - men i dag gør vi en undtagelse. Vi håber, at dilemmaet i artiklens titel bekymrer mange af vores læsere, og du har allerede læst det grundlæggende arbejde om evolutionære strategier, som dette indlæg argumenterer med i originalen eller vil læse det nu. Velkommen til katten!
I marts 2017 skabte OpenAI bølger i deep learning-fællesskabet med papiret "
Evolutionære strategier
Hovedtesen i OpenAI-papiret var, at de i stedet for at bruge forstærkningslæring kombineret med traditionel backpropagation, med succes trænede et neuralt netværk til at løse komplekse problemer ved hjælp af det, de kaldte en "evolutionær strategi" (ES). Denne ES-tilgang består i at opretholde en netværksdækkende fordeling af vægte, der involverer flere agenter, der arbejder parallelt og bruger parametre valgt fra denne fordeling. Hver agent opererer i sit eget miljø, og efter afslutning af et specificeret antal episoder eller stadier af en episode, returnerer algoritmen en kumulativ belønning, udtrykt som en fitnessscore. Hvis man tager denne værdi i betragtning, kan fordelingen af parametre flyttes mod mere succesfulde agenter, hvilket fratager mindre succesfulde. Ved at gentage en sådan operation millioner af gange med deltagelse af hundredvis af agenter, er det muligt at flytte fordelingen af vægte til et rum, der vil give agenterne mulighed for at formulere en højkvalitetspolitik for at løse den opgave, de har fået tildelt. Faktisk er resultaterne i artiklen imponerende: det er vist, at hvis du kører tusinde agenter parallelt, så kan antropomorfisk bevægelse på to ben læres på mindre end en halv time (mens selv de mest avancerede RL-metoder kræver at bruge mere end en time på dette). For mere detaljeret information anbefaler jeg at læse den fremragende
Forskellige strategier til undervisning af antropomorfisk opretstående gang, studeret ved hjælp af ES-metoden fra OpenAI.
Sort kasse
Den store fordel ved denne metode er, at den let kan paralleliseres. Mens RL-metoder, såsom A3C, kræver, at information udveksles mellem arbejdstråde og en parameterserver, behøver ES kun fitnessestimater og generaliseret parameterfordelingsinformation. Det er på grund af denne enkelhed, at denne metode er langt foran moderne RL-metoder med hensyn til skaleringsmuligheder. Alt dette kommer dog ikke forgæves: du skal optimere netværket efter black box-princippet. I dette tilfælde betyder den "sorte boks", at under træning ignoreres netværkets interne struktur fuldstændigt, og kun det overordnede resultat (belønning for episoden) bruges, og det afhænger af det, om vægten af et bestemt netværk vil nedarves af efterfølgende generationer. I situationer, hvor vi ikke modtager meget feedback fra omgivelserne - og i mange traditionelle RL-problemer er strømmen af belønninger meget sparsom - går problemet fra at være en "delvis sort boks" til en "fuldstændig sort boks". I dette tilfælde kan du øge produktiviteten betydeligt, så selvfølgelig er et sådant kompromis berettiget. "Hvem har brug for gradienter, hvis de alligevel er håbløst støjende?" - dette er den generelle opfattelse.
Men i situationer, hvor feedback er mere aktiv, begynder det at gå galt for ES. OpenAI-teamet beskriver, hvordan et simpelt MNIST-klassifikationsnetværk blev trænet ved hjælp af ES, og denne gang var træningen 1000 gange langsommere. Faktum er, at gradientsignalet i billedklassificering er ekstremt informativt om, hvordan man lærer netværket bedre klassificering. Problemet er således mindre med RL-teknikken og mere med sparsomme belønninger i miljøer, der producerer støjende gradienter.
Naturens løsning
Hvis vi prøver at lære af naturens eksempel og tænker på måder at udvikle AI på, så kan AI i nogle tilfælde opfattes som
Efter at have undersøgt pattedyrs intellektuelle adfærd, ser vi, at den er dannet som et resultat af den komplekse gensidige påvirkning af to tæt forbundne processer: lære af andres erfaringer и lære ved at gøre. Førstnævnte sidestilles ofte med evolution drevet af naturlig selektion, men her bruger jeg et bredere udtryk for at tage højde for epigenetik, mikrobiomer og andre mekanismer, der muliggør deling af erfaringer mellem genetisk ubeslægtede organismer. Den anden proces, at lære af erfaring, er al den information, som et dyr formår at lære gennem hele sit liv, og denne information er direkte bestemt af dette dyrs interaktion med omverdenen. Denne kategori omfatter alt fra at lære at genkende objekter til at mestre den kommunikation, der ligger i læreprocessen.
Groft sagt kan disse to processer, der foregår i naturen, sammenlignes med to muligheder for at optimere neurale netværk. Evolutionære strategier, hvor information om gradienter bruges til at opdatere information om organismen, kommer tæt på at lære af andres erfaringer. Tilsvarende kan gradientmetoder, hvor opnåelse af en eller anden erfaring fører til en eller anden ændring i agentens adfærd, sammenlignes med at lære af ens egen erfaring. Hvis vi tænker på de typer af intelligent adfærd eller evner, som hver af disse to tilgange udvikler hos dyr, bliver sammenligningen mere udtalt. I begge tilfælde fremmer "evolutionære metoder" studiet af reaktiv adfærd, der tillader en at udvikle en vis kondition (tilstrækkelig til at holde sig i live). At lære at gå eller flygte fra fangenskab svarer i mange tilfælde til mere "instinktiv" adfærd, der er "hard-wired" hos mange dyr på det genetiske niveau. Derudover bekræfter dette eksempel, at evolutionære metoder er anvendelige i tilfælde, hvor belønningssignalet er ekstremt sjældent (for eksempel faktum om vellykket opdragelse af en baby). I et sådant tilfælde er det umuligt at korrelere belønningen med et bestemt sæt af handlinger, der kan være blevet udført mange år før forekomsten af dette faktum. På den anden side, hvis vi betragter et tilfælde, hvor ES fejler, nemlig billedklassificering, er resultaterne bemærkelsesværdigt sammenlignelige med resultaterne af dyreindlæring opnået i utallige adfærdspsykologiske eksperimenter udført over 100 år.
At lære af dyr
De anvendte metoder i forstærkende læring er i mange tilfælde hentet direkte fra den psykologiske litteratur vedr
Forudsigelsens centrale rolle i at lære af erfaringer ændrer dynamikken beskrevet ovenfor på væsentlige måder. Signalet, der tidligere blev betragtet som meget sparsomt (episodisk belønning), viser sig at være meget tæt. Teoretisk er situationen nogenlunde denne: på ethvert givet tidspunkt beregner pattedyrets hjerne udfald ud fra en kompleks strøm af sansestimuli og handlinger, mens dyret blot er nedsænket i denne strøm. I dette tilfælde giver dyrets endelige adfærd et stærkt signal, der skal bruges til at vejlede justeringen af prognoser og udviklingen af adfærd. Hjernen bruger alle disse signaler for at optimere prognoser (og dermed kvaliteten af de handlinger, der tages) i fremtiden. Et overblik over denne tilgang er givet i den fremragende bog "
Rigere træning af neurale netværk
Med udgangspunkt i principperne om højere neural aktivitet, der er iboende i pattedyrshjernen, som konstant har travlt med at lave forudsigelser, er der gjort nyere fremskridt inden for forstærkningslæring, som nu tager højde for vigtigheden af sådanne forudsigelser. Jeg kan straks anbefale dig to lignende værker:
I begge disse artikler supplerer forfatterne den typiske standardpolitik for deres neurale netværk med forudsigelsesresultater om miljøets tilstand i fremtiden. I den første artikel anvendes prognoser på en række målevariable, og i den anden anvendes prognoser på ændringer i miljøet og agentens adfærd som sådan. I begge tilfælde bliver det sparsomme signal forbundet med positiv forstærkning meget rigere og mere informativt, hvilket giver mulighed for både hurtigere indlæring og tilegnelse af mere kompleks adfærd. Sådanne forbedringer er kun tilgængelige med metoder, der bruger et gradientsignal, og ikke med metoder, der opererer efter et "black box"-princip, såsom ES.
Derudover er erfaringslæring og gradientmetoder meget mere effektive. Selv i de tilfælde, hvor det var muligt at studere et bestemt problem ved hjælp af ES-metoden hurtigere end ved brug af forstærkningslæring, blev gevinsten opnået på grund af, at ES-strategien involverede mange gange mere data end med RL. Når vi i dette tilfælde reflekterer over principperne for læring hos dyr, bemærker vi, at resultatet af at lære fra en andens eksempel manifesterer sig efter mange generationer, mens nogle gange en enkelt begivenhed oplevet af sig selv er nok til at dyret kan lære lektien for evigt. Mens gerne
Så hvorfor ikke kombinere dem?
Det er sandsynligt, at meget af denne artikel kan efterlade det indtryk, at jeg går ind for RL-metoder. Jeg tror dog faktisk, at den bedste løsning på sigt er at kombinere begge metoder, så hver især bliver brugt i de situationer, hvor det er bedst egnet. Det er klart, at i tilfælde af mange reaktive politikker eller i situationer med meget sparsomme signaler om positiv forstærkning, vinder ES, især hvis du har den computerkraft til din rådighed, som du kan køre massivt parallel træning på. På den anden side vil gradientmetoder, der anvender forstærkende læring eller overvåget læring, være nyttige, når vi har adgang til omfattende feedback og skal lære at løse et problem hurtigt og med færre data.
Når vi vender os til naturen, finder vi, at den første metode i bund og grund lægger grundlaget for den anden. Det er grunden til, at pattedyr i løbet af evolutionen har udviklet hjerner, der giver dem mulighed for at lære ekstremt effektivt af komplekse signaler, der kommer fra miljøet. Så spørgsmålet forbliver åbent. Måske vil evolutionære strategier hjælpe os med at opfinde effektive læringsarkitekturer, der også vil være nyttige til gradientlæringsmetoder. Når alt kommer til alt, er den løsning, som naturen har fundet, faktisk meget vellykket.
Kilde: www.habr.com