🥇Forstærkende læring eller evolutionære strategier? — Begge

Hej Habr!

Vi beslutter os ikke ofte for at poste oversættelser af tekster, der var to år gamle, uden kode og klart af akademisk karakter - men i dag gør vi en undtagelse. Vi håber, at dilemmaet i artiklens titel bekymrer mange af vores læsere, og du har allerede læst det grundlæggende arbejde om evolutionære strategier, som dette indlæg argumenterer med i originalen eller vil læse det nu. Velkommen til katten!

I marts 2017 skabte OpenAI bølger i deep learning-fællesskabet med papiret "Evolutionsstrategier som et skalerbart alternativ til forstærkende læring" Dette arbejde beskrev imponerende resultater til fordel for det faktum, at forstærkningslæring (RL) ikke er blevet en kile, og når man træner komplekse neurale netværk, er det tilrådeligt at prøve andre metoder. En debat brød derefter ud om vigtigheden af forstærkende læring og hvor fortjent dens status som en "must-have" teknologi til undervisning i problemløsning. Her vil jeg sige, at disse to teknologier ikke skal betragtes som konkurrerende, hvoraf den ene er klart bedre end den anden; tværtimod supplerer de i sidste ende hinanden. Faktisk, hvis du tænker lidt over, hvad der skal til for at skabe generel AI og sådanne systemer, som gennem hele deres eksistens ville være i stand til at lære, bedømme og planlægge, så vil vi næsten helt sikkert komme til den konklusion, at den eller den kombinerede løsning vil være påkrævet. Det var i øvrigt netop denne kombinerede løsning, naturen kom frem til, som gav pattedyr og andre højerestående dyr kompleks intelligens i løbet af evolutionen.

Evolutionære strategier

Hovedtesen i OpenAI-papiret var, at de i stedet for at bruge forstærkningslæring kombineret med traditionel backpropagation, med succes trænede et neuralt netværk til at løse komplekse problemer ved hjælp af det, de kaldte en "evolutionær strategi" (ES). Denne ES-tilgang består i at opretholde en netværksdækkende fordeling af vægte, der involverer flere agenter, der arbejder parallelt og bruger parametre valgt fra denne fordeling. Hver agent opererer i sit eget miljø, og efter afslutning af et specificeret antal episoder eller stadier af en episode, returnerer algoritmen en kumulativ belønning, udtrykt som en fitnessscore. Hvis man tager denne værdi i betragtning, kan fordelingen af parametre flyttes mod mere succesfulde agenter, hvilket fratager mindre succesfulde. Ved at gentage en sådan operation millioner af gange med deltagelse af hundredvis af agenter, er det muligt at flytte fordelingen af vægte til et rum, der vil give agenterne mulighed for at formulere en højkvalitetspolitik for at løse den opgave, de har fået tildelt. Faktisk er resultaterne i artiklen imponerende: det er vist, at hvis du kører tusinde agenter parallelt, så kan antropomorfisk bevægelse på to ben læres på mindre end en halv time (mens selv de mest avancerede RL-metoder kræver at bruge mere end en time på dette). For mere detaljeret information anbefaler jeg at læse den fremragende indlæg fra forsøgets forfattere, samt videnskabelig artikel.

Forskellige strategier til undervisning af antropomorfisk opretstående gang, studeret ved hjælp af ES-metoden fra OpenAI.

Sort kasse

Den store fordel ved denne metode er, at den let kan paralleliseres. Mens RL-metoder, såsom A3C, kræver, at information udveksles mellem arbejdstråde og en parameterserver, behøver ES kun fitnessestimater og generaliseret parameterfordelingsinformation. Det er på grund af denne enkelhed, at denne metode er langt foran moderne RL-metoder med hensyn til skaleringsmuligheder. Alt dette kommer dog ikke forgæves: du skal optimere netværket efter black box-princippet. I dette tilfælde betyder den "sorte boks", at under træning ignoreres netværkets interne struktur fuldstændigt, og kun det overordnede resultat (belønning for episoden) bruges, og det afhænger af det, om vægten af et bestemt netværk vil nedarves af efterfølgende generationer. I situationer, hvor vi ikke modtager meget feedback fra omgivelserne - og i mange traditionelle RL-problemer er strømmen af belønninger meget sparsom - går problemet fra at være en "delvis sort boks" til en "fuldstændig sort boks". I dette tilfælde kan du øge produktiviteten betydeligt, så selvfølgelig er et sådant kompromis berettiget. "Hvem har brug for gradienter, hvis de alligevel er håbløst støjende?" - dette er den generelle opfattelse.

Men i situationer, hvor feedback er mere aktiv, begynder det at gå galt for ES. OpenAI-teamet beskriver, hvordan et simpelt MNIST-klassifikationsnetværk blev trænet ved hjælp af ES, og denne gang var træningen 1000 gange langsommere. Faktum er, at gradientsignalet i billedklassificering er ekstremt informativt om, hvordan man lærer netværket bedre klassificering. Problemet er således mindre med RL-teknikken og mere med sparsomme belønninger i miljøer, der producerer støjende gradienter.

Naturens løsning

Hvis vi prøver at lære af naturens eksempel og tænker på måder at udvikle AI på, så kan AI i nogle tilfælde opfattes som problemorienteret tilgang. Naturen opererer jo inden for begrænsninger, som dataloger simpelthen ikke har. Der er en opfattelse af, at en rent teoretisk tilgang til løsning af et bestemt problem kan give mere effektive løsninger end empiriske alternativer. Men jeg tror stadig, det ville være umagen værd at teste, hvordan et dynamisk system, der opererer under visse begrænsninger (Jorden) har genereret agenter (dyr, især pattedyr), der er i stand til fleksibel og kompleks adfærd. Mens nogle af disse begrænsninger ikke gælder i simulerede datavidenskabsverdener, er andre helt fine.

Efter at have undersøgt pattedyrs intellektuelle adfærd, ser vi, at den er dannet som et resultat af den komplekse gensidige påvirkning af to tæt forbundne processer: lære af andres erfaringer и lære ved at gøre. Førstnævnte sidestilles ofte med evolution drevet af naturlig selektion, men her bruger jeg et bredere udtryk for at tage højde for epigenetik, mikrobiomer og andre mekanismer, der muliggør deling af erfaringer mellem genetisk ubeslægtede organismer. Den anden proces, at lære af erfaring, er al den information, som et dyr formår at lære gennem hele sit liv, og denne information er direkte bestemt af dette dyrs interaktion med omverdenen. Denne kategori omfatter alt fra at lære at genkende objekter til at mestre den kommunikation, der ligger i læreprocessen.

Groft sagt kan disse to processer, der foregår i naturen, sammenlignes med to muligheder for at optimere neurale netværk. Evolutionære strategier, hvor information om gradienter bruges til at opdatere information om organismen, kommer tæt på at lære af andres erfaringer. Tilsvarende kan gradientmetoder, hvor opnåelse af en eller anden erfaring fører til en eller anden ændring i agentens adfærd, sammenlignes med at lære af ens egen erfaring. Hvis vi tænker på de typer af intelligent adfærd eller evner, som hver af disse to tilgange udvikler hos dyr, bliver sammenligningen mere udtalt. I begge tilfælde fremmer "evolutionære metoder" studiet af reaktiv adfærd, der tillader en at udvikle en vis kondition (tilstrækkelig til at holde sig i live). At lære at gå eller flygte fra fangenskab svarer i mange tilfælde til mere "instinktiv" adfærd, der er "hard-wired" hos mange dyr på det genetiske niveau. Derudover bekræfter dette eksempel, at evolutionære metoder er anvendelige i tilfælde, hvor belønningssignalet er ekstremt sjældent (for eksempel faktum om vellykket opdragelse af en baby). I et sådant tilfælde er det umuligt at korrelere belønningen med et bestemt sæt af handlinger, der kan være blevet udført mange år før forekomsten af dette faktum. På den anden side, hvis vi betragter et tilfælde, hvor ES fejler, nemlig billedklassificering, er resultaterne bemærkelsesværdigt sammenlignelige med resultaterne af dyreindlæring opnået i utallige adfærdspsykologiske eksperimenter udført over 100 år.

At lære af dyr

De anvendte metoder i forstærkende læring er i mange tilfælde hentet direkte fra den psykologiske litteratur vedr operant konditionering, og operant konditionering blev undersøgt ved hjælp af dyrepsykologi. Richard Sutton, en af de to grundlæggere af forstærkningslæring, har i øvrigt en bachelorgrad i psykologi. I forbindelse med operant konditionering lærer dyr at forbinde belønning eller straf med specifikke adfærdsmønstre. Trænere og forskere kan manipulere denne belønningssammenslutning på den ene eller anden måde og provokere dyr til at demonstrere intelligens eller bestemt adfærd. Imidlertid er operant konditionering, som den bruges i dyreforskning, ikke andet end en mere udtalt form for den samme konditionering, som dyrene lærer gennem hele livet. Vi modtager konstant signaler om positiv forstærkning fra omgivelserne og tilpasser vores adfærd derefter. Faktisk tror mange neurovidenskabsmænd og kognitive videnskabsmænd, at mennesker og andre dyr faktisk opererer på et endnu højere niveau og løbende lærer at forudsige resultatet af deres adfærd i fremtidige situationer baseret på potentielle belønninger.

Forudsigelsens centrale rolle i at lære af erfaringer ændrer dynamikken beskrevet ovenfor på væsentlige måder. Signalet, der tidligere blev betragtet som meget sparsomt (episodisk belønning), viser sig at være meget tæt. Teoretisk er situationen nogenlunde denne: på ethvert givet tidspunkt beregner pattedyrets hjerne udfald ud fra en kompleks strøm af sansestimuli og handlinger, mens dyret blot er nedsænket i denne strøm. I dette tilfælde giver dyrets endelige adfærd et stærkt signal, der skal bruges til at vejlede justeringen af prognoser og udviklingen af adfærd. Hjernen bruger alle disse signaler for at optimere prognoser (og dermed kvaliteten af de handlinger, der tages) i fremtiden. Et overblik over denne tilgang er givet i den fremragende bog "Surfing usikkerhed” kognitiv videnskabsmand og filosof Andy Clark. Hvis vi ekstrapolerer sådanne ræsonnementer til træningen af kunstige midler, så afsløres en grundlæggende fejl i forstærkningslæring: signalet, der bruges i dette paradigme, er håbløst svagt i forhold til, hvad det kunne være (eller burde være). I tilfælde, hvor det er umuligt at øge signalmætningen (måske fordi den i sagens natur er svag eller forbundet med lav-niveau reaktivitet), er det sandsynligvis bedre at foretrække en træningsmetode, der er godt paralleliseret, for eksempel ES.

Rigere træning af neurale netværk

Med udgangspunkt i principperne om højere neural aktivitet, der er iboende i pattedyrshjernen, som konstant har travlt med at lave forudsigelser, er der gjort nyere fremskridt inden for forstærkningslæring, som nu tager højde for vigtigheden af sådanne forudsigelser. Jeg kan straks anbefale dig to lignende værker:

I begge disse artikler supplerer forfatterne den typiske standardpolitik for deres neurale netværk med forudsigelsesresultater om miljøets tilstand i fremtiden. I den første artikel anvendes prognoser på en række målevariable, og i den anden anvendes prognoser på ændringer i miljøet og agentens adfærd som sådan. I begge tilfælde bliver det sparsomme signal forbundet med positiv forstærkning meget rigere og mere informativt, hvilket giver mulighed for både hurtigere indlæring og tilegnelse af mere kompleks adfærd. Sådanne forbedringer er kun tilgængelige med metoder, der bruger et gradientsignal, og ikke med metoder, der opererer efter et "black box"-princip, såsom ES.

Derudover er erfaringslæring og gradientmetoder meget mere effektive. Selv i de tilfælde, hvor det var muligt at studere et bestemt problem ved hjælp af ES-metoden hurtigere end ved brug af forstærkningslæring, blev gevinsten opnået på grund af, at ES-strategien involverede mange gange mere data end med RL. Når vi i dette tilfælde reflekterer over principperne for læring hos dyr, bemærker vi, at resultatet af at lære fra en andens eksempel manifesterer sig efter mange generationer, mens nogle gange en enkelt begivenhed oplevet af sig selv er nok til at dyret kan lære lektien for evigt. Mens gerne træning uden eksempler Selvom det ikke helt passer ind i traditionelle gradientmetoder, er det meget mere forståeligt end ES. Der er fx tilgange som f.eks neural episodisk kontrol, hvor Q-værdier gemmes under træning, hvorefter programmet tjekker dem, inden der foretages handlinger. Resultatet er en gradientmetode, der giver dig mulighed for at lære at løse problemer meget hurtigere end før. I en artikel om neural episodisk kontrol nævner forfatterne den menneskelige hippocampus, som er i stand til at bevare information om en begivenhed selv efter en enkelt oplevelse og derfor spiller kritisk rolle i gang med at huske. Sådanne mekanismer kræver adgang til agentens interne organisation, hvilket også pr. definition er umuligt i ES-paradigmet.

Så hvorfor ikke kombinere dem?

Det er sandsynligt, at meget af denne artikel kan efterlade det indtryk, at jeg går ind for RL-metoder. Jeg tror dog faktisk, at den bedste løsning på sigt er at kombinere begge metoder, så hver især bliver brugt i de situationer, hvor det er bedst egnet. Det er klart, at i tilfælde af mange reaktive politikker eller i situationer med meget sparsomme signaler om positiv forstærkning, vinder ES, især hvis du har den computerkraft til din rådighed, som du kan køre massivt parallel træning på. På den anden side vil gradientmetoder, der anvender forstærkende læring eller overvåget læring, være nyttige, når vi har adgang til omfattende feedback og skal lære at løse et problem hurtigt og med færre data.

Når vi vender os til naturen, finder vi, at den første metode i bund og grund lægger grundlaget for den anden. Det er grunden til, at pattedyr i løbet af evolutionen har udviklet hjerner, der giver dem mulighed for at lære ekstremt effektivt af komplekse signaler, der kommer fra miljøet. Så spørgsmålet forbliver åbent. Måske vil evolutionære strategier hjælpe os med at opfinde effektive læringsarkitekturer, der også vil være nyttige til gradientlæringsmetoder. Når alt kommer til alt, er den løsning, som naturen har fundet, faktisk meget vellykket.

Kilde: www.habr.com

Forstærkende læring eller evolutionære strategier? - Begge