Versterkend leren of evolutionaire strategieën? - Beide

Hé Habr!

We besluiten hier niet vaak vertalingen te plaatsen van teksten die twee jaar oud zijn, zonder code en duidelijk van academische aard, maar vandaag maken we een uitzondering. We hopen dat het dilemma dat in de titel van het artikel wordt gesteld veel van onze lezers zorgen baart, en je hebt het fundamentele werk over evolutionaire strategieën waarmee dit artikel in het origineel betoogt al gelezen of zult het nu lezen. Welkom bij de kat!

Versterkend leren of evolutionaire strategieën? - Beide

In maart 2017 maakte OpenAI furore in de deep learning-gemeenschap met het artikel “Evolutiestrategieën als schaalbaar alternatief voor versterkend leren" Dit werk beschreef indrukwekkende resultaten ten gunste van het feit dat versterkend leren (RL) geen wig is geworden, en bij het trainen van complexe neurale netwerken is het raadzaam om andere methoden te proberen. Vervolgens brak er een debat los over het belang van versterkend leren en hoe de status ervan als een ‘must-have’-technologie voor het leren van probleemoplossing verdient. Hier wil ik zeggen dat deze twee technologieën niet als concurrerend mogen worden beschouwd, aangezien de ene duidelijk beter is dan de andere; integendeel, ze vullen elkaar uiteindelijk aan. Zeker als je een beetje nadenkt over wat er nodig is om te creëren algemene AI en zulke systemen, die gedurende hun hele bestaan ​​in staat zouden zijn om te leren, te oordelen en te plannen, dan zullen we vrijwel zeker tot de conclusie komen dat deze of gene gecombineerde oplossing nodig zal zijn. Het was trouwens precies deze gecombineerde oplossing waar de natuur tot kwam, die zoogdieren en andere hogere dieren in de loop van de evolutie met complexe intelligentie heeft begiftigd.

Evolutionaire strategieën

De belangrijkste stelling van het OpenAI-paper was dat ze, in plaats van versterkend leren te gebruiken in combinatie met traditionele backpropagation, met succes een neuraal netwerk hebben getraind om complexe problemen op te lossen met behulp van wat zij een ‘evolutionaire strategie’ (ES) noemden. Deze ES-aanpak bestaat uit het handhaven van een netwerkbrede gewichtsverdeling, waarbij meerdere agenten parallel werken en parameters gebruiken die uit deze verdeling zijn geselecteerd. Elke agent opereert in zijn eigen omgeving en na voltooiing van een bepaald aantal afleveringen of fasen van een aflevering retourneert het algoritme een cumulatieve beloning, uitgedrukt als een fitnessscore. Als we deze waarde in aanmerking nemen, kan de verdeling van parameters worden verschoven naar meer succesvolle agenten, waardoor minder succesvolle agenten worden beroofd. Door een dergelijke operatie miljoenen keren te herhalen met de deelname van honderden agenten, is het mogelijk om de gewichtsverdeling te verplaatsen naar een ruimte waarin de agenten een beleid van hoge kwaliteit kunnen formuleren voor het oplossen van de hen toegewezen taak. De in het artikel gepresenteerde resultaten zijn inderdaad indrukwekkend: er wordt aangetoond dat als je duizend agenten parallel laat draaien, de antropomorfe voortbeweging op twee benen in minder dan een half uur geleerd kan worden (terwijl zelfs de meest geavanceerde RL-methoden meer geld vergen). dan een uur hierover). Voor meer gedetailleerde informatie raad ik aan het uitstekende te lezen post van de auteurs van het experiment, evenals wetenschappelijk artikel.

Versterkend leren of evolutionaire strategieën? - Beide

Verschillende strategieën voor het aanleren van antropomorf rechtop lopen, bestudeerd met behulp van de ES-methode van OpenAI.

Zwarte doos

Het grote voordeel van deze methode is dat deze gemakkelijk kan worden geparallelliseerd. Terwijl RL-methoden, zoals A3C, vereisen dat informatie wordt uitgewisseld tussen werkthreads en een parameterserver, heeft ES alleen fitnessschattingen en gegeneraliseerde parameterdistributie-informatie nodig. Het is vanwege deze eenvoud dat deze methode qua schaalmogelijkheden ver vooruitloopt op moderne RL-methoden. Dit alles is echter niet voor niets: je moet het netwerk optimaliseren volgens het black box-principe. In dit geval betekent de ‘black box’ dat tijdens de training de interne structuur van het netwerk volledig wordt genegeerd en alleen het algehele resultaat (beloning voor de aflevering) wordt gebruikt, en het hangt ervan af of de gewichten van een bepaald netwerk zullen worden geërfd door volgende generaties. In situaties waarin we niet veel feedback van de omgeving ontvangen – en bij veel traditionele RL-problemen is de stroom van beloningen zeer schaars – verandert het probleem van een ‘gedeeltelijk zwarte doos’ in een ‘volledig zwarte doos’. In dit geval kunt u de productiviteit aanzienlijk verhogen, dus een dergelijk compromis is uiteraard gerechtvaardigd. “Wie heeft er nog hellingen nodig als ze hopeloos luidruchtig zijn?” - dit is de algemene mening.

In situaties waarin de feedback actiever is, begint het echter mis te gaan voor de ES. Het OpenAI-team beschrijft hoe een eenvoudig MNIST-classificatienetwerk werd getraind met behulp van ES, en deze keer verliep de training 1000 keer langzamer. Feit is dat het gradiëntsignaal bij beeldclassificatie uiterst informatief is over hoe het netwerk betere classificatie kan leren. Het probleem is dus minder bij de RL-techniek en meer bij schaarse beloningen in omgevingen die luidruchtige gradiënten produceren.

De oplossing van de natuur

Als we proberen te leren van het voorbeeld van de natuur en nadenken over manieren om AI te ontwikkelen, dan kan AI in sommige gevallen worden gezien als probleemgerichte aanpak. De natuur opereert immers binnen beperkingen die computerwetenschappers eenvoudigweg niet hebben. Er is een mening dat een puur theoretische benadering van het oplossen van een bepaald probleem effectievere oplossingen kan bieden dan empirische alternatieven. Ik denk echter nog steeds dat het de moeite waard zou zijn om te testen hoe een dynamisch systeem dat onder bepaalde beperkingen opereert (de aarde) agenten (dieren, met name zoogdieren) heeft voortgebracht die in staat zijn tot flexibel en complex gedrag. Hoewel sommige van deze beperkingen niet van toepassing zijn in gesimuleerde datawetenschapswerelden, zijn andere prima.

Nadat we het intellectuele gedrag van zoogdieren hebben onderzocht, zien we dat het wordt gevormd als resultaat van de complexe wederzijdse invloed van twee nauw met elkaar verbonden processen: leren van de ervaringen van anderen и leren door te doen. Het eerste wordt vaak gelijkgesteld met evolutie die wordt aangedreven door natuurlijke selectie, maar hier gebruik ik een bredere term om rekening te houden met epigenetica, microbiomen en andere mechanismen die het delen van ervaringen tussen genetisch niet-verwante organismen mogelijk maken. Het tweede proces, leren uit ervaring, is alle informatie die een dier zijn hele leven weet te leren, en deze informatie wordt rechtstreeks bepaald door de interactie van dit dier met de buitenwereld. Deze categorie omvat alles, van het leren herkennen van objecten tot het beheersen van de communicatie die inherent is aan het leerproces.

Grofweg kunnen deze twee processen die in de natuur plaatsvinden worden vergeleken met twee opties voor het optimaliseren van neurale netwerken. Evolutionaire strategieën, waarbij informatie over gradiënten wordt gebruikt om informatie over het organisme bij te werken, komen dicht in de buurt van het leren van de ervaringen van anderen. Op dezelfde manier zijn gradiëntmethoden, waarbij het verkrijgen van een of andere ervaring leidt tot een of andere verandering in het gedrag van de agent, vergelijkbaar met het leren van iemands eigen ervaring. Als we nadenken over de soorten intelligent gedrag of vaardigheden die elk van deze twee benaderingen bij dieren ontwikkelt, wordt de vergelijking duidelijker. In beide gevallen bevorderen ‘evolutionaire methoden’ de studie van reactief gedrag dat iemand in staat stelt een bepaalde fitheid te ontwikkelen (voldoende om in leven te blijven). Leren lopen of ontsnappen uit gevangenschap komt in veel gevallen overeen met meer ‘instinctief’ gedrag dat bij veel dieren op genetisch niveau ‘hard-wired’ is. Bovendien bevestigt dit voorbeeld dat evolutionaire methoden toepasbaar zijn in gevallen waarin het beloningssignaal uiterst zeldzaam is (bijvoorbeeld bij het succesvol grootbrengen van een baby). In een dergelijk geval is het onmogelijk om de beloning te correleren met een specifieke reeks acties die vele jaren vóór het optreden van dit feit zijn uitgevoerd. Aan de andere kant, als we een geval beschouwen waarin ES faalt, namelijk beeldclassificatie, zijn de resultaten opmerkelijk vergelijkbaar met de resultaten van het leren van dieren die zijn bereikt in talloze gedragspsychologische experimenten die gedurende meer dan honderd jaar zijn uitgevoerd.

Leren van dieren

De methoden die bij versterkend leren worden gebruikt, zijn in veel gevallen rechtstreeks overgenomen uit de psychologische literatuur operante conditionering, en operante conditionering werd bestudeerd met behulp van dierenpsychologie. Trouwens, Richard Sutton, een van de twee grondleggers van versterkend leren, heeft een bachelordiploma in psychologie. In de context van operante conditionering leren dieren beloning of straf te associëren met specifieke gedragspatronen. Trainers en onderzoekers kunnen deze beloningsassociatie op de een of andere manier manipuleren, waardoor dieren worden uitgedaagd intelligentie of bepaald gedrag te vertonen. Operante conditionering, zoals gebruikt in dieronderzoek, is echter niets anders dan een meer uitgesproken vorm van dezelfde conditionering op basis waarvan dieren hun hele leven leren. We ontvangen voortdurend signalen van positieve bekrachtiging uit de omgeving en passen ons gedrag daarop aan. Veel neurowetenschappers en cognitieve wetenschappers geloven zelfs dat mensen en andere dieren feitelijk op een nog hoger niveau opereren en voortdurend leren de uitkomst van hun gedrag in toekomstige situaties te voorspellen op basis van potentiële beloningen.

De centrale rol van voorspellen bij het leren van ervaringen verandert de hierboven beschreven dynamiek op belangrijke manieren. Het signaal dat voorheen als zeer schaars werd beschouwd (episodische beloning), blijkt zeer compact te zijn. Theoretisch is de situatie ongeveer zo: op elk gegeven moment berekenen de hersenen van zoogdieren resultaten op basis van een complexe stroom van zintuiglijke prikkels en acties, terwijl het dier eenvoudigweg in deze stroom wordt ondergedompeld. In dit geval geeft het uiteindelijke gedrag van het dier een sterk signaal dat moet worden gebruikt om het bijstellen van voorspellingen en de gedragsontwikkeling te begeleiden. De hersenen gebruiken al deze signalen om voorspellingen (en daarmee de kwaliteit van de ondernomen acties) in de toekomst te optimaliseren. Een overzicht van deze aanpak wordt gegeven in het uitstekende boek “Surfonzekerheidcognitief wetenschapper en filosoof Andy Clark. Als we een dergelijke redenering extrapoleren naar de training van kunstmatige agenten, wordt een fundamentele fout in het versterkende leren onthuld: het signaal dat in dit paradigma wordt gebruikt, is hopeloos zwak vergeleken met wat het zou kunnen zijn (of zou moeten zijn). In gevallen waarin het onmogelijk is om de signaalverzadiging te vergroten (misschien omdat deze inherent zwak is of gepaard gaat met een lage reactiviteit), is het waarschijnlijk beter om de voorkeur te geven aan een trainingsmethode die goed geparallelliseerd is, bijvoorbeeld ES.

Rijkere training van neurale netwerken

Voortbouwend op de principes van hogere neurale activiteit die inherent zijn aan de hersenen van zoogdieren, die voortdurend bezig zijn met het maken van voorspellingen, zijn er recente vorderingen gemaakt op het gebied van versterkend leren, waarbij nu rekening wordt gehouden met het belang van dergelijke voorspellingen. Ik kan je meteen twee soortgelijke werken aanbevelen:

In beide artikelen vullen de auteurs het typische standaardbeleid van hun neurale netwerken aan met voorspellingsresultaten over de toestand van het milieu in de toekomst. In het eerste artikel wordt voorspellen toegepast op een verscheidenheid aan meetvariabelen, en in het tweede wordt voorspellen toegepast op veranderingen in de omgeving en het gedrag van de agent als zodanig. In beide gevallen wordt het schaarse signaal dat gepaard gaat met positieve bekrachtiging veel rijker en informatiever, waardoor zowel sneller leren als het verwerven van complexer gedrag mogelijk wordt. Dergelijke verbeteringen zijn alleen beschikbaar bij methoden die gebruik maken van een gradiëntsignaal, en niet bij methoden die werken volgens een ‘black box’-principe, zoals ES.

Bovendien zijn leren uit ervaring en gradiëntmethoden veel effectiever. Zelfs in gevallen waarin het mogelijk was om een ​​bepaald probleem sneller te bestuderen met behulp van de ES-methode dan met behulp van versterkend leren, werd de winst behaald dankzij het feit dat de ES-strategie vele malen meer gegevens omvatte dan met RL. Als we in dit geval nadenken over de principes van leren bij dieren, merken we op dat het resultaat van het leren van het voorbeeld van iemand anders zich na vele generaties manifesteert, terwijl soms een enkele gebeurtenis die op zichzelf wordt ervaren voldoende is om het dier de les voor altijd te laten leren. Terwijl als trainen zonder voorbeelden Hoewel het niet helemaal past in traditionele gradiëntmethoden, is het veel begrijpelijker dan ES. Er zijn bijvoorbeeld benaderingen zoals neurale episodische controle, waarbij tijdens het trainingsproces Q-waarden worden opgeslagen, waarna het programma deze controleert voordat er actie wordt ondernomen. Het resultaat is een gradiëntmethode waarmee je veel sneller dan voorheen leert hoe je problemen kunt oplossen. In een artikel over neurale episodische controle noemen de auteurs de menselijke hippocampus, die in staat is om zelfs na een enkele ervaring informatie over een gebeurtenis vast te houden en daarom speelt belangrijke rol in het proces van herinneren. Dergelijke mechanismen vereisen toegang tot de interne organisatie van de agent, wat ook per definitie onmogelijk is in het ES-paradigma.

Dus waarom zou je ze niet combineren?

Het is waarschijnlijk dat een groot deel van dit artikel de indruk wekt dat ik voorstander ben van RL-methoden. Maar eigenlijk denk ik dat het op de lange termijn de beste oplossing is om beide methoden te combineren, zodat ze allemaal worden gebruikt in de situaties waarin ze het meest geschikt zijn. Het is duidelijk dat in het geval van veel reactief beleid of in situaties met zeer schaarse signalen van positieve bekrachtiging de ES wint, vooral als je de rekenkracht tot je beschikking hebt waarop je massaal parallelle training kunt uitvoeren. Aan de andere kant zullen gradiëntmethoden die gebruikmaken van versterkend leren of begeleid leren nuttig zijn als we toegang hebben tot uitgebreide feedback en moeten leren hoe we een probleem snel en met minder gegevens kunnen oplossen.

Als we ons tot de natuur wenden, ontdekken we dat de eerste methode in wezen de basis legt voor de tweede. Dit is de reden waarom zoogdieren in de loop van de evolutie hersenen hebben ontwikkeld waarmee ze uiterst effectief kunnen leren van complexe signalen die uit de omgeving komen. De vraag blijft dus open. Misschien zullen evolutionaire strategieën ons helpen effectieve leerarchitecturen te bedenken die ook nuttig zullen zijn voor gradiëntleermethoden. De door de natuur gevonden oplossing is immers inderdaad zeer succesvol.

Bron: www.habr.com

Voeg een reactie