🥇Versterkingsleer of evolusionêre strategieë? — Beide dit, en 'n ander

Haai Habr!

Ons waag dit selde om vertalings van tekste van twee jaar gelede hier te plaas, sonder kode en met 'n duidelike akademiese fokus - maar vandag maak ons 'n uitsondering. Ons hoop dat die dilemma wat in die titel van die artikel gestel word, baie van ons lesers bekommer, en dat u reeds die fundamentele werk oor evolusionêre strategieë gelees het waarmee hierdie pos in die oorspronklike argumenteer of u nou sal lees. Welkom by die kat!

In Maart 2017 het OpenAI 'n buzz in die diep leergemeenskap geskep deur die artikel "Evolusiestrategieë as 'n skaalbare alternatief vir versterkingsleer.” In hierdie vraestel is indrukwekkende resultate beskryf ten gunste van die feit dat die lig nie op versterkingsleer (RL) konvergeer nie, en dit is raadsaam om ander metodes te probeer wanneer komplekse neurale netwerke opgelei word. Toe het 'n bespreking uitgebreek oor die belangrikheid van versterkingsleer en hoe dit die status van 'n "verpligte" tegnologie verdien om probleme op te los. Hier wil ek praat oor die feit dat hierdie twee tegnologieë nie as mededingend beskou moet word nie, waarvan die een duidelik beter as die ander is; inteendeel, hulle vul mekaar uiteindelik aan. Inderdaad, as jy 'n bietjie dink oor wat nodig is om te skep algemene KI en sulke sisteme wat dwarsdeur hulle bestaan in staat sou wees om te leer, te beoordeel en te beplan, dan is dit byna seker dat ons tot die gevolgtrekking sal kom dat hierdie of daardie gekombineerde oplossing hiervoor nodig sal wees. Terloops, dit was die natuur wat tot 'n gekombineerde oplossing gekom het, wat soogdiere en ander hoër diere in die loop van evolusie met komplekse intelligensie besorg het.

Evolusionêre strategieë

Die hooftesis van die OpenAI-artikel was dat in plaas daarvan om versterkingsleer in kombinasie met tradisionele terugpropagasie te gebruik, hulle 'n neurale netwerk suksesvol opgelei het om komplekse probleme op te los deur die sogenaamde "evolusionêre strategie" (ES) te gebruik. So 'n ES-benadering is om 'n netwerkwye verspreiding van gewigte te handhaaf, en baie agente is betrokke, wat parallel werk en parameters wat uit hierdie verspreiding gekies word, gebruik. Elke agent werk in sy eie omgewing, en nadat 'n gegewe aantal episodes of stadiums van 'n episode voltooi is, gee die algoritme 'n kumulatiewe beloning terug, uitgedruk as 'n fiksheidtelling. Gegewe hierdie waarde, kan die verspreiding van parameters na meer suksesvolle agente verskuif word, wat die minder suksesvolles ontneem. Deur so 'n operasie miljoene kere te herhaal met die deelname van honderde agente, is dit moontlik om die verdeling van gewigte na 'n spasie te skuif wat ons in staat sal stel om 'n kwaliteitbeleid te formuleer vir agente om hul taak op te los. Inderdaad, die resultate wat in die artikel aangebied word, is indrukwekkend: dit word getoon dat as jy duisend agente parallel bestuur, dan kan antropomorfiese voortbeweging op twee bene in minder as 'n halfuur aangeleer word (terwyl selfs die mees gevorderde RL-metodes meer as een uur). Vir meer inligting beveel ek aan om die uitstekende te lees post van die skrywers van die eksperiment, asook wetenskaplike artikel.

Verskillende strategieë vir die onderrig van antropomorfiese regop loop Gelei uit OpenAI se ES-metode.

Swart boks

Die groot voordeel van hierdie metode is dat dit maklik geparallaliseer kan word. Terwyl RL-metodes, soos A3C, vereis dat inligting uitgeruil word tussen werkersdrade en 'n parameterbediener, benodig 'n ES slegs slaagtellings en algemene parameterverspreidingsinligting. Dit is juis as gevolg van hierdie eenvoud dat hierdie metode veel beter presteer as moderne RL-metodes in terme van skaalvermoë. Dit alles is egter nie verniet nie: jy moet die netwerk volgens die swart boks-beginsel optimaliseer. In hierdie geval beteken die "swart boks" dat tydens opleiding die interne struktuur van die netwerk heeltemal geïgnoreer word, en slegs die algehele resultaat (beloning per episode) word gebruik, en dit hang daarvan af of die gewigte van 'n spesifieke netwerk sal geërf word deur opvolgende generasies. In situasies waar ons nie veel terugvoer van die omgewing kry nie - en in baie tradisionele RL-take is die beloningstroom baie yl - gaan die probleem van 'n "gedeeltelik swart boks" na 'n "heeltemal swart boks." In hierdie geval is dit moontlik om prestasie ernstig te verbeter, so natuurlik is so 'n kompromie geregverdig. "Wie het gradiënte nodig as hulle in elk geval hopeloos raserig is?" is die algemene mening.

In situasies waar die terugvoer meer aktief is, begin dinge egter vir die ES skeefloop. Die OpenAI-span beskryf hoe 'n eenvoudige MNIST-klassifikasienetwerk opgelei is met ES, en hierdie keer was opleiding 1000 keer stadiger. Die feit is dat die gradiëntsein in beeldklassifikasie uiters insiggewend is oor hoe om die netwerk 'n beter klassifikasie te leer. Die probleem is dus nie soseer met die RL-tegniek nie, maar met yl belonings in omgewings wat raserige gradiënte gee.

Die oplossing wat deur die natuur gevind word

As jy probeer om uit die natuur te leer, dink aan maniere om KI te ontwikkel, dan kan KI in sommige gevalle voorgestel word as probleemgebaseerde benadering. Die natuur funksioneer immers binne perke wat rekenaarwetenskaplikes eenvoudig nie het nie. Daar is 'n mening dat 'n suiwer teoretiese benadering tot die oplossing van 'n bepaalde probleem meer effektiewe oplossings as empiriese alternatiewe kan bied. Ek glo egter steeds dat dit die moeite werd sal wees om te kyk hoe 'n dinamiese stelsel wat onder sekere beperkings (die Aarde) werk, agente (diere, veral soogdiere) gevorm het wat tot buigsame en komplekse gedrag in staat is. Terwyl sommige van hierdie beperkings nie van toepassing is in die gesimuleerde wêrelde van datawetenskap nie, is ander net goed.

Nadat ons die intellektuele gedrag van soogdiere in ag geneem het, sien ons dat dit gevorm word as gevolg van 'n komplekse wedersydse invloed van twee nou-verbonde prosesse: leer uit ervaring и leer deur te doen. Eersgenoemde word dikwels deur natuurlike seleksie met evolusie geïdentifiseer, maar hier gebruik ek ’n breër term om epigenetika, mikrobiome en ander meganismes in te sluit wat die uitruil van ervaring tussen organismes moontlik maak wat nie vanuit ’n genetiese oogpunt aan mekaar verwant is nie. Die tweede proses, leer deur te doen, is al die inligting wat 'n dier regkry om deur die lewe te leer, en hierdie inligting is direk te danke aan die interaksie van hierdie dier met die buitewêreld. Hierdie kategorie sluit alles in van leer om voorwerpe te herken tot die bemeestering van die kommunikasie inherent aan die leerproses.

Rofweg gesproke kan hierdie twee prosesse wat in die natuur voorkom, vergelyk word met twee opsies vir die optimalisering van neurale netwerke. Evolusionêre strategieë, waar inligting oor gradiënte gebruik word om inligting oor 'n organisme by te werk, nader leer uit ervaring. Net so is gradiëntmetodes, waar die verkryging van hierdie of daardie ervaring lei tot sekere veranderinge in die gedrag van die agent, vergelykbaar met leer uit ervaring. As ons dink aan die soorte intellektuele gedrag of die vermoëns wat elk van hierdie twee benaderings by diere ontwikkel, word so 'n vergelyking meer uitgespreek. In beide gevalle bevorder "evolusionêre metodes" die studie van reaktiewe gedrag wat die ontwikkeling van 'n sekere fiksheid moontlik maak (genoeg om aan die lewe te bly). Om te leer loop of uit gevangenskap te ontsnap is in baie gevalle gelykstaande aan meer "instinktiewe" gedrag, "hard-wired" in baie diere op die genetiese vlak. Daarbenewens bevestig hierdie voorbeeld dat evolusionêre metodes van toepassing is in gevalle waar die beloningsein uiters skaars is (soos byvoorbeeld die feit van suksesvolle grootmaak van 'n welpie). In so 'n geval is dit onmoontlik om die beloning in verband te bring met enige spesifieke stel aksies wat moontlik plaasgevind het baie jare voor die voorkoms van hierdie feit. Aan die ander kant, as ons die geval oorweeg waarin ES misluk, naamlik beeldklassifikasie, is die resultate merkwaardig vergelykbaar met die resultate van diereleer wat behaal is in ontelbare gedragsielkundige eksperimente wat oor 100+ jaar uitgevoer is.

Diere leer

Die metodes wat in versterkingsleer gebruik word, is in baie gevalle direk uit die psigologiese literatuur oor geneem operante kondisionering, en operante kondisionering is bestudeer op die materiaal van dieresielkunde. Terloops, Richard Sutton, een van die twee stigters van versterkingsleer, het 'n baccalaureusgraad in sielkunde. In die konteks van operante kondisionering leer diere om beloning of straf met spesifieke gedragspatrone te assosieer. Opleiers en navorsers kan hierdie beloningsvereniging op een of ander manier manipuleer, en diere uitlok om intelligensie of sekere gedrag aan die dag te lê. Die operante kondisionering wat in dierenavorsing gebruik word, is egter niks meer as 'n meer uitgesproke vorm van die einste kondisionering waaruit diere deur hul lewens leer nie. Ons ontvang voortdurend seine van positiewe versterking van die omgewing en pas ons gedrag daarvolgens aan. Inderdaad, baie neurowetenskaplikes en kognitiewe glo dat mense en ander diere eintlik selfs een vlak hoër optree en voortdurend leer om die uitkomste van hul gedrag in toekomstige situasies te voorspel in afwagting van potensiële belonings.

Die sentrale rol van voorspellende leer in ervaringsleer verander die dinamika wat hierbo beskryf is op die mees betekenisvolle manier. Die sein wat voorheen as baie yl beskou is (epsodiese beloning) blyk baie dig te wees. Teoreties is die situasie iets soos volg: op elke oomblik in tyd bereken die soogdierbrein die resultate op grond van 'n komplekse stroom sensoriese stimuli en aksies, terwyl die dier eenvoudig in hierdie stroom gedompel word. In hierdie geval gee die finale gedrag van die dier 'n digte sein, wat gelei moet word in die regstelling van voorspellings en die ontwikkeling van gedrag. Die brein gebruik al hierdie seine om voorspellings (en gevolglik die kwaliteit van aksies wat uitgevoer word) in die toekoms te optimaliseer. 'n Oorsig van hierdie benadering word gegee in die uitstekende boek "Surf onsekerheid” kognitiewe wetenskaplike en filosoof Andy Clark. As sulke redenasie geëkstrapoleer word na die opleiding van kunsmatige middels, dan openbaar versterkingsleer 'n fundamentele fout: die sein wat in hierdie paradigma gebruik word, blyk hopeloos swak te wees in vergelyking met wat dit kan wees (of behoort te wees). In gevalle waar dit onmoontlik is om die versadiging van die sein te verhoog (miskien omdat dit per definisie swak is, of geassosieer word met lae-vlak reaktiwiteit), is dit waarskynlik beter om 'n oefenmetode te verkies wat goed geparalleliseer is, byvoorbeeld, ES.

Ryker opleiding van neurale netwerke

Gebaseer op die beginsels van hoër senuwee-aktiwiteit inherent aan die soogdierbrein, wat voortdurend besig is met voorspelling, is daar onlangs 'n mate van vordering gemaak met versterkingsleer, wat nou die belangrikheid van sulke voorspellings in ag neem. Ek kan dadelik twee soortgelyke werke vir jou aanbeveel:

In beide hierdie referate vul die skrywers die tipiese verstekbeleid van hul neurale netwerke aan met die resultate van voorspellings rakende die toestand van die omgewing in die toekoms. In die eerste artikel word voorspelling toegepas op 'n verskeidenheid meetveranderlikes, en in die tweede op veranderinge in die omgewing en die gedrag van die agent as sodanig. In beide gevalle word die yl sein wat met positiewe versterking geassosieer word, baie ryker en meer insiggewend, wat beide versnelde leer en die verkryging van meer komplekse gedragspatrone verskaf. Sulke verbeterings is slegs beskikbaar met gradiëntseinmetodes, nie met swartboksmetodes soos ES nie.

Boonop is leer deur te doen en gradiëntmetodes baie meer effektief. Selfs in daardie gevalle waar dit moontlik was om 'n bepaalde probleem met behulp van die ES-metode vinniger te bestudeer as die gebruik van versterkingsleer, is die wins behaal as gevolg van die feit dat baie keer meer data by die ES-strategie betrokke was as met RL. Deur in hierdie geval na te dink oor die beginsels van leer by diere, merk ons op dat die resultaat van leer uit iemand anders se voorbeeld homself na baie generasies manifesteer, terwyl 'n enkele gebeurtenis wat uit eie ervaring ervaar word, soms genoeg is vir 'n dier om vir altyd 'n les te leer. Terwyl soortgelyk leer sonder voorbeelde hoewel dit nie heeltemal inpas by tradisionele gradiëntmetodes nie, is dit baie meer verstaanbaar as ES. Daar is byvoorbeeld benaderings soos neurale episodiese beheer, waar Q-waardes tydens opleiding gestoor word, waarna die program daarteen nagaan voordat aksies geneem word. Dit blyk 'n gradiëntmetode wat jou toelaat om te leer hoe om probleme baie vinniger as voorheen op te los. In 'n artikel oor neurale episodiese beheer noem die skrywers die menslike hippokampus, wat inligting oor 'n gebeurtenis kan behou selfs na 'n enkele ervaring en dus speel kritiese rol in die proses van onthou. Sulke meganismes vereis toegang tot die interne organisasie van die agent, wat ook per definisie onmoontlik is in die ES-paradigma.

So hoekom kombineer hulle nie?

Waarskynlik kon baie van hierdie artikel die indruk gelaat het dat ek RL-metodes voorstaan. Trouens, ek glo egter dat op die lang termyn die beste oplossing 'n kombinasie van beide metodes is, sodat elkeen gebruik word in die situasies waarin dit die beste pas. Dit is duidelik dat, in die geval van baie reaktiewe beleide of in situasies met baie yl positiewe versterkingsseine, wen die ES, veral as jy die rekenaarkrag tot jou beskikking het, waarop jy massiewe parallelleer kan uitvoer. Aan die ander kant sal gradiëntmetodes wat versterkingsleer of leer onder toesig gebruik, nuttig wees wanneer ons baie terugvoer beskikbaar het en die probleem vinnig en met minder data aangeleer moet word.

As ons ons na die natuur wend, vind ons dat die eerste metode in wese die grondslag lê vir die tweede. Daarom het soogdiere in die loop van evolusie 'n brein ontwikkel wat hulle in staat stel om uiters doeltreffend te leer uit die materiaal van komplekse seine wat uit die omgewing kom. Die vraag bly dus oop. Miskien sal evolusionêre strategieë ons help om effektiewe leerargitekture uit te vind wat ook nuttig sal wees vir gradiëntleermetodes. Die oplossing wat deur die natuur gevind word, is immers baie suksesvol.

Bron: will.com

Versterkingsleer of evolusionêre strategieë? - Albei