Haai Habr!
Ons waag dit selde om vertalings van tekste van twee jaar gelede hier te plaas, sonder kode en met 'n duidelike akademiese fokus - maar vandag maak ons 'n uitsondering. Ons hoop dat die dilemma wat in die titel van die artikel gestel word, baie van ons lesers bekommer, en dat u reeds die fundamentele werk oor evolusionêre strategieë gelees het waarmee hierdie pos in die oorspronklike argumenteer of u nou sal lees. Welkom by die kat!
In Maart 2017 het OpenAI 'n buzz in die diep leergemeenskap geskep deur die artikel "
Evolusionêre strategieë
Die hooftesis van die OpenAI-artikel was dat in plaas daarvan om versterkingsleer in kombinasie met tradisionele terugpropagasie te gebruik, hulle 'n neurale netwerk suksesvol opgelei het om komplekse probleme op te los deur die sogenaamde "evolusionêre strategie" (ES) te gebruik. So 'n ES-benadering is om 'n netwerkwye verspreiding van gewigte te handhaaf, en baie agente is betrokke, wat parallel werk en parameters wat uit hierdie verspreiding gekies word, gebruik. Elke agent werk in sy eie omgewing, en nadat 'n gegewe aantal episodes of stadiums van 'n episode voltooi is, gee die algoritme 'n kumulatiewe beloning terug, uitgedruk as 'n fiksheidtelling. Gegewe hierdie waarde, kan die verspreiding van parameters na meer suksesvolle agente verskuif word, wat die minder suksesvolles ontneem. Deur so 'n operasie miljoene kere te herhaal met die deelname van honderde agente, is dit moontlik om die verdeling van gewigte na 'n spasie te skuif wat ons in staat sal stel om 'n kwaliteitbeleid te formuleer vir agente om hul taak op te los. Inderdaad, die resultate wat in die artikel aangebied word, is indrukwekkend: dit word getoon dat as jy duisend agente parallel bestuur, dan kan antropomorfiese voortbeweging op twee bene in minder as 'n halfuur aangeleer word (terwyl selfs die mees gevorderde RL-metodes meer as een uur). Vir meer inligting beveel ek aan om die uitstekende te lees
Verskillende strategieë vir die onderrig van antropomorfiese regop loop Gelei uit OpenAI se ES-metode.
Swart boks
Die groot voordeel van hierdie metode is dat dit maklik geparallaliseer kan word. Terwyl RL-metodes, soos A3C, vereis dat inligting uitgeruil word tussen werkersdrade en 'n parameterbediener, benodig 'n ES slegs slaagtellings en algemene parameterverspreidingsinligting. Dit is juis as gevolg van hierdie eenvoud dat hierdie metode veel beter presteer as moderne RL-metodes in terme van skaalvermoë. Dit alles is egter nie verniet nie: jy moet die netwerk volgens die swart boks-beginsel optimaliseer. In hierdie geval beteken die "swart boks" dat tydens opleiding die interne struktuur van die netwerk heeltemal geïgnoreer word, en slegs die algehele resultaat (beloning per episode) word gebruik, en dit hang daarvan af of die gewigte van 'n spesifieke netwerk sal geërf word deur opvolgende generasies. In situasies waar ons nie veel terugvoer van die omgewing kry nie - en in baie tradisionele RL-take is die beloningstroom baie yl - gaan die probleem van 'n "gedeeltelik swart boks" na 'n "heeltemal swart boks." In hierdie geval is dit moontlik om prestasie ernstig te verbeter, so natuurlik is so 'n kompromie geregverdig. "Wie het gradiënte nodig as hulle in elk geval hopeloos raserig is?" is die algemene mening.
In situasies waar die terugvoer meer aktief is, begin dinge egter vir die ES skeefloop. Die OpenAI-span beskryf hoe 'n eenvoudige MNIST-klassifikasienetwerk opgelei is met ES, en hierdie keer was opleiding 1000 keer stadiger. Die feit is dat die gradiëntsein in beeldklassifikasie uiters insiggewend is oor hoe om die netwerk 'n beter klassifikasie te leer. Die probleem is dus nie soseer met die RL-tegniek nie, maar met yl belonings in omgewings wat raserige gradiënte gee.
Die oplossing wat deur die natuur gevind word
As jy probeer om uit die natuur te leer, dink aan maniere om KI te ontwikkel, dan kan KI in sommige gevalle voorgestel word as
Nadat ons die intellektuele gedrag van soogdiere in ag geneem het, sien ons dat dit gevorm word as gevolg van 'n komplekse wedersydse invloed van twee nou-verbonde prosesse: leer uit ervaring и leer deur te doen. Eersgenoemde word dikwels deur natuurlike seleksie met evolusie geïdentifiseer, maar hier gebruik ek ’n breër term om epigenetika, mikrobiome en ander meganismes in te sluit wat die uitruil van ervaring tussen organismes moontlik maak wat nie vanuit ’n genetiese oogpunt aan mekaar verwant is nie. Die tweede proses, leer deur te doen, is al die inligting wat 'n dier regkry om deur die lewe te leer, en hierdie inligting is direk te danke aan die interaksie van hierdie dier met die buitewêreld. Hierdie kategorie sluit alles in van leer om voorwerpe te herken tot die bemeestering van die kommunikasie inherent aan die leerproses.
Rofweg gesproke kan hierdie twee prosesse wat in die natuur voorkom, vergelyk word met twee opsies vir die optimalisering van neurale netwerke. Evolusionêre strategieë, waar inligting oor gradiënte gebruik word om inligting oor 'n organisme by te werk, nader leer uit ervaring. Net so is gradiëntmetodes, waar die verkryging van hierdie of daardie ervaring lei tot sekere veranderinge in die gedrag van die agent, vergelykbaar met leer uit ervaring. As ons dink aan die soorte intellektuele gedrag of die vermoëns wat elk van hierdie twee benaderings by diere ontwikkel, word so 'n vergelyking meer uitgespreek. In beide gevalle bevorder "evolusionêre metodes" die studie van reaktiewe gedrag wat die ontwikkeling van 'n sekere fiksheid moontlik maak (genoeg om aan die lewe te bly). Om te leer loop of uit gevangenskap te ontsnap is in baie gevalle gelykstaande aan meer "instinktiewe" gedrag, "hard-wired" in baie diere op die genetiese vlak. Daarbenewens bevestig hierdie voorbeeld dat evolusionêre metodes van toepassing is in gevalle waar die beloningsein uiters skaars is (soos byvoorbeeld die feit van suksesvolle grootmaak van 'n welpie). In so 'n geval is dit onmoontlik om die beloning in verband te bring met enige spesifieke stel aksies wat moontlik plaasgevind het baie jare voor die voorkoms van hierdie feit. Aan die ander kant, as ons die geval oorweeg waarin ES misluk, naamlik beeldklassifikasie, is die resultate merkwaardig vergelykbaar met die resultate van diereleer wat behaal is in ontelbare gedragsielkundige eksperimente wat oor 100+ jaar uitgevoer is.
Diere leer
Die metodes wat in versterkingsleer gebruik word, is in baie gevalle direk uit die psigologiese literatuur oor geneem
Die sentrale rol van voorspellende leer in ervaringsleer verander die dinamika wat hierbo beskryf is op die mees betekenisvolle manier. Die sein wat voorheen as baie yl beskou is (epsodiese beloning) blyk baie dig te wees. Teoreties is die situasie iets soos volg: op elke oomblik in tyd bereken die soogdierbrein die resultate op grond van 'n komplekse stroom sensoriese stimuli en aksies, terwyl die dier eenvoudig in hierdie stroom gedompel word. In hierdie geval gee die finale gedrag van die dier 'n digte sein, wat gelei moet word in die regstelling van voorspellings en die ontwikkeling van gedrag. Die brein gebruik al hierdie seine om voorspellings (en gevolglik die kwaliteit van aksies wat uitgevoer word) in die toekoms te optimaliseer. 'n Oorsig van hierdie benadering word gegee in die uitstekende boek "
Ryker opleiding van neurale netwerke
Gebaseer op die beginsels van hoër senuwee-aktiwiteit inherent aan die soogdierbrein, wat voortdurend besig is met voorspelling, is daar onlangs 'n mate van vordering gemaak met versterkingsleer, wat nou die belangrikheid van sulke voorspellings in ag neem. Ek kan dadelik twee soortgelyke werke vir jou aanbeveel:
In beide hierdie referate vul die skrywers die tipiese verstekbeleid van hul neurale netwerke aan met die resultate van voorspellings rakende die toestand van die omgewing in die toekoms. In die eerste artikel word voorspelling toegepas op 'n verskeidenheid meetveranderlikes, en in die tweede op veranderinge in die omgewing en die gedrag van die agent as sodanig. In beide gevalle word die yl sein wat met positiewe versterking geassosieer word, baie ryker en meer insiggewend, wat beide versnelde leer en die verkryging van meer komplekse gedragspatrone verskaf. Sulke verbeterings is slegs beskikbaar met gradiëntseinmetodes, nie met swartboksmetodes soos ES nie.
Boonop is leer deur te doen en gradiëntmetodes baie meer effektief. Selfs in daardie gevalle waar dit moontlik was om 'n bepaalde probleem met behulp van die ES-metode vinniger te bestudeer as die gebruik van versterkingsleer, is die wins behaal as gevolg van die feit dat baie keer meer data by die ES-strategie betrokke was as met RL. Deur in hierdie geval na te dink oor die beginsels van leer by diere, merk ons op dat die resultaat van leer uit iemand anders se voorbeeld homself na baie generasies manifesteer, terwyl 'n enkele gebeurtenis wat uit eie ervaring ervaar word, soms genoeg is vir 'n dier om vir altyd 'n les te leer. Terwyl soortgelyk
So hoekom kombineer hulle nie?
Waarskynlik kon baie van hierdie artikel die indruk gelaat het dat ek RL-metodes voorstaan. Trouens, ek glo egter dat op die lang termyn die beste oplossing 'n kombinasie van beide metodes is, sodat elkeen gebruik word in die situasies waarin dit die beste pas. Dit is duidelik dat, in die geval van baie reaktiewe beleide of in situasies met baie yl positiewe versterkingsseine, wen die ES, veral as jy die rekenaarkrag tot jou beskikking het, waarop jy massiewe parallelleer kan uitvoer. Aan die ander kant sal gradiëntmetodes wat versterkingsleer of leer onder toesig gebruik, nuttig wees wanneer ons baie terugvoer beskikbaar het en die probleem vinnig en met minder data aangeleer moet word.
As ons ons na die natuur wend, vind ons dat die eerste metode in wese die grondslag lê vir die tweede. Daarom het soogdiere in die loop van evolusie 'n brein ontwikkel wat hulle in staat stel om uiters doeltreffend te leer uit die materiaal van komplekse seine wat uit die omgewing kom. Die vraag bly dus oop. Miskien sal evolusionêre strategieë ons help om effektiewe leerargitekture uit te vind wat ook nuttig sal wees vir gradiëntleermetodes. Die oplossing wat deur die natuur gevind word, is immers baie suksesvol.
Bron: will.com