🥇 Verstäerkung Léieren oder Evolutiounsstrategien? — Béid

Hey Habr!

Mir entscheeden net dacks hei Iwwersetzunge vun Texter ze posten déi zwee Joer al waren, ouni Code a kloer vun enger akademescher Natur - awer haut wäerte mir eng Ausnam maachen. Mir hoffen, datt den Dilemma, deen am Titel vum Artikel poséiert ass, vill vun eise Lieser Suergen mécht, an Dir hutt d'fundamental Aarbecht iwwer evolutiv Strategien scho gelies, mat deenen dëse Post am Original argumentéiert oder se elo liesen. Wëllkomm bei der Kaz!

Am Mäerz 2017 huet OpenAI Wellen an der Deep Learning Gemeinschaft gemaach mam Pabeier "Evolutiounsstrategien als skalierbar Alternativ zum Verstäerkungsléieren" Dës Aarbecht beschreift beandrockend Resultater zugonschte vun der Tatsaach datt d'Verstäerkung Léieren (RL) kee Keil gouf, a wann Dir komplex neural Netzwierker trainéiert, ass et unzeroden aner Methoden ze probéieren. Eng Debatt ass dunn ausgebrach iwwer d'Wichtegkeet vum Verstäerkungsléieren a wéi et verdéngt säi Status als "Must-Have" Technologie fir d'Problemléisung ze léieren. Hei wëll ech soen, datt déi zwou Technologien net als Konkurrenz sollen ugesi ginn, vun deenen eng kloer besser ass wéi déi aner; am Géigendeel, si ergänzen sech schlussendlech all aner. Tatsächlech, wann Dir e bëssen iwwerdenkt wat et brauch fir ze kreéieren allgemeng AI an esou Systemer, déi während hirer Existenz fäeg wieren ze léieren, ze beurteelen an ze plangen, da komme mer bal sécher zur Conclusioun, datt déi oder déi kombinéiert Léisung néideg ass. Iwwregens, genee dës kombinéiert Léisung koum d'Natur, déi Mamendéieren an aner méi héich Déiere mat komplexer Intelligenz am Laf vun der Evolutioun dotéiert huet.

Evolutiounsstrategien

D'Haaptthes vum OpenAI Pabeier war datt, anstatt Verstäerkungsléiere kombinéiert mat traditioneller Réckpropagatioun ze benotzen, si erfollegräich en neuralt Netzwierk trainéiert fir komplex Probleemer ze léisen mat deem wat se eng "evolutiounsstrategie" (ES) genannt hunn. Dës ES Approche besteet aus der Erhaalung vun enger Netzbreet Verdeelung vu Gewiichter, involvéiert verschidde Agenten déi parallel schaffen a benotzt Parameteren aus dëser Verdeelung ausgewielt. All Agent funktionnéiert a sengem eegene Ëmfeld, an no der Ofschloss vun enger spezifizéierter Unzuel vun Episoden oder Etappe vun enger Episod, gëtt den Algorithmus eng kumulativ Belounung zréck, ausgedréckt als Fitness Score. Wann Dir dëse Wäert berücksichtegt, kann d'Verdeelung vun de Parameteren op méi erfollegräich Agenten verréckelt ginn, manner erfollegräich ze entzéien. Andeems Dir esou eng Operatioun Millioune Mol mat der Participatioun vun Honnerte vun Agenten widderhëlt, ass et méiglech d'Verdeelung vu Gewiichter op e Raum ze plënneren, deen den Agenten erlaabt eng héichqualitativ Politik ze formuléieren fir d'Aufgab ze léisen, déi hinnen zougewisen ass. Tatsächlech sinn d'Resultater, déi am Artikel presentéiert ginn, beandrockend: et gëtt gewisen datt wann Dir dausend Agenten parallel leeft, da kann anthropomorphesch Beweegung op zwee Been a manner wéi eng hallef Stonn geléiert ginn (während souguer déi fortgeschratt RL-Methoden méi ausginn wéi eng Stonn op dëser). Fir méi detailléiert Informatiounen, Ech recommandéieren der excellent liesen posten vun den Auteuren vum Experiment, wéi och wëssenschaftlechen Artikel.

Verschidde Strategien fir anthropomorphesch oprecht Spazéieren ze léieren, studéiert mat der ES Method vun OpenAI.

Schwaarz Këscht

De grousse Virdeel vun dëser Method ass datt et einfach paralleliséiert ka ginn. Iwwerdeems RL Methoden, wéi A3C, verlaangen Informatiounen tëscht Aarbechter thread an engem Parameter Server austauscht ginn, brauch ES nëmmen Fitness Schätzung an generaliséiert Parameter Verdeelung Informatiounen. Et ass wéinst dëser Einfachheet datt dës Method wäit virun modernen RL Methoden ass wat d'Skaléierungsfäegkeeten ugeet. All dat ass awer net ëmsoss: Dir musst d'Netzwierk no dem Black Box Prinzip optimiséieren. An dësem Fall heescht d'"schwaarz Këscht" datt während Training d'intern Struktur vum Netz komplett ignoréiert gëtt, an nëmmen d'Gesamtresultat (Belounung fir d'Episod) gëtt benotzt, an et hänkt dovun of ob d'Gewiichter vun engem bestëmmten Netzwierk wäert vun de kommende Generatiounen ierflecher ginn. A Situatiounen, wou mir net vill Feedback vun der Ëmwelt kréien - an an vill traditionell RL Problemer de Flux vun Belounungen ass ganz spatzen - de Problem geet vun enger "deelweis schwaarz Këscht" zu enger "komplett schwaarz Këscht." An dësem Fall kënnt Dir d'Produktivitéit wesentlech erhéijen, also natierlech ass sou e Kompromiss gerechtfäerdegt. "Wie brauch Gradienten wa se iwwerhaapt hoffnungslos laut sinn?" - dat ass déi allgemeng Meenung.

Wéi och ëmmer, a Situatiounen wou de Feedback méi aktiv ass, fänken d'Saache fir den ES falsch ze goen. D'OpenAI Team beschreift wéi en einfachen MNIST Klassifikatiounsnetz mat ES trainéiert gouf, an dës Kéier war den Training 1000 Mol méi lues. D'Tatsaach ass datt de Gradientsignal an der Bildklassifikatioun extrem informativ ass wéi een d'Netzwierk besser Klassifikatioun léiert. Also ass de Problem manner mat der RL Technik a méi mat spatzen Belounungen an Ëmfeld déi Kaméidi Gradienten produzéieren.

Natur Léisung

Wa mir probéieren aus dem Beispill vun der Natur ze léieren, iwwer Weeër ze denken fir AI z'entwéckelen, da kann AI an e puer Fäll geduecht ginn als problemorientéiert Approche. No allem funktionnéiert d'Natur bannent Aschränkungen, déi Informatiker einfach net hunn. Et gëtt d'Meenung datt eng reng theoretesch Approche fir e bestëmmte Problem ze léisen méi effektiv Léisunge ka bidden wéi empiresch Alternativen. Wéi och ëmmer, ech denken nach ëmmer datt et derwäert wier ze testen wéi en dynamesche System, deen ënner bestëmmte Contrainten (d'Äerd) funktionnéiert, Agenten generéiert huet (Déieren, besonnesch Mamendéieren) déi fäeg sinn flexibel a komplex Verhalen ze maachen. Wärend e puer vun dësen Aschränkungen net an simuléierten Datewëssenschaftswelten gëllen, anerer si just gutt.

Nodeems mir d'intellektuell Verhalen vu Mamendéieren ënnersicht hunn, gesi mir datt et als Resultat vum komplexe géigesäitege Afloss vun zwee enk verbonne Prozesser geformt ass: léiere vun aneren hir Erfahrungen и léieren duerch ze maachen. Déi fréier gëtt dacks gläichgestallt mat der Evolutioun gedriwwen duerch natierlech Selektioun, awer hei benotzen ech e méi breede Begrëff fir Epigenetik, Mikrobiome an aner Mechanismen ze berücksichtegen, déi d'Erfahrung tëscht genetesch net verbonnen Organismen deelen. Den zweete Prozess, d'Erfahrung léieren, ass all d'Informatioun, déi en Déier et fäerdeg bréngt während hirem Liewen ze léieren, an dës Informatioun gëtt direkt vun der Interaktioun vun dësem Déier mat der Äussewelt bestëmmt. Dës Kategorie enthält alles vu Léieren fir Objeten ze erkennen bis d'Kommunikatioun beherrschen, déi am Léierprozess inherent ass.

Grof geschwat, kënnen dës zwee Prozesser, déi an der Natur optrieden, mat zwou Méiglechkeete verglach ginn fir neural Netzwierker ze optimiséieren. Evolutiounsstrategien, wou Informatioun iwwer Gradienten benotzt gëtt fir Informatioun iwwer den Organismus ze aktualiséieren, kommen no beim Léieren aus der Erfahrung vun aneren. Ähnlech sinn Gradientmethoden, wou déi eng oder aner Erfarung zu enger oder anerer Verännerung am Verhalen vum Agent féiert, vergläichbar mat der eegener Erfahrung ze léieren. Wa mir iwwer d'Zorte vun intelligent Verhalen oder Fäegkeeten denken, déi all eenzel vun dësen zwou Approche bei Déieren entwéckelt, gëtt de Verglach méi ausgeschwat. A béide Fäll förderen "evolutiounsmethoden" d'Studie vu reaktive Verhalen, déi et erlaben eng gewësse Fitness z'entwéckelen (genuch fir lieweg ze bleiwen). Léiere goen oder aus Gefaangenschaft flüchten ass a ville Fäll gläichwäerteg mat méi "instinktiv" Verhalen, déi bei villen Déieren um geneteschem Niveau "hard-wired" sinn. Zousätzlech bestätegt dëst Beispill datt evolutiv Methoden applicabel sinn a Fäll wou d'Belounungssignal extrem rar ass (zum Beispill d'Tatsaach vun engem erfollegräichen Erzéihung vun engem Puppelchen). An esou engem Fall ass et onméiglech d'Belounung mat all spezifesche Set vun Aktiounen ze korreléieren, déi vill Joer virum Optriede vun dëser Tatsaach ausgefouert kënne ginn. Op der anerer Säit, wa mir e Fall betruechten an deem ES klappt, nämlech Bildklassifizéierung, sinn d'Resultater bemierkenswäert vergläichbar mat de Resultater vum Déiereléiere erreecht an enger Onmass Verhalenspsychologeschen Experimenter, déi iwwer 100-plus Joer gemaach goufen.

Léieren vun Déieren

D'Methoden, déi am Verstäerkungsléiere benotzt ginn, ginn a ville Fäll direkt aus der psychologescher Literatur geholl operant Konditioun, an operant Konditioun gouf mat Déierepsychologie studéiert. Iwwregens, de Richard Sutton, ee vun deenen zwee Grënner vum Verstäerkungsléieren, huet e Bachelor an der Psychologie. Am Kontext vun der operanter Konditioun léieren Déieren d'Belounung oder d'Strof mat spezifesche Verhalensmuster ze verbannen. Traineren a Fuerscher kënnen dës Belounungsassociatioun op déi eng oder aner Manéier manipuléieren, Déieren provozéieren fir Intelligenz oder gewësse Verhalen ze weisen. Wéi och ëmmer, operant Konditioun, wéi se an Déierefuerschung benotzt gëtt, ass näischt anescht wéi eng méi ausgeschwat Form vun der selwechter Konditioun op Basis vun där Déieren hir ganzt Liewen léieren. Mir kréien konstant Signaler vu positiver Verstäerkung aus der Ëmwelt an passen eist Verhalen deementspriechend un. Tatsächlech gleewen vill Neurowëssenschaftler a kognitiv Wëssenschaftler datt d'Mënschen an aner Déieren tatsächlech op engem nach méi héijen Niveau operéieren an dauernd léieren d'Resultat vun hirem Verhalen an zukünfteg Situatiounen op Basis vu potenzielle Belounungen virauszesoen.

Déi zentral Roll vun der Prognose beim Léieren vun der Erfahrung verännert d'Dynamik, déi hei uewen beschriwwen ass, op bedeitend Manéier. D'Signal, dat virdru als ganz spatz ugesi gouf (episodic Belounung) stellt sech als ganz dicht. Theoretesch ass d'Situatioun sou eppes: zu all Zäit berechent d'Gehir vum Mamendéieren d'Resultater op Basis vun engem komplexe Stroum vu sensoresche Reizen an Handlungen, während d'Déier einfach an dësem Stroum ënnerdaucht ass. An dësem Fall gëtt d'endgülteg Verhalen vum Déier e staarkt Signal, dat muss benotzt ginn fir d'Upassung vun de Prognosen an d'Entwécklung vum Verhalen ze guidéieren. D'Gehir benotzt all dës Signaler fir d'Prognosen (an deementspriechend d'Qualitéit vun den Aktiounen) an Zukunft ze optimiséieren. En Iwwerbléck iwwer dës Approche gëtt am exzellente Buch "Surfen Onsécherheet" Kognitiv Wëssenschaftler a Philosoph Andy Clark. Wa mir esou Begrënnung op d'Ausbildung vu kënschtlechen Agenten extrapoléieren, da gëtt e fundamentale Feeler am Verstäerkungsléiere opgedeckt: d'Signal, déi an dësem Paradigma benotzt gëtt, ass hoffnungslos schwaach am Verglach zu deem wat et kéint sinn (oder sollt sinn). A Fäll wou et onméiglech ass d'Signal Sättigung z'erhéijen (vläicht well et onheemlech schwaach ass oder mat enger niddereger Reaktivitéit assoziéiert ass), ass et wahrscheinlech besser eng Trainingsmethod ze léiwer déi gutt paralleliséiert ass, zum Beispill ES.

Méi räich Ausbildung vun neurale Netzwierker

Bauen op d'Prinzipien vun enger méi héijer neuraler Aktivitéit inherent am Mamendéieren Gehir, dee stänneg beschäftegt ass Prognosen ze maachen, rezent Fortschrëtter goufen am Verstäerkungsléiere gemaach, wat elo d'Wichtegkeet vun esou Prognosen berücksichtegt. Ech kann Iech direkt zwee ähnlech Wierker recommandéieren:

A béid vun dësen Pabeieren ergänzen d'Auteuren déi typesch Standardpolitik vun hiren neurale Netzwierker mat Viraussoeresultater iwwer den Zoustand vun der Ëmwelt an der Zukunft. Am éischten Artikel gëtt d'Prognose op eng Vielfalt vu Miessvariablen ugewannt, an am zweeten gëtt d'Prognosen op Ännerungen an der Ëmwelt an dem Verhalen vum Agent als solch ugewannt. A béide Fäll gëtt de sparse Signal, dat mat der positiver Verstäerkung assoziéiert ass, vill méi räich a méi informativ, sou datt et e méi séier Léieren an d'Acquisitioun vu méi komplexe Verhalen erlaabt. Esou Verbesserunge sinn nëmme verfügbar mat Methoden déi e Gradientsignal benotzen, an net mat Methoden déi op engem "Black Box" Prinzip funktionnéieren, wéi ES.

Zousätzlech, Léieren aus Erfahrung a Gradient Methoden si vill méi effektiv. Och a Fäll wou et méiglech war e bestëmmte Problem mat der ES Method méi séier ze studéieren wéi d'Verstäerkungsléieren ze benotzen, gouf de Gewënn erreecht wéinst der Tatsaach datt d'ES Strategie vill Mol méi Daten involvéiert wéi mat RL. Mir reflektéieren an dësem Fall iwwer d'Prinzipien vum Léieren an Déieren, bemierken datt d'Resultat vum Léieren aus engem Beispill vun engem aneren sech no ville Generatiounen manifestéiert, während heiansdo en eenzegen Event, deen e selwer erlieft huet, genuch ass fir d'Déier d'Lektioun fir ëmmer ze léieren. Während wéi Training ouni Beispiller Och wann et net ganz an traditionell Gradientmethoden passt, ass et vill méi verständlech wéi ES. Et ginn zum Beispill Approche wéi neural episodic Kontroll, wou Q-Wäerter während dem Trainingsprozess gespäichert ginn, duerno kontrolléiert de Programm se ier se Aktiounen huelen. D'Resultat ass eng Gradientmethod déi Iech erlaabt ze léieren wéi Problemer vill méi séier wéi virdrun ze léisen. An engem Artikel iwwer neural episodesch Kontroll ernimmen d'Auteuren de mënschlechen Hippocampus, deen fäeg ass Informatioun iwwer en Event och no enger eenzeger Erfahrung ze behalen an dofir spillt kritesch Roll am Prozess vun Erënnerung. Esou Mechanismen erfuerderen Zougang zu der interner Organisatioun vum Agent, wat och per Definitioun onméiglech ass am ES Paradigma.

Also, firwat kombinéieren se net?

Et ass wahrscheinlech datt vill vun dësem Artikel den Androck hannerloosst datt ech RL Methoden plädéieren. Ech mengen awer eigentlech, datt op laang Siicht déi bescht Léisung ass, déi zwou Methoden ze kombinéieren, sou datt jidderee benotzt gëtt an de Situatiounen, an deenen se am beschte passt. Selbstverständlech, am Fall vu ville reaktive Politiken oder a Situatiounen mat ganz spatzen Signaler vu positiver Verstäerkung, gewënnt d'ES, besonnesch wann Dir d'Rechenkraaft zur Verfügung hutt, op där Dir massiv parallel Training lafe kënnt. Op der anerer Säit, Gradientmethoden mat Verstäerkungsléieren oder iwwerwaacht Léieren wäerten nëtzlech sinn wa mir Zougang zu extensiv Feedback hunn a musse léieren wéi e Problem séier a mat manner Daten léisen.

Wann Dir op d'Natur geet, fanne mir datt déi éischt Method am Wesentlechen d'Fundament fir déi zweet leet. Dofir hunn Mamendéieren am Laf vun der Evolutioun Gehirer entwéckelt, déi et hinnen erlaben extrem effektiv vu komplexe Signaler aus der Ëmwelt ze léieren. Also, d'Fro bleift oppen. Vläicht hëllefe evolutiv Strategien eis effektiv Léierarchitekturen ze erfannen, déi och nëtzlech si fir Gradient Léiermethoden. No allem ass d'Léisung, déi vun der Natur fonnt gëtt, wierklech ganz erfollegräich.

Source: will.com

Verstäerkung Léieren oder Evolutiounsstrategien? - Béid