🥇Verstärkendes Lernen oder evolutionäre Strategien? — Beide

Hey Habr!

Wir entscheiden uns nicht oft dafür, hier Übersetzungen von Texten zu veröffentlichen, die zwei Jahre alt sind, keinen Code enthalten und eindeutig akademischen Charakter haben – aber heute machen wir eine Ausnahme. Wir hoffen, dass das im Titel des Artikels aufgeworfene Dilemma viele unserer Leser beunruhigt, und Sie haben das grundlegende Werk zu evolutionären Strategien, mit dem dieser Beitrag argumentiert, bereits im Original gelesen oder werden es jetzt lesen. Willkommen bei der Katze!

Im März 2017 sorgte OpenAI mit dem Artikel „OpenAI“ für Aufsehen in der Deep-Learning-Community.Evolutionsstrategien als skalierbare Alternative zum Reinforcement Learning" In dieser Arbeit wurden beeindruckende Ergebnisse beschrieben, die darauf hindeuten, dass Reinforcement Learning (RL) nicht zu einem Keil geworden ist und es beim Training komplexer neuronaler Netze ratsam ist, andere Methoden auszuprobieren. Anschließend entbrannte eine Debatte über die Bedeutung des verstärkenden Lernens und darüber, wie es seinen Status als „unverzichtbare“ Technologie für den Problemlösungsunterricht verdient. Hier möchte ich sagen, dass diese beiden Technologien nicht als konkurrierend betrachtet werden sollten, von denen eine eindeutig besser ist als die andere; im Gegenteil, sie ergänzen sich letztlich gegenseitig. In der Tat, wenn Sie ein wenig darüber nachdenken, was es braucht, um etwas zu erschaffen allgemeine KI und solcher Systeme, die während ihrer gesamten Existenz lern-, urteils- und planfähig wären, dann werden wir mit ziemlicher Sicherheit zu dem Schluss kommen, dass diese oder jene kombinierte Lösung erforderlich sein wird. Übrigens ist es genau diese kombinierte Lösung, die die Natur im Laufe der Evolution gefunden hat und die Säugetiere und andere höhere Tiere mit komplexer Intelligenz ausgestattet hat.

Evolutionäre Strategien

Die Hauptthese des OpenAI-Papiers war, dass sie, anstatt Verstärkungslernen in Kombination mit traditioneller Backpropagation zu verwenden, erfolgreich ein neuronales Netzwerk trainierten, um komplexe Probleme mithilfe einer sogenannten „evolutionären Strategie“ (ES) zu lösen. Dieser ES-Ansatz besteht darin, eine netzwerkweite Gewichtsverteilung aufrechtzuerhalten, wobei mehrere Agenten parallel arbeiten und aus dieser Verteilung ausgewählte Parameter verwenden. Jeder Agent arbeitet in seiner eigenen Umgebung und nach Abschluss einer bestimmten Anzahl von Episoden oder Phasen einer Episode gibt der Algorithmus eine kumulative Belohnung zurück, ausgedrückt als Fitness-Score. Unter Berücksichtigung dieses Wertes kann sich die Verteilung der Parameter zugunsten erfolgreicherer Agenten verschieben und weniger erfolgreiche Agenten benachteiligen. Durch die millionenfache Wiederholung einer solchen Operation unter Beteiligung von Hunderten von Agenten ist es möglich, die Gewichtsverteilung in einen Raum zu verschieben, der es den Agenten ermöglicht, eine qualitativ hochwertige Richtlinie zur Lösung der ihnen zugewiesenen Aufgabe zu formulieren. Tatsächlich sind die in dem Artikel vorgestellten Ergebnisse beeindruckend: Es zeigt sich, dass die anthropomorphe Fortbewegung auf zwei Beinen in weniger als einer halben Stunde erlernt werden kann, wenn man tausend Agenten parallel laufen lässt (während selbst die fortschrittlichsten RL-Methoden mehr Ausgaben erfordern). mehr als eine Stunde dafür). Für detailliertere Informationen empfehle ich die Lektüre des ausgezeichneten Post von den Autoren des Experiments, sowie wissenschaftlicher Artikel.

Verschiedene Strategien zum Unterrichten des anthropomorphen aufrechten Gehens, untersucht mit der ES-Methode von OpenAI.

Flugschreiber

Der große Vorteil dieser Methode besteht darin, dass sie leicht parallelisiert werden kann. Während RL-Methoden wie A3C den Austausch von Informationen zwischen Arbeitsthreads und einem Parameterserver erfordern, benötigt ES nur Fitnessschätzungen und allgemeine Parameterverteilungsinformationen. Aufgrund dieser Einfachheit ist diese Methode den modernen RL-Methoden hinsichtlich der Skalierungsfähigkeiten weit voraus. Allerdings ist das alles nicht umsonst: Man muss das Netzwerk nach dem Black-Box-Prinzip optimieren. In diesem Fall bedeutet die „Black Box“, dass beim Training die interne Struktur des Netzwerks völlig ignoriert wird und nur das Gesamtergebnis (Belohnung für die Episode) verwendet wird und davon abhängt, ob die Gewichte eines bestimmten Netzwerks erhalten bleiben an nachfolgende Generationen vererbt werden. In Situationen, in denen wir nicht viel Feedback von der Umgebung erhalten – und bei vielen traditionellen RL-Problemen ist der Belohnungsfluss sehr spärlich – wandelt sich das Problem von einer „teilweise Black Box“ zu einer „völlig Black Box“. In diesem Fall können Sie die Produktivität deutlich steigern, daher ist ein solcher Kompromiss natürlich gerechtfertigt. „Wer braucht Steigungen, wenn sie schon hoffnungslos laut sind?“ - das ist die allgemeine Meinung.

In Situationen, in denen das Feedback jedoch aktiver ist, beginnen die Dinge für den ES schief zu gehen. Das OpenAI-Team beschreibt, wie ein einfaches MNIST-Klassifizierungsnetzwerk mit ES trainiert wurde, und dieses Mal war das Training 1000-mal langsamer. Tatsache ist, dass das Gradientensignal bei der Bildklassifizierung äußerst aufschlussreich darüber ist, wie dem Netzwerk eine bessere Klassifizierung beigebracht werden kann. Daher liegt das Problem weniger bei der RL-Technik als vielmehr bei spärlichen Belohnungen in Umgebungen, die laute Farbverläufe erzeugen.

Die Lösung der Natur

Wenn wir versuchen, vom Beispiel der Natur zu lernen und über Möglichkeiten zur Entwicklung von KI nachzudenken, dann kann man sich in manchen Fällen KI vorstellen problemorientierter Ansatz. Schließlich operiert die Natur innerhalb von Grenzen, die Informatiker einfach nicht haben. Es besteht die Meinung, dass ein rein theoretischer Ansatz zur Lösung eines bestimmten Problems effektivere Lösungen liefern kann als empirische Alternativen. Ich denke jedoch immer noch, dass es sich lohnen würde zu testen, wie ein dynamisches System, das unter bestimmten Einschränkungen arbeitet (die Erde), Agenten (Tiere, insbesondere Säugetiere) hervorgebracht hat, die zu flexiblem und komplexem Verhalten fähig sind. Während einige dieser Einschränkungen in simulierten Datenwissenschaftswelten nicht gelten, sind andere völlig in Ordnung.

Nachdem wir das intellektuelle Verhalten von Säugetieren untersucht haben, sehen wir, dass es als Ergebnis der komplexen gegenseitigen Beeinflussung zweier eng miteinander verbundener Prozesse entsteht: aus den Erfahrungen anderer lernen и Lernen durch Tun. Ersteres wird oft mit einer durch natürliche Selektion vorangetriebenen Evolution gleichgesetzt, aber hier verwende ich einen breiteren Begriff, um Epigenetik, Mikrobiome und andere Mechanismen zu berücksichtigen, die den Erfahrungsaustausch zwischen genetisch nicht verwandten Organismen ermöglichen. Der zweite Prozess, das Lernen aus Erfahrung, umfasst alle Informationen, die ein Tier im Laufe seines Lebens lernen kann, und diese Informationen werden direkt durch die Interaktion dieses Tieres mit der Außenwelt bestimmt. Diese Kategorie umfasst alles vom Erlernen des Erkennens von Objekten bis hin zum Beherrschen der Kommunikation, die dem Lernprozess innewohnt.

Grob gesagt lassen sich diese beiden in der Natur vorkommenden Prozesse mit zwei Möglichkeiten zur Optimierung neuronaler Netze vergleichen. Evolutionäre Strategien, bei denen Informationen über Gradienten genutzt werden, um Informationen über den Organismus zu aktualisieren, kommen dem Lernen aus den Erfahrungen anderer nahe. Ebenso sind Gradientenmethoden, bei denen das Sammeln der einen oder anderen Erfahrung zu der einen oder anderen Verhaltensänderung des Agenten führt, mit dem Lernen aus der eigenen Erfahrung vergleichbar. Wenn wir über die Arten intelligenten Verhaltens oder Fähigkeiten nachdenken, die jeder dieser beiden Ansätze bei Tieren entwickelt, wird der Vergleich deutlicher. In beiden Fällen fördern „evolutionäre Methoden“ die Untersuchung reaktiver Verhaltensweisen, die es einem ermöglichen, eine bestimmte Fitness zu entwickeln (ausreichend, um am Leben zu bleiben). Das Erlernen des Laufens oder die Flucht aus der Gefangenschaft ist in vielen Fällen gleichbedeutend mit eher „instinktiven“ Verhaltensweisen, die bei vielen Tieren auf genetischer Ebene „fest verankert“ sind. Darüber hinaus bestätigt dieses Beispiel, dass evolutionäre Methoden in Fällen anwendbar sind, in denen das Belohnungssignal äußerst selten ist (z. B. die Tatsache, dass ein Baby erfolgreich großgezogen wurde). In einem solchen Fall ist es unmöglich, die Belohnung mit einer bestimmten Reihe von Aktionen in Zusammenhang zu bringen, die möglicherweise viele Jahre vor dem Eintreten dieser Tatsache durchgeführt wurden. Betrachten wir andererseits einen Fall, in dem ES versagt, nämlich die Bildklassifizierung, sind die Ergebnisse bemerkenswert vergleichbar mit den Ergebnissen des Tierlernens, das in unzähligen verhaltenspsychologischen Experimenten über einen Zeitraum von über 100 Jahren erzielt wurde.

Von Tieren lernen

Die beim Reinforcement Learning eingesetzten Methoden sind in vielen Fällen direkt aus der psychologischen Fachliteratur übernommen operante Konditionierung, und die operante Konditionierung wurde mithilfe der Tierpsychologie untersucht. Richard Sutton, einer der beiden Begründer des Reinforcement Learning, hat übrigens einen Bachelor-Abschluss in Psychologie. Im Rahmen der operanten Konditionierung lernen Tiere, Belohnung oder Bestrafung mit bestimmten Verhaltensmustern zu verknüpfen. Trainer und Forscher können diese Belohnungsassoziation auf die eine oder andere Weise manipulieren und Tiere dazu provozieren, Intelligenz oder bestimmte Verhaltensweisen zu zeigen. Allerdings ist die operante Konditionierung, wie sie in der Tierforschung eingesetzt wird, nichts anderes als eine ausgeprägtere Form derselben Konditionierung, auf deren Grundlage Tiere ein Leben lang lernen. Wir erhalten ständig Signale positiver Verstärkung aus der Umwelt und passen unser Verhalten entsprechend an. Tatsächlich glauben viele Neuro- und Kognitionswissenschaftler, dass Menschen und andere Tiere tatsächlich auf einer noch höheren Ebene agieren und kontinuierlich lernen, das Ergebnis ihres Verhaltens in zukünftigen Situationen auf der Grundlage potenzieller Belohnungen vorherzusagen.

Die zentrale Rolle der Vorhersage beim Lernen aus Erfahrung verändert die oben beschriebene Dynamik erheblich. Das Signal, das zuvor als sehr spärlich galt (episodische Belohnung), erweist sich als sehr dicht. Theoretisch sieht die Situation ungefähr so aus: Das Gehirn des Säugetiers berechnet zu jedem Zeitpunkt Ergebnisse auf der Grundlage eines komplexen Stroms sensorischer Reize und Aktionen, während das Tier einfach in diesen Strom eintaucht. In diesem Fall gibt das endgültige Verhalten des Tieres ein starkes Signal, das zur Steuerung der Prognoseanpassung und Verhaltensentwicklung genutzt werden muss. Das Gehirn nutzt all diese Signale, um Prognosen (und damit die Qualität der ergriffenen Maßnahmen) für die Zukunft zu optimieren. Einen Überblick über diesen Ansatz gibt das ausgezeichnete Buch „Unsicherheit beim Surfen„Kognitionswissenschaftler und Philosoph Andy Clark. Wenn wir solche Überlegungen auf das Training künstlicher Agenten übertragen, wird ein grundlegender Fehler beim verstärkenden Lernen deutlich: Das in diesem Paradigma verwendete Signal ist im Vergleich zu dem, was es sein könnte (oder sein sollte), hoffnungslos schwach. In Fällen, in denen es unmöglich ist, die Signalsättigung zu erhöhen (vielleicht weil sie von Natur aus schwach ist oder mit einer geringen Reaktivität verbunden ist), ist es wahrscheinlich besser, eine Trainingsmethode zu bevorzugen, die gut parallelisiert ist, zum Beispiel ES.

Umfangreicheres Training neuronaler Netze

Aufbauend auf den Prinzipien höherer neuronaler Aktivität, die dem Gehirn von Säugetieren innewohnen, das ständig damit beschäftigt ist, Vorhersagen zu treffen, wurden in jüngster Zeit Fortschritte beim Reinforcement Learning gemacht, das nun die Bedeutung solcher Vorhersagen berücksichtigt. Ich kann Ihnen sofort zwei ähnliche Werke empfehlen:

In beiden Artikeln ergänzen die Autoren die typische Standardpolitik ihrer neuronalen Netze durch Vorhersageergebnisse über den Zustand der Umwelt in der Zukunft. Im ersten Artikel wird die Vorhersage auf eine Vielzahl von Messvariablen angewendet, und im zweiten Artikel wird die Vorhersage auf Änderungen in der Umgebung und auf das Verhalten des Agenten als solche angewendet. In beiden Fällen wird das mit positiver Verstärkung verbundene spärliche Signal viel reichhaltiger und informativer, was sowohl ein schnelleres Lernen als auch die Aneignung komplexerer Verhaltensweisen ermöglicht. Solche Verbesserungen sind nur bei Methoden möglich, die ein Gradientensignal verwenden, nicht aber bei Methoden, die nach einem „Black-Box“-Prinzip wie ES arbeiten.

Zudem sind Erfahrungslernen und Gradientenmethoden deutlich effektiver. Selbst in Fällen, in denen es möglich war, ein bestimmtes Problem mit der ES-Methode schneller zu untersuchen als mit Reinforcement Learning, wurde der Gewinn dadurch erzielt, dass die ES-Strategie um ein Vielfaches mehr Daten umfasste als mit RL. Wenn wir in diesem Fall über die Prinzipien des Lernens bei Tieren nachdenken, stellen wir fest, dass sich das Ergebnis des Lernens aus dem Beispiel eines anderen nach vielen Generationen manifestiert, während manchmal ein einziges Ereignis, das es selbst erlebt, ausreicht, damit das Tier die Lektion für immer lernt. Während wie Training ohne Beispiele Obwohl es nicht ganz in traditionelle Gradientenmethoden passt, ist es viel verständlicher als ES. Es gibt zum Beispiel Ansätze wie neuronale episodische Kontrolle, wo Q-Werte während des Trainingsprozesses gespeichert werden, wonach das Programm sie überprüft, bevor es Maßnahmen ergreift. Das Ergebnis ist eine Gradientenmethode, mit der Sie lernen können, Probleme viel schneller als bisher zu lösen. In einem Artikel über neuronale episodische Kontrolle erwähnen die Autoren den menschlichen Hippocampus, der in der Lage ist, Informationen über ein Ereignis auch nach einer einzigen Erfahrung zu speichern und daher spielt kritische Rolle im Prozess des Erinnerns. Solche Mechanismen erfordern Zugriff auf die interne Organisation des Agenten, was im ES-Paradigma per Definition ebenfalls unmöglich ist.

Warum also nicht beides kombinieren?

Es ist wahrscheinlich, dass ein Großteil dieses Artikels den Eindruck erweckt, dass ich RL-Methoden befürworte. Allerdings glaube ich tatsächlich, dass auf lange Sicht die beste Lösung darin besteht, beide Methoden zu kombinieren, sodass jede in den Situationen zum Einsatz kommt, in denen sie am besten geeignet ist. Offensichtlich gewinnt der ES bei vielen reaktiven Richtlinien oder in Situationen mit sehr spärlichen Signalen positiver Verstärkung, insbesondere wenn Sie über die Rechenleistung verfügen, mit der Sie massiv paralleles Training durchführen können. Andererseits sind Gradientenmethoden, die Reinforcement Learning oder Supervised Learning nutzen, nützlich, wenn wir Zugriff auf umfangreiches Feedback haben und lernen müssen, wie wir ein Problem schnell und mit weniger Daten lösen können.

Wenn wir uns der Natur zuwenden, stellen wir fest, dass die erste Methode im Wesentlichen den Grundstein für die zweite legt. Deshalb haben Säugetiere im Laufe der Evolution Gehirne entwickelt, die es ihnen ermöglichen, äußerst effektiv aus komplexen Signalen ihrer Umwelt zu lernen. Die Frage bleibt also offen. Vielleicht helfen uns evolutionäre Strategien dabei, effektive Lernarchitekturen zu entwickeln, die auch für Gradientenlernmethoden nützlich sind. Schließlich ist die von der Natur gefundene Lösung tatsächlich sehr erfolgreich.

Source: habr.com

Reinforcement Learning oder evolutionäre Strategien? - Beide