Hey Habr!
Wir entscheiden uns nicht oft dafür, hier Übersetzungen von Texten zu veröffentlichen, die zwei Jahre alt sind, keinen Code enthalten und eindeutig akademischen Charakter haben – aber heute machen wir eine Ausnahme. Wir hoffen, dass das im Titel des Artikels aufgeworfene Dilemma viele unserer Leser beunruhigt, und Sie haben das grundlegende Werk zu evolutionären Strategien, mit dem dieser Beitrag argumentiert, bereits im Original gelesen oder werden es jetzt lesen. Willkommen bei der Katze!
Im März 2017 sorgte OpenAI mit dem Artikel „OpenAI“ für Aufsehen in der Deep-Learning-Community.
Evolutionäre Strategien
Die Hauptthese des OpenAI-Papiers war, dass sie, anstatt Verstärkungslernen in Kombination mit traditioneller Backpropagation zu verwenden, erfolgreich ein neuronales Netzwerk trainierten, um komplexe Probleme mithilfe einer sogenannten „evolutionären Strategie“ (ES) zu lösen. Dieser ES-Ansatz besteht darin, eine netzwerkweite Gewichtsverteilung aufrechtzuerhalten, wobei mehrere Agenten parallel arbeiten und aus dieser Verteilung ausgewählte Parameter verwenden. Jeder Agent arbeitet in seiner eigenen Umgebung und nach Abschluss einer bestimmten Anzahl von Episoden oder Phasen einer Episode gibt der Algorithmus eine kumulative Belohnung zurück, ausgedrückt als Fitness-Score. Unter Berücksichtigung dieses Wertes kann sich die Verteilung der Parameter zugunsten erfolgreicherer Agenten verschieben und weniger erfolgreiche Agenten benachteiligen. Durch die millionenfache Wiederholung einer solchen Operation unter Beteiligung von Hunderten von Agenten ist es möglich, die Gewichtsverteilung in einen Raum zu verschieben, der es den Agenten ermöglicht, eine qualitativ hochwertige Richtlinie zur Lösung der ihnen zugewiesenen Aufgabe zu formulieren. Tatsächlich sind die in dem Artikel vorgestellten Ergebnisse beeindruckend: Es zeigt sich, dass die anthropomorphe Fortbewegung auf zwei Beinen in weniger als einer halben Stunde erlernt werden kann, wenn man tausend Agenten parallel laufen lässt (während selbst die fortschrittlichsten RL-Methoden mehr Ausgaben erfordern). mehr als eine Stunde dafür). Für detailliertere Informationen empfehle ich die Lektüre des ausgezeichneten
Verschiedene Strategien zum Unterrichten des anthropomorphen aufrechten Gehens, untersucht mit der ES-Methode von OpenAI.
Flugschreiber
Der große Vorteil dieser Methode besteht darin, dass sie leicht parallelisiert werden kann. Während RL-Methoden wie A3C den Austausch von Informationen zwischen Arbeitsthreads und einem Parameterserver erfordern, benötigt ES nur Fitnessschätzungen und allgemeine Parameterverteilungsinformationen. Aufgrund dieser Einfachheit ist diese Methode den modernen RL-Methoden hinsichtlich der Skalierungsfähigkeiten weit voraus. Allerdings ist das alles nicht umsonst: Man muss das Netzwerk nach dem Black-Box-Prinzip optimieren. In diesem Fall bedeutet die „Black Box“, dass beim Training die interne Struktur des Netzwerks völlig ignoriert wird und nur das Gesamtergebnis (Belohnung für die Episode) verwendet wird und davon abhängt, ob die Gewichte eines bestimmten Netzwerks erhalten bleiben an nachfolgende Generationen vererbt werden. In Situationen, in denen wir nicht viel Feedback von der Umgebung erhalten – und bei vielen traditionellen RL-Problemen ist der Belohnungsfluss sehr spärlich – wandelt sich das Problem von einer „teilweise Black Box“ zu einer „völlig Black Box“. In diesem Fall können Sie die Produktivität deutlich steigern, daher ist ein solcher Kompromiss natürlich gerechtfertigt. „Wer braucht Steigungen, wenn sie schon hoffnungslos laut sind?“ - das ist die allgemeine Meinung.
In Situationen, in denen das Feedback jedoch aktiver ist, beginnen die Dinge für den ES schief zu gehen. Das OpenAI-Team beschreibt, wie ein einfaches MNIST-Klassifizierungsnetzwerk mit ES trainiert wurde, und dieses Mal war das Training 1000-mal langsamer. Tatsache ist, dass das Gradientensignal bei der Bildklassifizierung äußerst aufschlussreich darüber ist, wie dem Netzwerk eine bessere Klassifizierung beigebracht werden kann. Daher liegt das Problem weniger bei der RL-Technik als vielmehr bei spärlichen Belohnungen in Umgebungen, die laute Farbverläufe erzeugen.
Die Lösung der Natur
Wenn wir versuchen, vom Beispiel der Natur zu lernen und über Möglichkeiten zur Entwicklung von KI nachzudenken, dann kann man sich in manchen Fällen KI vorstellen
Nachdem wir das intellektuelle Verhalten von Säugetieren untersucht haben, sehen wir, dass es als Ergebnis der komplexen gegenseitigen Beeinflussung zweier eng miteinander verbundener Prozesse entsteht: aus den Erfahrungen anderer lernen и Lernen durch Tun. Ersteres wird oft mit einer durch natürliche Selektion vorangetriebenen Evolution gleichgesetzt, aber hier verwende ich einen breiteren Begriff, um Epigenetik, Mikrobiome und andere Mechanismen zu berücksichtigen, die den Erfahrungsaustausch zwischen genetisch nicht verwandten Organismen ermöglichen. Der zweite Prozess, das Lernen aus Erfahrung, umfasst alle Informationen, die ein Tier im Laufe seines Lebens lernen kann, und diese Informationen werden direkt durch die Interaktion dieses Tieres mit der Außenwelt bestimmt. Diese Kategorie umfasst alles vom Erlernen des Erkennens von Objekten bis hin zum Beherrschen der Kommunikation, die dem Lernprozess innewohnt.
Grob gesagt lassen sich diese beiden in der Natur vorkommenden Prozesse mit zwei Möglichkeiten zur Optimierung neuronaler Netze vergleichen. Evolutionäre Strategien, bei denen Informationen über Gradienten genutzt werden, um Informationen über den Organismus zu aktualisieren, kommen dem Lernen aus den Erfahrungen anderer nahe. Ebenso sind Gradientenmethoden, bei denen das Sammeln der einen oder anderen Erfahrung zu der einen oder anderen Verhaltensänderung des Agenten führt, mit dem Lernen aus der eigenen Erfahrung vergleichbar. Wenn wir über die Arten intelligenten Verhaltens oder Fähigkeiten nachdenken, die jeder dieser beiden Ansätze bei Tieren entwickelt, wird der Vergleich deutlicher. In beiden Fällen fördern „evolutionäre Methoden“ die Untersuchung reaktiver Verhaltensweisen, die es einem ermöglichen, eine bestimmte Fitness zu entwickeln (ausreichend, um am Leben zu bleiben). Das Erlernen des Laufens oder die Flucht aus der Gefangenschaft ist in vielen Fällen gleichbedeutend mit eher „instinktiven“ Verhaltensweisen, die bei vielen Tieren auf genetischer Ebene „fest verankert“ sind. Darüber hinaus bestätigt dieses Beispiel, dass evolutionäre Methoden in Fällen anwendbar sind, in denen das Belohnungssignal äußerst selten ist (z. B. die Tatsache, dass ein Baby erfolgreich großgezogen wurde). In einem solchen Fall ist es unmöglich, die Belohnung mit einer bestimmten Reihe von Aktionen in Zusammenhang zu bringen, die möglicherweise viele Jahre vor dem Eintreten dieser Tatsache durchgeführt wurden. Betrachten wir andererseits einen Fall, in dem ES versagt, nämlich die Bildklassifizierung, sind die Ergebnisse bemerkenswert vergleichbar mit den Ergebnissen des Tierlernens, das in unzähligen verhaltenspsychologischen Experimenten über einen Zeitraum von über 100 Jahren erzielt wurde.
Von Tieren lernen
Die beim Reinforcement Learning eingesetzten Methoden sind in vielen Fällen direkt aus der psychologischen Fachliteratur übernommen
Die zentrale Rolle der Vorhersage beim Lernen aus Erfahrung verändert die oben beschriebene Dynamik erheblich. Das Signal, das zuvor als sehr spärlich galt (episodische Belohnung), erweist sich als sehr dicht. Theoretisch sieht die Situation ungefähr so aus: Das Gehirn des Säugetiers berechnet zu jedem Zeitpunkt Ergebnisse auf der Grundlage eines komplexen Stroms sensorischer Reize und Aktionen, während das Tier einfach in diesen Strom eintaucht. In diesem Fall gibt das endgültige Verhalten des Tieres ein starkes Signal, das zur Steuerung der Prognoseanpassung und Verhaltensentwicklung genutzt werden muss. Das Gehirn nutzt all diese Signale, um Prognosen (und damit die Qualität der ergriffenen Maßnahmen) für die Zukunft zu optimieren. Einen Überblick über diesen Ansatz gibt das ausgezeichnete Buch „
Umfangreicheres Training neuronaler Netze
Aufbauend auf den Prinzipien höherer neuronaler Aktivität, die dem Gehirn von Säugetieren innewohnen, das ständig damit beschäftigt ist, Vorhersagen zu treffen, wurden in jüngster Zeit Fortschritte beim Reinforcement Learning gemacht, das nun die Bedeutung solcher Vorhersagen berücksichtigt. Ich kann Ihnen sofort zwei ähnliche Werke empfehlen:
In beiden Artikeln ergänzen die Autoren die typische Standardpolitik ihrer neuronalen Netze durch Vorhersageergebnisse über den Zustand der Umwelt in der Zukunft. Im ersten Artikel wird die Vorhersage auf eine Vielzahl von Messvariablen angewendet, und im zweiten Artikel wird die Vorhersage auf Änderungen in der Umgebung und auf das Verhalten des Agenten als solche angewendet. In beiden Fällen wird das mit positiver Verstärkung verbundene spärliche Signal viel reichhaltiger und informativer, was sowohl ein schnelleres Lernen als auch die Aneignung komplexerer Verhaltensweisen ermöglicht. Solche Verbesserungen sind nur bei Methoden möglich, die ein Gradientensignal verwenden, nicht aber bei Methoden, die nach einem „Black-Box“-Prinzip wie ES arbeiten.
Zudem sind Erfahrungslernen und Gradientenmethoden deutlich effektiver. Selbst in Fällen, in denen es möglich war, ein bestimmtes Problem mit der ES-Methode schneller zu untersuchen als mit Reinforcement Learning, wurde der Gewinn dadurch erzielt, dass die ES-Strategie um ein Vielfaches mehr Daten umfasste als mit RL. Wenn wir in diesem Fall über die Prinzipien des Lernens bei Tieren nachdenken, stellen wir fest, dass sich das Ergebnis des Lernens aus dem Beispiel eines anderen nach vielen Generationen manifestiert, während manchmal ein einziges Ereignis, das es selbst erlebt, ausreicht, damit das Tier die Lektion für immer lernt. Während wie
Warum also nicht beides kombinieren?
Es ist wahrscheinlich, dass ein Großteil dieses Artikels den Eindruck erweckt, dass ich RL-Methoden befürworte. Allerdings glaube ich tatsächlich, dass auf lange Sicht die beste Lösung darin besteht, beide Methoden zu kombinieren, sodass jede in den Situationen zum Einsatz kommt, in denen sie am besten geeignet ist. Offensichtlich gewinnt der ES bei vielen reaktiven Richtlinien oder in Situationen mit sehr spärlichen Signalen positiver Verstärkung, insbesondere wenn Sie über die Rechenleistung verfügen, mit der Sie massiv paralleles Training durchführen können. Andererseits sind Gradientenmethoden, die Reinforcement Learning oder Supervised Learning nutzen, nützlich, wenn wir Zugriff auf umfangreiches Feedback haben und lernen müssen, wie wir ein Problem schnell und mit weniger Daten lösen können.
Wenn wir uns der Natur zuwenden, stellen wir fest, dass die erste Methode im Wesentlichen den Grundstein für die zweite legt. Deshalb haben Säugetiere im Laufe der Evolution Gehirne entwickelt, die es ihnen ermöglichen, äußerst effektiv aus komplexen Signalen ihrer Umwelt zu lernen. Die Frage bleibt also offen. Vielleicht helfen uns evolutionäre Strategien dabei, effektive Lernarchitekturen zu entwickeln, die auch für Gradientenlernmethoden nützlich sind. Schließlich ist die von der Natur gefundene Lösung tatsächlich sehr erfolgreich.
Source: habr.com