Uczenie się przez wzmacnianie czy strategie ewolucyjne? - Obydwa

Hej Habra!

Nieczęsto decydujemy się na zamieszczanie tutaj tłumaczeń tekstów sprzed dwóch lat, bez kodu i wyraźnie akademickiego charakteru – ale dzisiaj zrobimy wyjątek. Mamy nadzieję, że dylemat postawiony w tytule artykułu niepokoi wielu naszych czytelników, a podstawową pracę na temat strategii ewolucyjnych przeczytałeś już w oryginale lub przeczytasz ją teraz. Witamy w kocie!

Uczenie się przez wzmacnianie czy strategie ewolucyjne? - Obydwa

W marcu 2017 r. OpenAI wywołało falę w społeczności zajmującej się głębokim uczeniem się publikacją „Strategie ewolucji jako skalowalna alternatywa dla uczenia się przez wzmacnianie.” W pracy tej opisano imponujące wyniki na korzyść tego, że uczenie się przez wzmacnianie (RL) nie stało się klinem, a przy szkoleniu złożonych sieci neuronowych wskazane jest wypróbowanie innych metod. Następnie wybuchła debata na temat znaczenia uczenia się przez wzmacnianie i tego, czy zasługuje na status technologii „niezbędnej” w nauczaniu rozwiązywania problemów. W tym miejscu chcę powiedzieć, że tych dwóch technologii nie należy uważać za konkurencyjne, z których jedna jest wyraźnie lepsza od drugiej; wręcz przeciwnie, ostatecznie się uzupełniają. Rzeczywiście, jeśli pomyślisz trochę o tym, czego potrzeba do stworzenia ogólna sztuczna inteligencja i takie systemy, które przez cały okres swojego istnienia byłyby w stanie uczyć się, oceniać i planować, to prawie na pewno dojdziemy do wniosku, że potrzebne będzie to lub inne połączone rozwiązanie. Nawiasem mówiąc, właśnie do tego połączonego rozwiązania przyszła natura, która w trakcie ewolucji obdarzyła ssaki i inne wyższe zwierzęta złożoną inteligencją.

Strategie ewolucyjne

Główną tezą artykułu OpenAI było to, że zamiast korzystać z uczenia się przez wzmacnianie w połączeniu z tradycyjną propagacją wsteczną, skutecznie wyszkolono sieć neuronową do rozwiązywania złożonych problemów, stosując tak zwaną „strategię ewolucyjną” (ES). To podejście ES polega na utrzymywaniu ogólnosieciowego rozkładu wag, angażującego wielu agentów pracujących równolegle i korzystających z parametrów wybranych z tego rozkładu. Każdy agent działa we własnym środowisku i po ukończeniu określonej liczby odcinków lub etapów odcinka algorytm zwraca skumulowaną nagrodę wyrażoną jako wynik sprawności. Biorąc pod uwagę tę wartość, rozkład parametrów można przesunąć w stronę agentów skuteczniejszych, pozbawiając agentów mniej skutecznych. Powtarzając taką operację miliony razy z udziałem setek agentów, możliwe jest przeniesienie rozkładu wag do przestrzeni, która pozwoli agentom sformułować wysokiej jakości politykę rozwiązania powierzonego im zadania. Rzeczywiście wyniki zaprezentowane w artykule robią wrażenie: wykazano, że jeśli uruchomi się równolegle tysiąc agentów, to poruszania się antropomorficznego na dwóch nogach można nauczyć się w niecałe pół godziny (podczas gdy nawet najbardziej zaawansowane metody RL wymagają nakładów większych niż godzinę). Aby uzyskać bardziej szczegółowe informacje, polecam przeczytać doskonałą pisać od autorów eksperymentu, a także artykuł naukowy.

Uczenie się przez wzmacnianie czy strategie ewolucyjne? - Obydwa

Różne strategie nauczania antropomorficznego chodzenia w pozycji pionowej badane przy użyciu metody ES z OpenAI.

Czarna skrzynka

Wielką zaletą tej metody jest to, że można ją łatwo zrównoleglić. Podczas gdy metody RL, takie jak A3C, wymagają wymiany informacji pomiędzy wątkami roboczymi a serwerem parametrów, ES potrzebuje jedynie szacunków sprawności i uogólnionych informacji o rozkładzie parametrów. To właśnie dzięki tej prostocie metoda ta znacznie wyprzedza współczesne metody RL pod względem możliwości skalowania. Jednak to wszystko nie idzie na marne: trzeba zoptymalizować sieć zgodnie z zasadą czarnej skrzynki. W tym przypadku „czarna skrzynka” oznacza, że ​​podczas uczenia wewnętrzna struktura sieci jest całkowicie ignorowana, a brany jest pod uwagę jedynie wynik ogólny (nagroda za odcinek) i od tego zależy, czy wagi danej sieci będą być dziedziczone przez następne pokolenia. W sytuacjach, w których nie otrzymujemy zbyt wiele informacji zwrotnych od otoczenia – a w przypadku wielu tradycyjnych problemów RL przepływ nagród jest bardzo skąpy – problem zmienia się z „częściowo czarnej skrzynki” na „całkowicie czarną skrzynkę”. W takim przypadku można znacznie zwiększyć produktywność, więc oczywiście taki kompromis jest uzasadniony. „Po co nam gradienty, skoro i tak są beznadziejnie hałaśliwe?” – taka jest ogólna opinia.

Jednakże w sytuacjach, w których informacja zwrotna jest bardziej aktywna, sprawy dla ES zaczynają się układać nie tak. Zespół OpenAI opisuje, jak prosta sieć klasyfikacyjna MNIST została przeszkolona przy użyciu ES i tym razem szkolenie było 1000 razy wolniejsze. Faktem jest, że sygnał gradientu w klasyfikacji obrazu jest niezwykle pouczający, jeśli chodzi o nauczenie sieci lepszej klasyfikacji. Zatem problem jest mniejszy w przypadku techniki RL, a większy w przypadku rzadkich nagród w środowiskach wytwarzających hałaśliwe gradienty.

Rozwiązanie natury

Jeśli spróbujemy uczyć się na przykładzie natury, zastanawiając się nad sposobami rozwoju AI, to w niektórych przypadkach AI można uznać za podejście zorientowane na problem. W końcu natura działa w ramach ograniczeń, których informatycy po prostu nie mają. Istnieje opinia, że ​​czysto teoretyczne podejście do rozwiązania konkretnego problemu może zapewnić skuteczniejsze rozwiązania niż empiryczne alternatywy. Jednak nadal uważam, że warto byłoby przetestować, w jaki sposób dynamiczny system działający pod pewnymi ograniczeniami (Ziemia) wygenerował czynniki (zwierzęta, zwłaszcza ssaki) zdolne do elastycznego i złożonego zachowania. Chociaż niektóre z tych ograniczeń nie mają zastosowania w symulowanych światach nauki o danych, inne są w porządku.

Po zbadaniu zachowań intelektualnych ssaków widzimy, że powstają one w wyniku złożonego wzajemnego oddziaływania dwóch ściśle ze sobą powiązanych procesów: uczenie się na doświadczeniach innych и nauka przez praktykę. To pierwsze często utożsamiane jest z ewolucją napędzaną doborem naturalnym, ale tutaj używam szerszego terminu, aby uwzględnić epigenetykę, mikrobiomy i inne mechanizmy umożliwiające dzielenie się doświadczeniami pomiędzy organizmami niespokrewnionymi genetycznie. Drugi proces, uczenie się z doświadczenia, to wszystkie informacje, które zwierzę udaje się zdobyć przez całe życie, a informacje te są bezpośrednio zdeterminowane interakcją tego zwierzęcia ze światem zewnętrznym. Ta kategoria obejmuje wszystko, od nauki rozpoznawania obiektów po opanowanie komunikacji nieodłącznie związanej z procesem uczenia się.

Z grubsza rzecz biorąc, te dwa procesy zachodzące w przyrodzie można porównać z dwiema możliwościami optymalizacji sieci neuronowych. Strategie ewolucyjne, w których informacja o gradientach wykorzystywana jest do aktualizacji informacji o organizmie, zbliżają się do uczenia się na doświadczeniach innych. Podobnie metody gradientowe, w których zdobycie tego czy innego doświadczenia prowadzi do takiej czy innej zmiany w zachowaniu agenta, są porównywalne z uczeniem się na własnym doświadczeniu. Jeśli pomyślimy o typach inteligentnego zachowania lub zdolności, które każde z tych dwóch podejść rozwija u zwierząt, porównanie staje się bardziej wyraźne. W obu przypadkach „metody ewolucyjne” promują badanie zachowań reaktywnych, które pozwalają wykształcić pewną sprawność (wystarczającą do przeżycia). Nauka chodzenia lub ucieczki z niewoli jest w wielu przypadkach równoznaczna z bardziej „instynktownymi” zachowaniami, które u wielu zwierząt są „zakorzenione” na poziomie genetycznym. Ponadto przykład ten potwierdza, że ​​metody ewolucyjne mają zastosowanie w przypadkach, gdy sygnał nagrody jest niezwykle rzadki (na przykład fakt pomyślnego wychowania dziecka). W takim przypadku nie da się powiązać nagrody z żadnym konkretnym zestawem działań, które mogły zostać wykonane na wiele lat przed wystąpieniem tego faktu. Z drugiej strony, jeśli weźmiemy pod uwagę przypadek, w którym ES zawodzi, a mianowicie klasyfikację obrazu, wyniki są zadziwiająco porównywalne z wynikami uczenia się zwierząt uzyskanymi w niezliczonych eksperymentach psychologii behawioralnej prowadzonych przez ponad 100 lat.

Uczenie się od zwierząt

Metody stosowane w uczeniu się przez wzmacnianie w wielu przypadkach czerpią bezpośrednio z literatury psychologicznej nt warunkowanie instrumentalne, a warunkowanie instrumentalne badano za pomocą psychologii zwierząt. Nawiasem mówiąc, Richard Sutton, jeden z dwóch twórców uczenia się przez wzmacnianie, ma tytuł licencjata z psychologii. W kontekście warunkowania instrumentalnego zwierzęta uczą się kojarzyć nagrodę lub karę z określonymi wzorcami zachowania. Trenerzy i badacze mogą w taki czy inny sposób manipulować tym powiązaniem nagrody, prowokując zwierzęta do wykazania się inteligencją lub określonymi zachowaniami. Jednakże warunkowanie instrumentalne, stosowane w badaniach na zwierzętach, nie jest niczym innym jak bardziej wyraźną formą tego samego warunkowania, na podstawie którego zwierzęta uczą się przez całe życie. Stale otrzymujemy sygnały pozytywnego wzmocnienia z otoczenia i odpowiednio dostosowujemy nasze zachowanie. W rzeczywistości wielu neuronaukowców i kognitywistów wierzy, że ludzie i inne zwierzęta w rzeczywistości działają na jeszcze wyższym poziomie i nieustannie uczą się przewidywać skutki swojego zachowania w przyszłych sytuacjach w oparciu o potencjalne nagrody.

Centralna rola przewidywania w uczeniu się z doświadczenia w znaczący sposób zmienia opisaną powyżej dynamikę. Sygnał, który wcześniej był uważany za bardzo rzadki (nagroda epizodyczna), okazuje się bardzo gęsty. Teoretycznie sytuacja wygląda mniej więcej tak: w dowolnym momencie mózg ssaka oblicza wyniki na podstawie złożonego strumienia bodźców i działań zmysłowych, podczas gdy zwierzę jest po prostu zanurzone w tym strumieniu. W tym przypadku ostateczne zachowanie zwierzęcia daje silny sygnał, który należy wykorzystać, aby skorygować prognozy i opracować zachowanie. Mózg wykorzystuje wszystkie te sygnały, aby zoptymalizować prognozy (a co za tym idzie jakość podejmowanych działań) w przyszłości. Przegląd tego podejścia znajduje się w doskonałej książce „Niepewność surfowania” kognitywista i filozof Andy Clark. Jeśli ekstrapolujemy takie rozumowanie na szkolenie sztucznych agentów, ujawnimy fundamentalną wadę uczenia się przez wzmacnianie: sygnał używany w tym paradygmacie jest beznadziejnie słaby w porównaniu z tym, czym mógłby (lub powinien być). W przypadkach, gdy nie jest możliwe zwiększenie nasycenia sygnału (być może dlatego, że jest ono z natury słabe lub wiąże się z reaktywnością na niskim poziomie), prawdopodobnie lepiej jest preferować metodę uczenia, która jest dobrze zrównoleglona, ​​na przykład ES.

Bogatsze uczenie sieci neuronowych

Opierając się na zasadach wyższej aktywności neuronowej właściwej mózgowi ssaków, który jest stale zajęty przewidywaniem, poczyniono ostatnio postępy w uczeniu się przez wzmacnianie, które obecnie uwzględnia znaczenie takich przewidywań. Od razu mogę polecić Ci dwie podobne prace:

W obu artykułach autorzy uzupełniają typową domyślną politykę swoich sieci neuronowych o wyniki prognoz dotyczące stanu środowiska w przyszłości. W pierwszym artykule prognozowanie stosuje się do różnych zmiennych pomiarowych, a w drugim prognozowanie stosuje się do zmian w otoczeniu i zachowaniu agenta jako takiego. W obu przypadkach rzadki sygnał związany ze wzmocnieniem pozytywnym staje się znacznie bogatszy i bardziej informacyjny, umożliwiając zarówno szybsze uczenie się, jak i nabywanie bardziej złożonych zachowań. Takie ulepszenia są dostępne tylko w przypadku metod wykorzystujących sygnał gradientowy, a nie w przypadku metod działających na zasadzie „czarnej skrzynki”, takich jak ES.

Poza tym znacznie efektywniejsze jest uczenie się na podstawie doświadczenia i metody gradientowe. Nawet w przypadkach, w których możliwe było zbadanie konkretnego problemu metodą ES szybciej niż przy użyciu uczenia się przez wzmacnianie, zysk został osiągnięty dzięki temu, że strategia ES angażowała wielokrotnie więcej danych niż w przypadku RL. Zastanawiając się w tym przypadku nad zasadami uczenia się u zwierząt, zauważamy, że rezultat uczenia się na cudzym przykładzie objawia się po wielu pokoleniach, a czasem wystarczy jedno przeżyte przez siebie wydarzenie, aby zwierzę nauczyło się tej lekcji na zawsze. Choć jak szkolenie bez przykładów Choć nie do końca pasuje do tradycyjnych metod gradientowych, jest znacznie bardziej zrozumiały niż ES. Istnieją na przykład takie podejścia, jak Neuronalna kontrola epizodyczna, gdzie podczas treningu zapisywane są wartości Q, po czym program sprawdza je przed podjęciem działań. Rezultatem jest metoda gradientowa, która pozwala nauczyć się rozwiązywania problemów znacznie szybciej niż dotychczas. W artykule na temat neuronalnej kontroli epizodycznej autorzy wspominają o ludzkim hipokampie, który jest w stanie zapamiętać informację o zdarzeniu nawet po jednorazowym doświadczeniu i dlatego pełni funkcję krytyczna rola w procesie zapamiętywania. Mechanizmy takie wymagają dostępu do wewnętrznej organizacji agenta, co również z definicji jest niemożliwe w paradygmacie ES.

Dlaczego więc ich nie połączyć?

Jest prawdopodobne, że znaczna część tego artykułu może wywołać wrażenie, że jestem zwolennikiem metod RL. Tak naprawdę jednak uważam, że na dłuższą metę najlepszym rozwiązaniem będzie połączenie obu metod, tak aby każdą zastosować w sytuacjach, w których jest ona najbardziej odpowiednia. Oczywiście w przypadku wielu polityk reaktywnych lub w sytuacjach, w których sygnały pozytywnego wzmocnienia są bardzo rzadkie, ES wygrywa, szczególnie jeśli dysponujesz mocą obliczeniową, na której możesz prowadzić masowo równoległe szkolenia. Z drugiej strony metody gradientowe wykorzystujące uczenie się przez wzmacnianie lub uczenie się nadzorowane przydadzą się, gdy mamy dostęp do obszernej informacji zwrotnej i musimy nauczyć się, jak szybko i przy mniejszej ilości danych rozwiązać problem.

Wracając do natury, okazuje się, że pierwsza metoda w istocie kładzie podwaliny pod drugą. Właśnie dlatego w toku ewolucji ssaki rozwinęły mózgi, które pozwalają im niezwykle efektywnie uczyć się na podstawie złożonych sygnałów pochodzących z otoczenia. Zatem pytanie pozostaje otwarte. Być może strategie ewolucyjne pomogą nam wynaleźć skuteczne architektury uczenia się, które będą przydatne również w metodach uczenia się gradientowego. W końcu rozwiązanie znalezione przez naturę jest rzeczywiście bardzo udane.

Źródło: www.habr.com

Dodaj komentarz