Čau Habr!
Nerozhodujeme se zde často zveřejňovat překlady textů, které byly dva roky staré, bez kódu a jasně akademické povahy – ale dnes uděláme výjimku. Doufáme, že dilema nastolené v nadpisu článku trápí mnoho našich čtenářů a zásadní práci o evolučních strategiích, se kterou tento příspěvek polemizuje v originále nebo si jej přečtete nyní, jste již přečetli. Vítejte u kočky!
V březnu 2017 OpenAI vyvolalo vlny v komunitě hlubokého učení s dokumentem „
Evoluční strategie
Hlavní tezí článku OpenAI bylo, že namísto použití zesíleného učení kombinovaného s tradičním backpropagation úspěšně trénovali neuronovou síť k řešení složitých problémů pomocí toho, co nazývali „evoluční strategií“ (ES). Tento přístup ES spočívá v udržování celosíťového rozložení vah, zahrnujících více agentů pracujících paralelně a využívajících parametry vybrané z tohoto rozložení. Každý agent pracuje ve svém vlastním prostředí a po dokončení určitého počtu epizod nebo fází epizody algoritmus vrátí kumulativní odměnu vyjádřenou jako skóre zdatnosti. Vezmeme-li tuto hodnotu v úvahu, distribuci parametrů lze posunout směrem k úspěšnějším agentům a připravit tak ty méně úspěšné. Milionkrát opakováním takové operace za účasti stovek agentů je možné přesunout rozložení vah do prostoru, který agentům umožní formulovat kvalitní politiku řešení zadaného úkolu. Výsledky prezentované v článku jsou skutečně působivé: je ukázáno, že pokud provozujete paralelně tisíc agentů, lze se antropomorfní lokomoci na dvou nohách naučit za méně než půl hodiny (zatímco i ty nejpokročilejší metody RL vyžadují více výdajů než jednu hodinu). Pro podrobnější informace doporučuji přečíst výbornou
Různé strategie pro výuku antropomorfní vzpřímené chůze, studované pomocí metody ES od OpenAI.
Černá skříňka
Velkou výhodou této metody je, že ji lze snadno paralelizovat. Zatímco metody RL, jako je A3C, vyžadují výměnu informací mezi pracovními vlákny a parametrickým serverem, ES potřebuje pouze odhady zdatnosti a zobecněné informace o distribuci parametrů. Právě díky této jednoduchosti je tato metoda daleko před moderními RL metodami, pokud jde o možnosti škálování. To vše však nepřijde nadarmo: musíte síť optimalizovat podle principu černé skříňky. V tomto případě „černá skříňka“ znamená, že se při trénování zcela ignoruje vnitřní struktura sítě a použije se pouze celkový výsledek (odměna za epizodu) a záleží na něm, zda váhy konkrétní sítě budou budou zděděny následujícími generacemi. V situacích, kdy nedostáváme příliš zpětné vazby od okolí – a v mnoha tradičních problémech RL je tok odměn velmi řídký – problém přechází z „částečně černé skříňky“ na „zcela černou skříňku“. V tomto případě můžete výrazně zvýšit produktivitu, takže takový kompromis je samozřejmě oprávněný. "Kdo potřebuje přechody, když jsou stejně beznadějně hlučné?" - to je obecný názor.
Avšak v situacích, kdy je zpětná vazba aktivnější, se věci začnou pro ES pokazit. Tým OpenAI popisuje, jak byla jednoduchá klasifikační síť MNIST trénována pomocí ES a tentokrát bylo trénování 1000krát pomalejší. Faktem je, že gradientový signál v klasifikaci obrazu je extrémně informativní ohledně toho, jak naučit síť lepší klasifikaci. Problém je tedy menší s technikou RL a spíše s řídkými odměnami v prostředích, která produkují hlučné přechody.
Řešení přírody
Pokud se pokusíme poučit z příkladu přírody a přemýšlet o způsobech rozvoje umělé inteligence, pak v některých případech lze umělou inteligenci považovat za
Po prozkoumání intelektuálního chování savců vidíme, že se formuje jako výsledek komplexního vzájemného ovlivňování dvou úzce souvisejících procesů: učit se ze zkušeností ostatních и učení se děláním. První z nich je často ztotožňován s evolucí řízenou přírodním výběrem, ale zde používám širší termín, abych vzal v úvahu epigenetiku, mikrobiomy a další mechanismy, které umožňují sdílení zkušeností mezi geneticky nepříbuznými organismy. Druhým procesem, učením ze zkušenosti, jsou veškeré informace, které se zvíře stihne naučit za svůj život, a tyto informace jsou přímo určovány interakcí tohoto zvířete s vnějším světem. Tato kategorie zahrnuje vše od učení se rozpoznávat předměty až po zvládnutí komunikace, která je součástí procesu učení.
Zhruba řečeno, tyto dva procesy probíhající v přírodě lze porovnat se dvěma možnostmi optimalizace neuronových sítí. Evoluční strategie, kde se informace o gradientech používají k aktualizaci informací o organismu, se blíží učení ze zkušeností ostatních. Podobně gradientní metody, kdy získání té či oné zkušenosti vede k té či oné změně v chování agenta, jsou srovnatelné s učením se z vlastní zkušenosti. Pokud se zamyslíme nad typy inteligentního chování nebo schopností, které každý z těchto dvou přístupů rozvíjí u zvířat, srovnání se stává výraznějším. V obou případech „evoluční metody“ podporují studium reaktivního chování, které člověku umožňuje vyvinout si určitou zdatnost (dostačující k tomu, aby zůstal naživu). Naučit se chodit nebo uniknout ze zajetí je v mnoha případech ekvivalentní „instinktivnějšímu“ chování, které je u mnoha zvířat „pevně zabudováno“ na genetické úrovni. Tento příklad navíc potvrzuje, že evoluční metody jsou použitelné v případech, kdy je signál odměny extrémně vzácný (například skutečnost úspěšného vychování dítěte). V takovém případě není možné korelovat odměnu s nějakým konkrétním souborem úkonů, které mohly být provedeny mnoho let před vznikem této skutečnosti. Na druhou stranu, vezmeme-li v úvahu případ, kdy ES selhává, konkrétně klasifikaci obrázků, jsou výsledky pozoruhodně srovnatelné s výsledky učení zvířat dosaženými v bezpočtu behaviorálně psychologických experimentů prováděných více než 100 let.
Učení se od zvířat
Metody používané v posilovacím učení jsou v mnoha případech převzaty přímo z psychologické literatury o
Ústřední role predikce při učení se ze zkušenosti významným způsobem mění dynamiku popsanou výše. Signál, který byl dříve považován za velmi řídký (epizodická odměna), se ukazuje jako velmi hustý. Teoreticky je situace asi takováto: v každém okamžiku savcův mozek vypočítává výsledky na základě komplexního proudu smyslových podnětů a akcí, zatímco zvíře je do tohoto proudu jednoduše ponořeno. V tomto případě dává konečné chování zvířete silný signál, který je nutné použít k usměrnění úpravy předpovědí a vývoje chování. Mozek používá všechny tyto signály k optimalizaci předpovědí (a tím i kvality přijatých akcí) v budoucnosti. Přehled tohoto přístupu je uveden ve vynikající knize „
Bohatší trénink neuronových sítí
Na základě principů vyšší nervové aktivity vlastní savčímu mozku, který je neustále zaneprázdněn vytvářením předpovědí, byl nedávno učiněn pokrok v posilování učení, které nyní bere v úvahu důležitost takových předpovědí. Mohu vám rovnou doporučit dvě podobná díla:
V obou těchto článcích autoři doplňují typickou výchozí politiku svých neuronových sítí o výsledky predikce o stavu životního prostředí v budoucnosti. V prvním článku je prognózování aplikováno na různé proměnné měření a ve druhém je prognózování aplikováno na změny prostředí a chování agenta jako takového. V obou případech se řídký signál spojený s pozitivním posilováním stává mnohem bohatším a informativnějším, což umožňuje jak rychlejší učení, tak osvojení složitějšího chování. Taková vylepšení jsou dostupná pouze u metod, které používají gradientní signál, a ne u metod, které fungují na principu „černé skříňky“, jako je ES.
Učení ze zkušenosti a gradientní metody jsou navíc mnohem efektivnější. I v případech, kdy bylo možné prostudovat konkrétní problém pomocí metody ES rychleji než pomocí posilovacího učení, bylo zisku dosaženo díky skutečnosti, že strategie ES zahrnovala mnohonásobně více dat než u RL. Když se v tomto případě zamyslíme nad principy učení u zvířat, poznamenáváme, že výsledek učení se z cizího příkladu se projevuje po mnoha generacích, přičemž někdy stačí jediná událost sama prožitá, aby se zvíře navždy naučilo lekci. Zatímco jako
Proč je tedy nezkombinovat?
Je pravděpodobné, že velká část tohoto článku může zanechat dojem, že obhajuji RL metody. Ve skutečnosti si však myslím, že z dlouhodobého hlediska je nejlepším řešením obě metody zkombinovat tak, aby se každá používala v situacích, ve kterých se nejlépe hodí. Je zřejmé, že v případě mnoha reaktivních politik nebo v situacích s velmi řídkými signály pozitivního posílení ES vítězí, zvláště pokud máte k dispozici výpočetní výkon, na kterém můžete provozovat masivně paralelní trénink. Na druhou stranu gradientní metody využívající zesílené učení nebo učení pod dohledem budou užitečné, když máme přístup k rozsáhlé zpětné vazbě a potřebujeme se naučit, jak vyřešit problém rychle as menším množstvím dat.
Když se podíváme na přírodu, zjistíme, že první metoda v podstatě pokládá základ pro druhou. To je důvod, proč si savci v průběhu evoluce vyvinuli mozek, který jim umožňuje extrémně efektivně se učit ze složitých signálů přicházejících z prostředí. Otázka tedy zůstává otevřená. Možná nám evoluční strategie pomohou vymyslet efektivní architekturu učení, která bude také užitečná pro metody gradientního učení. Koneckonců, řešení nalezené přírodou je skutečně velmi úspěšné.
Zdroj: www.habr.com