🥇Posílení učení nebo evoluční strategie? — Obojí

Čau Habr!

Nerozhodujeme se zde často zveřejňovat překlady textů, které byly dva roky staré, bez kódu a jasně akademické povahy – ale dnes uděláme výjimku. Doufáme, že dilema nastolené v nadpisu článku trápí mnoho našich čtenářů a zásadní práci o evolučních strategiích, se kterou tento příspěvek polemizuje v originále nebo si jej přečtete nyní, jste již přečetli. Vítejte u kočky!

V březnu 2017 OpenAI vyvolalo vlny v komunitě hlubokého učení s dokumentem „Evoluční strategie jako škálovatelná alternativa k posilování učení" Tato práce popsala působivé výsledky ve prospěch toho, že se posilovací učení (RL) nestalo klínem a při trénování složitých neuronových sítí je vhodné zkoušet i jiné metody. Poté se rozhořela debata o důležitosti posilujícího učení a o tom, jak si zaslouží jeho postavení jako „nezbytné“ technologie pro výuku řešení problémů. Zde chci říci, že tyto dvě technologie by neměly být považovány za konkurenční, z nichž jedna je jednoznačně lepší než druhá; naopak se nakonec doplňují. Opravdu, pokud se trochu zamyslíte nad tím, co je potřeba k vytvoření obecná AI a takové systémy, které by po celou dobu své existence byly schopny se učit, posuzovat a plánovat, pak téměř jistě dojdeme k závěru, že bude zapotřebí to či ono kombinované řešení. Mimochodem, právě k tomuto kombinovanému řešení dospěla příroda, která v průběhu evoluce obdařila savce a další vyšší živočichy komplexní inteligencí.

Evoluční strategie

Hlavní tezí článku OpenAI bylo, že namísto použití zesíleného učení kombinovaného s tradičním backpropagation úspěšně trénovali neuronovou síť k řešení složitých problémů pomocí toho, co nazývali „evoluční strategií“ (ES). Tento přístup ES spočívá v udržování celosíťového rozložení vah, zahrnujících více agentů pracujících paralelně a využívajících parametry vybrané z tohoto rozložení. Každý agent pracuje ve svém vlastním prostředí a po dokončení určitého počtu epizod nebo fází epizody algoritmus vrátí kumulativní odměnu vyjádřenou jako skóre zdatnosti. Vezmeme-li tuto hodnotu v úvahu, distribuci parametrů lze posunout směrem k úspěšnějším agentům a připravit tak ty méně úspěšné. Milionkrát opakováním takové operace za účasti stovek agentů je možné přesunout rozložení vah do prostoru, který agentům umožní formulovat kvalitní politiku řešení zadaného úkolu. Výsledky prezentované v článku jsou skutečně působivé: je ukázáno, že pokud provozujete paralelně tisíc agentů, lze se antropomorfní lokomoci na dvou nohách naučit za méně než půl hodiny (zatímco i ty nejpokročilejší metody RL vyžadují více výdajů než jednu hodinu). Pro podrobnější informace doporučuji přečíst výbornou zveřejnit od autorů experimentu, stejně jako vědecký článek.

Různé strategie pro výuku antropomorfní vzpřímené chůze, studované pomocí metody ES od OpenAI.

Černá skříňka

Velkou výhodou této metody je, že ji lze snadno paralelizovat. Zatímco metody RL, jako je A3C, vyžadují výměnu informací mezi pracovními vlákny a parametrickým serverem, ES potřebuje pouze odhady zdatnosti a zobecněné informace o distribuci parametrů. Právě díky této jednoduchosti je tato metoda daleko před moderními RL metodami, pokud jde o možnosti škálování. To vše však nepřijde nadarmo: musíte síť optimalizovat podle principu černé skříňky. V tomto případě „černá skříňka“ znamená, že se při trénování zcela ignoruje vnitřní struktura sítě a použije se pouze celkový výsledek (odměna za epizodu) a záleží na něm, zda váhy konkrétní sítě budou budou zděděny následujícími generacemi. V situacích, kdy nedostáváme příliš zpětné vazby od okolí – a v mnoha tradičních problémech RL je tok odměn velmi řídký – problém přechází z „částečně černé skříňky“ na „zcela černou skříňku“. V tomto případě můžete výrazně zvýšit produktivitu, takže takový kompromis je samozřejmě oprávněný. "Kdo potřebuje přechody, když jsou stejně beznadějně hlučné?" - to je obecný názor.

Avšak v situacích, kdy je zpětná vazba aktivnější, se věci začnou pro ES pokazit. Tým OpenAI popisuje, jak byla jednoduchá klasifikační síť MNIST trénována pomocí ES a tentokrát bylo trénování 1000krát pomalejší. Faktem je, že gradientový signál v klasifikaci obrazu je extrémně informativní ohledně toho, jak naučit síť lepší klasifikaci. Problém je tedy menší s technikou RL a spíše s řídkými odměnami v prostředích, která produkují hlučné přechody.

Řešení přírody

Pokud se pokusíme poučit z příkladu přírody a přemýšlet o způsobech rozvoje umělé inteligence, pak v některých případech lze umělou inteligenci považovat za problémově orientovaný přístup. Příroda totiž funguje v rámci omezení, která počítačoví vědci prostě nemají. Existuje názor, že čistě teoretický přístup k řešení konkrétního problému může poskytnout efektivnější řešení než empirické alternativy. Přesto si myslím, že by stálo za to otestovat, jak dynamický systém fungující za určitých omezení (Země) vygeneroval agenty (zvířata, zejména savce) schopné flexibilního a komplexního chování. Zatímco některá z těchto omezení neplatí ve světech simulovaných datových věd, jiná jsou v pořádku.

Po prozkoumání intelektuálního chování savců vidíme, že se formuje jako výsledek komplexního vzájemného ovlivňování dvou úzce souvisejících procesů: učit se ze zkušeností ostatních и učení se děláním. První z nich je často ztotožňován s evolucí řízenou přírodním výběrem, ale zde používám širší termín, abych vzal v úvahu epigenetiku, mikrobiomy a další mechanismy, které umožňují sdílení zkušeností mezi geneticky nepříbuznými organismy. Druhým procesem, učením ze zkušenosti, jsou veškeré informace, které se zvíře stihne naučit za svůj život, a tyto informace jsou přímo určovány interakcí tohoto zvířete s vnějším světem. Tato kategorie zahrnuje vše od učení se rozpoznávat předměty až po zvládnutí komunikace, která je součástí procesu učení.

Zhruba řečeno, tyto dva procesy probíhající v přírodě lze porovnat se dvěma možnostmi optimalizace neuronových sítí. Evoluční strategie, kde se informace o gradientech používají k aktualizaci informací o organismu, se blíží učení ze zkušeností ostatních. Podobně gradientní metody, kdy získání té či oné zkušenosti vede k té či oné změně v chování agenta, jsou srovnatelné s učením se z vlastní zkušenosti. Pokud se zamyslíme nad typy inteligentního chování nebo schopností, které každý z těchto dvou přístupů rozvíjí u zvířat, srovnání se stává výraznějším. V obou případech „evoluční metody“ podporují studium reaktivního chování, které člověku umožňuje vyvinout si určitou zdatnost (dostačující k tomu, aby zůstal naživu). Naučit se chodit nebo uniknout ze zajetí je v mnoha případech ekvivalentní „instinktivnějšímu“ chování, které je u mnoha zvířat „pevně zabudováno“ na genetické úrovni. Tento příklad navíc potvrzuje, že evoluční metody jsou použitelné v případech, kdy je signál odměny extrémně vzácný (například skutečnost úspěšného vychování dítěte). V takovém případě není možné korelovat odměnu s nějakým konkrétním souborem úkonů, které mohly být provedeny mnoho let před vznikem této skutečnosti. Na druhou stranu, vezmeme-li v úvahu případ, kdy ES selhává, konkrétně klasifikaci obrázků, jsou výsledky pozoruhodně srovnatelné s výsledky učení zvířat dosaženými v bezpočtu behaviorálně psychologických experimentů prováděných více než 100 let.

Učení se od zvířat

Metody používané v posilovacím učení jsou v mnoha případech převzaty přímo z psychologické literatury o operativní podmiňovánía operantní podmiňování bylo studováno pomocí zvířecí psychologie. Mimochodem, Richard Sutton, jeden ze dvou zakladatelů posilovacího učení, má bakalářský titul z psychologie. V kontextu operantního podmiňování se zvířata učí spojovat odměnu nebo trest se specifickými vzory chování. Trenéři a výzkumníci mohou tuto asociaci odměn tak či onak manipulovat a provokovat zvířata, aby prokázala inteligenci nebo určité chování. Operační podmiňování, jak se používá ve výzkumu na zvířatech, však není nic jiného než výraznější forma stejného podmiňování, na jehož základě se zvířata učí po celý život. Neustále dostáváme signály pozitivního posilování z okolí a přizpůsobujeme tomu své chování. Ve skutečnosti mnoho neurovědců a kognitivních vědců věří, že lidé a jiná zvířata skutečně fungují na ještě vyšší úrovni a neustále se učí předvídat výsledek svého chování v budoucích situacích na základě potenciálních odměn.

Ústřední role predikce při učení se ze zkušenosti významným způsobem mění dynamiku popsanou výše. Signál, který byl dříve považován za velmi řídký (epizodická odměna), se ukazuje jako velmi hustý. Teoreticky je situace asi takováto: v každém okamžiku savcův mozek vypočítává výsledky na základě komplexního proudu smyslových podnětů a akcí, zatímco zvíře je do tohoto proudu jednoduše ponořeno. V tomto případě dává konečné chování zvířete silný signál, který je nutné použít k usměrnění úpravy předpovědí a vývoje chování. Mozek používá všechny tyto signály k optimalizaci předpovědí (a tím i kvality přijatých akcí) v budoucnosti. Přehled tohoto přístupu je uveden ve vynikající knize „Nejistota při surfování“ kognitivní vědec a filozof Andy Clark. Pokud extrapolujeme takové uvažování na trénování umělých agentů, pak je odhalena zásadní chyba v posilovacím učení: signál použitý v tomto paradigmatu je beznadějně slabý ve srovnání s tím, co by mohl být (nebo by měl být). V případech, kdy není možné zvýšit saturaci signálu (možná proto, že je ze své podstaty slabý nebo spojený s nízkou reaktivitou), je pravděpodobně lepší dát přednost tréninkové metodě, která je dobře paralelizovaná, například ES.

Bohatší trénink neuronových sítí

Na základě principů vyšší nervové aktivity vlastní savčímu mozku, který je neustále zaneprázdněn vytvářením předpovědí, byl nedávno učiněn pokrok v posilování učení, které nyní bere v úvahu důležitost takových předpovědí. Mohu vám rovnou doporučit dvě podobná díla:

V obou těchto článcích autoři doplňují typickou výchozí politiku svých neuronových sítí o výsledky predikce o stavu životního prostředí v budoucnosti. V prvním článku je prognózování aplikováno na různé proměnné měření a ve druhém je prognózování aplikováno na změny prostředí a chování agenta jako takového. V obou případech se řídký signál spojený s pozitivním posilováním stává mnohem bohatším a informativnějším, což umožňuje jak rychlejší učení, tak osvojení složitějšího chování. Taková vylepšení jsou dostupná pouze u metod, které používají gradientní signál, a ne u metod, které fungují na principu „černé skříňky“, jako je ES.

Učení ze zkušenosti a gradientní metody jsou navíc mnohem efektivnější. I v případech, kdy bylo možné prostudovat konkrétní problém pomocí metody ES rychleji než pomocí posilovacího učení, bylo zisku dosaženo díky skutečnosti, že strategie ES zahrnovala mnohonásobně více dat než u RL. Když se v tomto případě zamyslíme nad principy učení u zvířat, poznamenáváme, že výsledek učení se z cizího příkladu se projevuje po mnoha generacích, přičemž někdy stačí jediná událost sama prožitá, aby se zvíře navždy naučilo lekci. Zatímco jako školení bez příkladů I když to úplně nezapadá do tradičních gradientních metod, je mnohem srozumitelnější než ES. Existují například přístupy jako např neurální epizodická kontrola, kde jsou Q-hodnoty uloženy během tréninkového procesu, po kterém je program před provedením akcí zkontroluje. Výsledkem je gradientní metoda, která vám umožní naučit se řešit problémy mnohem rychleji než dříve. V článku o nervovém epizodickém řízení autoři zmiňují lidský hippocampus, který je schopen uchovat si informace o události i po jediném zážitku, a proto hraje kritická role v procesu vzpomínání. Takové mechanismy vyžadují přístup k vnitřní organizaci agenta, což je také z definice v paradigmatu ES nemožné.

Proč je tedy nezkombinovat?

Je pravděpodobné, že velká část tohoto článku může zanechat dojem, že obhajuji RL metody. Ve skutečnosti si však myslím, že z dlouhodobého hlediska je nejlepším řešením obě metody zkombinovat tak, aby se každá používala v situacích, ve kterých se nejlépe hodí. Je zřejmé, že v případě mnoha reaktivních politik nebo v situacích s velmi řídkými signály pozitivního posílení ES vítězí, zvláště pokud máte k dispozici výpočetní výkon, na kterém můžete provozovat masivně paralelní trénink. Na druhou stranu gradientní metody využívající zesílené učení nebo učení pod dohledem budou užitečné, když máme přístup k rozsáhlé zpětné vazbě a potřebujeme se naučit, jak vyřešit problém rychle as menším množstvím dat.

Když se podíváme na přírodu, zjistíme, že první metoda v podstatě pokládá základ pro druhou. To je důvod, proč si savci v průběhu evoluce vyvinuli mozek, který jim umožňuje extrémně efektivně se učit ze složitých signálů přicházejících z prostředí. Otázka tedy zůstává otevřená. Možná nám evoluční strategie pomohou vymyslet efektivní architekturu učení, která bude také užitečná pro metody gradientního učení. Koneckonců, řešení nalezené přírodou je skutečně velmi úspěšné.

Zdroj: www.habr.com

Posílení učení nebo evoluční strategie? - Oba