Posilniť učenie alebo evolučné stratégie? - Obaja

Čau Habr!

Nerozhodujeme sa tu často uverejňovať preklady textov, ktoré boli dva roky staré, bez kódu a jednoznačne akademického charakteru – dnes však urobíme výnimku. Dúfame, že dilema nastolená v nadpise článku znepokojuje mnohých našich čitateľov a zásadnú prácu o evolučných stratégiách, s ktorou tento príspevok polemizuje v origináli alebo si ho prečítate teraz, ste už prečítali. Vitajte v mačke!

Posilniť učenie alebo evolučné stratégie? - Obaja

V marci 2017 OpenAI vyvolalo vlny v komunite hlbokého učenia s dokumentom „Evolučné stratégie ako škálovateľná alternatíva k posilňovaciemu učeniu" Táto práca popísala pôsobivé výsledky v prospech skutočnosti, že učenie zosilnenia (RL) sa nestalo klinom a pri tréningu zložitých neurónových sietí je vhodné vyskúšať iné metódy. Potom sa rozprúdila diskusia o dôležitosti posilňovania učenia a o tom, ako si zaslúži svoje postavenie ako „nevyhnutnej“ technológie pri výučbe riešenia problémov. Tu chcem povedať, že tieto dve technológie by sa nemali považovať za konkurenčné, pričom jedna z nich je jednoznačne lepšia ako druhá; naopak, v konečnom dôsledku sa dopĺňajú. Skutočne, ak sa trochu zamyslíte nad tým, čo je potrebné na vytvorenie všeobecná AI a také systémy, ktoré by boli počas celej svojej existencie schopné učenia sa, úsudku a plánovania, potom takmer určite dospejeme k záveru, že bude potrebné to či ono kombinované riešenie. Mimochodom, práve k tomuto kombinovanému riešeniu dospela príroda, ktorá v priebehu evolúcie obdarila cicavce a iné vyššie živočíchy komplexnou inteligenciou.

Evolučné stratégie

Hlavnou tézou dokumentu OpenAI bolo, že namiesto používania posilňovacieho učenia v kombinácii s tradičnou spätnou propagáciou úspešne trénovali neurónovú sieť na riešenie zložitých problémov pomocou toho, čo nazývali „evolučná stratégia“ (ES). Tento prístup ES spočíva v udržiavaní celosieťovej distribúcie váh, zahŕňajúcej viacero agentov pracujúcich paralelne a využívajúcich parametre vybrané z tejto distribúcie. Každý agent pracuje vo svojom vlastnom prostredí a po dokončení určitého počtu epizód alebo fáz epizódy algoritmus vráti kumulatívnu odmenu, vyjadrenú ako skóre kondície. Ak vezmeme do úvahy túto hodnotu, distribúcia parametrov sa môže posunúť smerom k úspešnejším agentom a pripraviť menej úspešných. Miliónkrát opakovaním takejto operácie za účasti stoviek agentov je možné posunúť rozloženie váh do priestoru, ktorý agentom umožní sformulovať kvalitnú politiku riešenia zadanej úlohy. Výsledky prezentované v článku sú skutočne pôsobivé: ukazuje sa, že ak paralelne spustíte tisíc agentov, potom sa antropomorfná lokomócia na dvoch nohách dá naučiť za menej ako pol hodiny (zatiaľ čo aj tie najpokročilejšie metódy RL vyžadujú viac výdavkov viac ako jednu hodinu). Pre podrobnejšie informácie odporúčam prečítať výbornú pošta od autorov experimentu, ako aj vedecký článok.

Posilniť učenie alebo evolučné stratégie? - Obaja

Rôzne stratégie výučby antropomorfnej vzpriamenej chôdze, študované pomocou metódy ES od OpenAI.

Čierna krabica

Veľkou výhodou tejto metódy je, že ju možno jednoducho paralelizovať. Zatiaľ čo metódy RL, ako napríklad A3C, vyžadujú výmenu informácií medzi pracovnými vláknami a parametrickým serverom, ES potrebuje iba odhady vhodnosti a zovšeobecnené informácie o rozdelení parametrov. Vďaka tejto jednoduchosti je táto metóda ďaleko pred modernými metódami RL, pokiaľ ide o možnosti škálovania. To všetko však nie je zbytočné: musíte optimalizovať sieť podľa princípu čiernej skrinky. V tomto prípade „čierna skrinka“ znamená, že pri trénovaní sa úplne ignoruje vnútorná štruktúra siete a použije sa len celkový výsledok (odmena za epizódu) a od toho závisí, či váhy konkrétnej siete budú zdediť ďalšie generácie. V situáciách, keď nedostávame veľa spätnej väzby od okolia – a v mnohých tradičných problémoch RL je tok odmien veľmi riedky – problém prechádza z „čiastočne čiernej skrinky“ do „úplne čiernej skrinky“. V tomto prípade môžete výrazne zvýšiť produktivitu, takže takýto kompromis je, samozrejme, opodstatnený. "Kto potrebuje gradienty, ak sú aj tak beznádejne hlučné?" - toto je všeobecný názor.

Avšak v situáciách, keď je spätná väzba aktívnejšia, veci sa pre ES začínajú kaziť. Tím OpenAI popisuje, ako bola jednoduchá klasifikačná sieť MNIST trénovaná pomocou ES a tentoraz bolo školenie 1000-krát pomalšie. Faktom je, že gradientový signál v klasifikácii obrazu je mimoriadne informatívny, pokiaľ ide o to, ako naučiť sieť lepšiu klasifikáciu. Problém je teda menší s technikou RL a väčší s riedkymi odmenami v prostrediach, ktoré produkujú hlučné gradienty.

Prírodné riešenie

Ak sa pokúsime poučiť z príkladu prírody a premýšľať o spôsoboch rozvoja AI, potom v niektorých prípadoch možno AI považovať za problém orientovaný prístup. Koniec koncov, príroda funguje v rámci obmedzení, ktoré počítačoví vedci jednoducho nemajú. Existuje názor, že čisto teoretický prístup k riešeniu konkrétneho problému môže poskytnúť efektívnejšie riešenia ako empirické alternatívy. Stále si však myslím, že by stálo za to otestovať, ako dynamický systém fungujúci pod určitými obmedzeniami (Zem) vytvoril agentov (zvieratá, najmä cicavce) schopných flexibilného a komplexného správania. Zatiaľ čo niektoré z týchto obmedzení neplatia vo svete simulovanej vedy o údajoch, iné sú v poriadku.

Po preskúmaní intelektuálneho správania cicavcov vidíme, že sa formuje ako výsledok komplexného vzájomného ovplyvňovania dvoch úzko súvisiacich procesov: učiť sa zo skúseností iných и učenie prácou. Prvý z nich sa často stotožňuje s evolúciou riadenou prirodzeným výberom, ale tu používam širší termín na zohľadnenie epigenetiky, mikrobiómov a iných mechanizmov, ktoré umožňujú zdieľanie skúseností medzi geneticky nepríbuznými organizmami. Druhým procesom, učenie sa zo skúseností, sú všetky informácie, ktoré sa zviera počas života dokáže naučiť, pričom tieto informácie sú priamo determinované interakciou tohto zvieraťa s vonkajším svetom. Táto kategória zahŕňa všetko od učenia sa rozpoznávať predmety až po zvládnutie komunikácie, ktorá je súčasťou procesu učenia.

Zhruba povedané, tieto dva procesy vyskytujúce sa v prírode možno porovnať s dvoma možnosťami optimalizácie neurónových sietí. Evolučné stratégie, kde sa informácie o gradientoch používajú na aktualizáciu informácií o organizme, sa blížia k učeniu sa zo skúseností iných. Podobne gradientné metódy, kde získanie tej či onej skúsenosti vedie k tej či onej zmene v správaní agenta, sú porovnateľné s učením sa z vlastnej skúsenosti. Ak sa zamyslíme nad typmi inteligentného správania alebo schopností, ktoré každý z týchto dvoch prístupov rozvíja u zvierat, porovnanie sa stáva výraznejším. V oboch prípadoch „evolučné metódy“ podporujú štúdium reaktívneho správania, ktoré človeku umožňuje vyvinúť určitú zdatnosť (dostatočnú na to, aby zostal nažive). Naučiť sa chodiť alebo uniknúť zo zajatia je v mnohých prípadoch ekvivalentné „inštinktívnejšiemu“ správaniu, ktoré je u mnohých zvierat „pevne zavedené“ na genetickej úrovni. Okrem toho tento príklad potvrdzuje, že evolučné metódy sú použiteľné v prípadoch, keď je signál odmeny extrémne zriedkavý (napríklad skutočnosť úspešného vychovania dieťaťa). V takom prípade nie je možné korelovať odmenu s nejakým konkrétnym súborom úkonov, ktoré mohli byť vykonané mnoho rokov pred výskytom tejto skutočnosti. Na druhej strane, ak vezmeme do úvahy prípad, v ktorom ES zlyhá, konkrétne klasifikáciu obrázkov, výsledky sú pozoruhodne porovnateľné s výsledkami učenia zvierat dosiahnutými v nespočetných behaviorálnych psychologických experimentoch vykonaných viac ako 100 rokov.

Učenie sa od zvierat

Metódy používané v posilňovacom učení sú v mnohých prípadoch prevzaté priamo z psychologickej literatúry o operatívne podmieňovaniea operantné podmieňovanie bolo študované pomocou psychológie zvierat. Mimochodom, Richard Sutton, jeden z dvoch zakladateľov posilňovacieho vzdelávania, má bakalársky titul zo psychológie. V kontexte operatívneho podmieňovania sa zvieratá učia spájať odmenu alebo trest so špecifickými vzormi správania. Tréneri a výskumníci môžu tak či onak manipulovať s touto asociáciou odmien a provokovať zvieratá, aby preukázali inteligenciu alebo určité správanie. Operačné podmieňovanie, ako sa používa vo výskume na zvieratách, však nie je nič iné ako výraznejšia forma toho istého podmieňovania, na základe ktorého sa zvieratá učia počas celého života. Neustále dostávame signály pozitívneho posilňovania z okolia a podľa toho prispôsobujeme svoje správanie. V skutočnosti mnohí neurovedci a kognitívni vedci veria, že ľudia a iné zvieratá skutočne fungujú na ešte vyššej úrovni a neustále sa učia predpovedať výsledok svojho správania v budúcich situáciách na základe potenciálnych odmien.

Ústredná úloha predikcie pri učení sa zo skúseností významným spôsobom mení dynamiku opísanú vyššie. Signál, ktorý bol predtým považovaný za veľmi riedky (epizodická odmena), sa ukazuje ako veľmi hustý. Teoreticky je situácia asi takáto: mozog cicavca v každom okamihu počíta výsledky na základe komplexného prúdu zmyslových podnetov a akcií, zatiaľ čo zviera je jednoducho ponorené do tohto prúdu. V tomto prípade konečné správanie zvieraťa dáva silný signál, ktorý musí byť použitý na usmernenie korekcie predpovedí a vývoja správania. Mozog využíva všetky tieto signály na optimalizáciu predpovedí (a teda aj kvality prijatých opatrení) v budúcnosti. Prehľad tohto prístupu je uvedený vo vynikajúcej knihe „Neistota pri surfovaní“ kognitívny vedec a filozof Andy Clark. Ak extrapolujeme takéto uvažovanie na trénovanie umelých agentov, potom sa odhalí základná chyba v posilňovacom učení: signál použitý v tejto paradigme je beznádejne slabý v porovnaní s tým, čo by mohol byť (alebo by mal byť). V prípadoch, keď nie je možné zvýšiť saturáciu signálu (možno preto, že je vo svojej podstate slabý alebo spojený s nízkou úrovňou reaktivity), je pravdepodobne lepšie uprednostniť tréningovú metódu, ktorá je dobre paralelná, napríklad ES.

Bohatší tréning neurónových sietí

Stavajúc na princípoch vyššej nervovej aktivity, ktorá je vlastná mozgu cicavcov, ktorý je neustále zaneprázdnený vytváraním predpovedí, sa v poslednom čase dosiahol pokrok v posilňovaní učenia, ktoré teraz zohľadňuje dôležitosť takýchto predpovedí. Hneď vám môžem odporučiť dve podobné diela:

V oboch týchto článkoch autori dopĺňajú typickú predvolenú politiku svojich neurónových sietí o výsledky predikcie o stave životného prostredia v budúcnosti. V prvom článku je prognózovanie aplikované na rôzne premenné merania a v druhom je prognózovanie aplikované na zmeny prostredia a správania agenta ako takého. V oboch prípadoch sa riedky signál spojený s pozitívnym posilňovaním stáva oveľa bohatším a informatívnejším, čo umožňuje rýchlejšie učenie a osvojenie si komplexnejšieho správania. Takéto vylepšenia sú dostupné iba pri metódach, ktoré používajú gradientný signál, a nie pri metódach, ktoré fungujú na princípe „čiernej skrinky“, ako je ES.

Navyše, učenie sa zo skúseností a gradientové metódy sú oveľa efektívnejšie. Dokonca aj v prípadoch, keď bolo možné študovať konkrétny problém pomocou metódy ES rýchlejšie ako pomocou posilňovacieho učenia, zisk sa dosiahol vďaka skutočnosti, že stratégia ES zahŕňala mnohonásobne viac údajov ako pri RL. Keď sa v tomto prípade zamyslíme nad princípmi učenia sa u zvierat, poznamenávame, že výsledok učenia sa na príklade niekoho iného sa prejavuje po mnohých generáciách, pričom niekedy stačí jediná udalosť, ktorú zažije samo sebou, aby sa zviera navždy naučilo. Zatiaľ ako školenia bez príkladov Aj keď to celkom nezapadá do tradičných gradientových metód, je oveľa zrozumiteľnejšie ako ES. Existujú napríklad prístupy ako napr neurálna epizodická kontrola, kde sú Q-hodnoty uložené počas tréningového procesu, po ktorom ich program pred vykonaním akcií skontroluje. Výsledkom je gradientová metóda, ktorá vám umožní naučiť sa riešiť problémy oveľa rýchlejšie ako predtým. V článku o nervovom epizodickom riadení sa autori zmieňujú o ľudskom hipokampe, ktorý je schopný uchovať si informácie o udalosti aj po jedinom zážitku, a preto hrá kritickú úlohu v procese spomínania. Takéto mechanizmy vyžadujú prístup k vnútornej organizácii agenta, čo je podľa definície tiež nemožné v paradigme ES.

Tak prečo ich nespojiť?

Je pravdepodobné, že veľká časť tohto článku môže zanechať dojem, že obhajujem metódy RL. V skutočnosti si však myslím, že z dlhodobého hľadiska je najlepším riešením skombinovať obe metódy, aby sa každá použila v situáciách, v ktorých je najvhodnejšia. Je zrejmé, že v prípade mnohých reaktívnych politík alebo v situáciách s veľmi riedkymi signálmi pozitívneho posilnenia ES vyhráva, najmä ak máte k dispozícii výpočtový výkon, na ktorom môžete vykonávať masívne paralelné školenia. Na druhej strane, gradientové metódy využívajúce posilňovacie učenie alebo učenie pod dohľadom budú užitočné, keď máme prístup k rozsiahlej spätnej väzbe a potrebujeme sa naučiť, ako vyriešiť problém rýchlo as menším množstvom údajov.

Keď sa pozrieme na prírodu, zistíme, že prvá metóda v podstate kladie základy druhej. To je dôvod, prečo si cicavce v priebehu evolúcie vyvinuli mozgy, ktoré im umožňujú mimoriadne efektívne sa učiť z komplexných signálov prichádzajúcich z prostredia. Otázka teda zostáva otvorená. Možno nám evolučné stratégie pomôžu vynájsť efektívne architektúry učenia, ktoré budú užitočné aj pre metódy gradientného učenia. Koniec koncov, riešenie, ktoré našla príroda, je skutočne veľmi úspešné.

Zdroj: hab.com

Pridať komentár