Învățare prin consolidare sau strategii evolutive? - Ambii

Hei Habr!

Nu decidem adesea să postăm aici traduceri ale textelor vechi de doi ani, fără cod și clar de natură academică - dar astăzi vom face o excepție. Sperăm că dilema pusă în titlul articolului îi îngrijorează pe mulți dintre cititorii noștri și ați citit deja lucrarea fundamentală despre strategiile evolutive cu care argumentează această postare în original sau o veți citi acum. Bun venit la pisica!

Învățare prin consolidare sau strategii evolutive? - Ambii

În martie 2017, OpenAI a făcut furori în comunitatea de deep learning cu lucrarea „Strategiile de evoluție ca alternativă scalabilă la învățarea prin consolidare" Această lucrare a descris rezultate impresionante în favoarea faptului că învățarea prin întărire (RL) nu a devenit o pană, iar atunci când antrenați rețele neuronale complexe, este recomandabil să încercați alte metode. Apoi a izbucnit o dezbatere cu privire la importanța învățării prin întărire și la modul în care merită statutul acesteia de tehnologie „must-have” pentru predarea rezolvării problemelor. Aici vreau să spun că aceste două tehnologii nu trebuie considerate ca fiind concurente, dintre care una este clar mai bună decât cealaltă; dimpotrivă, acestea se completează în cele din urmă. Într-adevăr, dacă te gândești puțin la ceea ce este nevoie pentru a crea AI generală și astfel de sisteme, care de-a lungul existenței lor ar fi capabile să învețe, să judece și să planifice, atunci aproape sigur vom ajunge la concluzia că va fi necesară cutare sau cutare soluție combinată. Apropo, tocmai această soluție combinată a ajuns la natura, care a înzestrat mamiferele și alte animale superioare cu inteligență complexă în cursul evoluției.

Strategii evolutive

Teza principală a lucrării OpenAI a fost că, în loc să folosească învățarea prin întărire combinată cu retropropagarea tradițională, ei au antrenat cu succes o rețea neuronală pentru a rezolva probleme complexe folosind ceea ce au numit o „strategie evolutivă” (ES). Această abordare ES constă în menținerea unei distribuții a greutăților la nivel de rețea, implicând mai mulți agenți care lucrează în paralel și utilizând parametri selectați din această distribuție. Fiecare agent operează în propriul său mediu, iar la finalizarea unui număr specificat de episoade sau etape ale unui episod, algoritmul returnează o recompensă cumulativă, exprimată ca un scor de fitness. Ținând cont de această valoare, distribuția parametrilor poate fi deplasată către agenți mai de succes, privându-i pe cei mai puțin de succes. Repetând o astfel de operațiune de milioane de ori cu participarea a sute de agenți, este posibilă mutarea distribuției greutăților într-un spațiu care le va permite agenților să formuleze o politică de înaltă calitate pentru rezolvarea sarcinii care le-au fost atribuite. Într-adevăr, rezultatele prezentate în articol sunt impresionante: se arată că dacă rulezi o mie de agenți în paralel, atunci locomoția antropomorfă pe două picioare poate fi învățată în mai puțin de jumătate de oră (în timp ce și cele mai avansate metode RL necesită cheltuirea mai mult). mai mult de o oră pe aceasta). Pentru informații mai detaliate, vă recomand să citiți excelentul rapid de la autorii experimentului, precum și articol științific.

Învățare prin consolidare sau strategii evolutive? - Ambii

Diferite strategii de predare a mersului vertical antropomorf, studiate folosind metoda ES de la OpenAI.

Cutie neagră

Marele avantaj al acestei metode este că poate fi ușor paralelizată. În timp ce metodele RL, cum ar fi A3C, necesită ca informații să fie schimbate între firele de lucru și un server de parametri, ES are nevoie doar de estimări de fitness și de informații generalizate de distribuție a parametrilor. Datorită acestei simplități, această metodă este cu mult înaintea metodelor moderne RL în ceea ce privește capacitățile de scalare. Totuși, toate acestea nu vin în zadar: trebuie să optimizați rețeaua după principiul cutiei negre. În acest caz, „cutia neagră” înseamnă că în timpul antrenamentului, structura internă a rețelei este complet ignorată și este utilizat doar rezultatul general (recompensa pentru episod) și depinde de acesta dacă ponderile unei anumite rețele vor fi moștenit de generațiile următoare. În situațiile în care nu primim prea mult feedback de la mediu – și în multe probleme tradiționale RL fluxul de recompense este foarte rar – problema trece de la a fi o „cutie neagră parțial” la o „cutie complet neagră”. În acest caz, puteți crește semnificativ productivitatea, așa că, desigur, un astfel de compromis este justificat. „Cine are nevoie de gradienți dacă oricum sunt zgomotoși fără speranță?” - aceasta este opinia generală.

Cu toate acestea, în situațiile în care feedback-ul este mai activ, lucrurile încep să meargă prost pentru ES. Echipa OpenAI descrie modul în care o simplă rețea de clasificare MNIST a fost antrenată folosind ES, iar de această dată antrenamentul a fost de 1000 de ori mai lent. Faptul este că semnalul gradient în clasificarea imaginilor este extrem de informativ în ceea ce privește modul de a preda o mai bună clasificare a rețelei. Astfel, problema este mai puțin cu tehnica RL și mai mult cu recompense rare în medii care produc gradienți zgomotoși.

Soluția naturii

Dacă încercăm să învățăm din exemplul naturii, gândindu-ne la modalități de a dezvolta IA, atunci în unele cazuri AI poate fi considerată ca abordare orientată spre problemă. La urma urmei, natura operează în limitele pe care informaticienii pur și simplu nu le au. Există opinia că o abordare pur teoretică a soluționării unei anumite probleme poate oferi soluții mai eficiente decât alternativele empirice. Cu toate acestea, încă cred că ar merita să testăm modul în care un sistem dinamic care funcționează sub anumite constrângeri (Pământul) a generat agenți (animale, în special mamifere) capabili de un comportament flexibil și complex. În timp ce unele dintre aceste constrângeri nu se aplică în lumea simulată a științei datelor, altele sunt foarte bune.

După ce am examinat comportamentul intelectual al mamiferelor, vedem că acesta se formează ca urmare a influenței reciproce complexe a două procese strâns legate între ele: învăţând din experienţele altora и învățare prin practică. Prima este adesea echivalată cu evoluția determinată de selecția naturală, dar aici folosesc un termen mai larg pentru a lua în considerare epigenetica, microbioamele și alte mecanisme care permit împărtășirea experiențelor între organisme neînrudite genetic. Al doilea proces, învățarea din experiență, este toate informațiile pe care un animal reușește să le învețe de-a lungul vieții, iar această informație este direct determinată de interacțiunea acestui animal cu lumea exterioară. Această categorie include totul, de la învățarea recunoașterii obiectelor până la stăpânirea comunicării inerente procesului de învățare.

În linii mari, aceste două procese care apar în natură pot fi comparate cu două opțiuni pentru optimizarea rețelelor neuronale. Strategiile evolutive, în care informațiile despre gradienți sunt folosite pentru a actualiza informațiile despre organism, sunt aproape de a învăța din experiența altora. În mod similar, metodele gradient, în care obținerea uneia sau a alteia experiențe duce la una sau alta schimbare în comportamentul agentului, sunt comparabile cu învățarea din propria experiență. Dacă ne gândim la tipurile de comportament sau abilități inteligente pe care fiecare dintre aceste două abordări le dezvoltă la animale, comparația devine mai pronunțată. În ambele cazuri, „metodele evolutive” promovează studiul comportamentelor reactive care permit dezvoltarea unei anumite forme de fitness (suficientă pentru a rămâne în viață). A învăța să meargă sau să scape din captivitate este, în multe cazuri, echivalent cu comportamente mai „instinctive” care sunt „concordate” la multe animale la nivel genetic. În plus, acest exemplu confirmă că metodele evolutive sunt aplicabile în cazurile în care semnalul de recompensă este extrem de rar (de exemplu, faptul creșterii cu succes a unui copil). Într-un astfel de caz, este imposibil să se coreleze recompensa cu vreun set specific de acțiuni care ar fi putut fi efectuate cu mulți ani înainte de apariția acestui fapt. Pe de altă parte, dacă luăm în considerare un caz în care ES eșuează, și anume clasificarea imaginilor, rezultatele sunt remarcabil de comparabile cu rezultatele învățării animalelor obținute în nenumărate experimente psihologice comportamentale efectuate de peste 100 de ani.

Învățarea de la animale

Metodele folosite în învățarea prin întărire sunt în multe cazuri preluate direct din literatura de specialitate psihologică condiționarea operantă, iar condiționarea operantă a fost studiată folosind psihologia animală. Apropo, Richard Sutton, unul dintre cei doi fondatori ai învățării prin întărire, are o diplomă de licență în psihologie. În contextul condiționării operante, animalele învață să asocieze recompensa sau pedeapsa cu modele comportamentale specifice. Formatorii și cercetătorii pot manipula această asociere de recompensă într-un fel sau altul, provocând animalele să demonstreze inteligență sau anumite comportamente. Cu toate acestea, condiționarea operantă, așa cum este folosită în cercetarea pe animale, nu este altceva decât o formă mai pronunțată a aceleiași condiționări pe baza căreia animalele învață de-a lungul vieții. Primim în mod constant semnale de întărire pozitivă din mediul înconjurător și ne adaptăm comportamentul în consecință. De fapt, mulți oameni de știință în neuroștiință și oameni de știință cognitiv cred că oamenii și alte animale operează de fapt la un nivel și mai înalt și învață continuu să prezică rezultatul comportamentului lor în situații viitoare pe baza unor recompense potențiale.

Rolul central al predicției în învățarea din experiență modifică dinamica descrisă mai sus în moduri semnificative. Semnalul care era considerat anterior foarte rar (recompensa episodică) se dovedește a fi foarte dens. Teoretic, situația este cam așa: la un moment dat, creierul mamiferului calculează rezultate pe baza unui flux complex de stimuli și acțiuni senzoriale, în timp ce animalul este pur și simplu scufundat în acest flux. În acest caz, comportamentul final al animalului dă un semnal puternic care trebuie folosit pentru a ghida ajustarea prognozelor și dezvoltarea comportamentului. Creierul folosește toate aceste semnale pentru a optimiza previziunile (și, în consecință, calitatea acțiunilor întreprinse) în viitor. O privire de ansamblu asupra acestei abordări este oferită în cartea excelentă „Incertitudinea navigarii” om de știință cognitiv și filozof Andy Clark. Dacă extrapolăm un astfel de raționament la antrenamentul agenților artificiali, atunci se dezvăluie un defect fundamental în învățarea prin întărire: semnalul folosit în această paradigmă este iremediabil de slab în comparație cu ceea ce ar putea fi (sau ar trebui să fie). În cazurile în care este imposibil să creșteți saturația semnalului (poate pentru că este în mod inerent slab sau asociat cu reactivitate la nivel scăzut), probabil este mai bine să preferați o metodă de antrenament care este bine paralelizată, de exemplu, ES.

Antrenament mai bogat al rețelelor neuronale

Bazându-se pe principiile activității neuronale superioare inerente creierului mamiferelor, care este constant ocupat cu predicții, au fost făcute progrese recente în învățarea prin întărire, care ia acum în considerare importanța unor astfel de predicții. Vă pot recomanda imediat două lucrări similare:

În ambele lucrări, autorii completează politica implicită tipică a rețelelor lor neuronale cu rezultate de predicție despre starea mediului în viitor. În primul articol, prognoza este aplicată unei varietăți de variabile de măsurare, iar în al doilea, prognoza este aplicată schimbărilor din mediu și comportamentului agentului ca atare. În ambele cazuri, semnalul rar asociat cu întărirea pozitivă devine mult mai bogat și mai informativ, permițând atât învățarea mai rapidă, cât și dobândirea unor comportamente mai complexe. Astfel de îmbunătățiri sunt disponibile numai cu metode care utilizează un semnal de gradient, și nu cu metode care funcționează pe principiul „cutie neagră”, cum ar fi ES.

În plus, învățarea din experiență și metodele de gradient sunt mult mai eficiente. Chiar și în cazurile în care a fost posibil să se studieze o anumită problemă folosind metoda ES mai rapid decât folosind învățarea prin întărire, câștigul a fost obținut datorită faptului că strategia ES a implicat de multe ori mai multe date decât cu RL. Reflectând în acest caz la principiile învățării la animale, observăm că rezultatul învățării din exemplul altcuiva se manifestă după multe generații, în timp ce uneori un singur eveniment trăit de la sine este suficient pentru ca animalul să învețe lecția pentru totdeauna. În timp ce ca antrenament fără exemple Deși nu se încadrează în metodele tradiționale de gradient, este mult mai inteligibil decât ES. Există, de exemplu, abordări precum control episodic neural, unde valorile Q sunt stocate în timpul antrenamentului, după care programul le verifică înainte de a lua măsuri. Rezultatul este o metodă de gradient care vă permite să învățați cum să rezolvați problemele mult mai rapid decât înainte. Într-un articol despre controlul episodic neuronal, autorii menționează hipocampul uman, care este capabil să rețină informații despre un eveniment chiar și după o singură experiență și, prin urmare, joacă rol critic în procesul de amintire. Astfel de mecanisme necesită acces la organizarea internă a agentului, ceea ce este, prin definiție, imposibil și în paradigma ES.

Deci, de ce să nu le combinați?

Este probabil ca o mare parte din acest articol să lase impresia că susțin metodele RL. Cu toate acestea, chiar cred că pe termen lung cea mai bună soluție este combinarea ambelor metode, astfel încât fiecare să fie folosită în situațiile în care este cel mai potrivit. Evident, în cazul multor politici reactive sau în situații cu semnale foarte rare de întărire pozitivă, ES câștigă, mai ales dacă ai la dispoziție puterea de calcul pe care poți rula antrenament masiv paralel. Pe de altă parte, metodele de gradient care utilizează învățarea prin întărire sau învățarea supravegheată vor fi utile atunci când avem acces la feedback extins și trebuie să învățăm cum să rezolvăm o problemă rapid și cu mai puține date.

Revenind la natură, constatăm că prima metodă, în esență, pune bazele celei de-a doua. Acesta este motivul pentru care, de-a lungul evoluției, mamiferele au dezvoltat creiere care le permit să învețe extrem de eficient din semnale complexe venite din mediu. Deci, întrebarea rămâne deschisă. Poate că strategiile evolutive ne vor ajuta să inventăm arhitecturi eficiente de învățare care vor fi utile și pentru metodele de învățare în gradient. La urma urmei, soluția găsită de natură este într-adevăr foarte reușită.

Sursa: www.habr.com

Adauga un comentariu