🥇 Apprendimentu di rinforzu o strategie evolutive ? — Tramindui

Ehi Habr!

Ùn avemu micca spessu decisu di postà quì traduzzioni di testi chì avianu dui anni, senza codice è chjaramente di natura accademica - ma oghje faremu un eccezzioni. Speremu chì u dilema pusatu in u titulu di l'articulu preoccupa parechji di i nostri lettori, è avete digià lettu u travagliu fundamentale nantu à e strategie evolutive cù quale questu post argumenta in l'uriginale o leghje avà. Benvenuti à u gattu !

In marzu 2017, OpenAI hà fattu ondate in a cumunità di apprendimentu prufonda cù u paper "Strategie d'evoluzione cum'è una alternativa scalabile à l'apprendimentu di rinforzu." Stu travagliu hà descrittu risultati impressiunanti in favore di u fattu chì l'apprendimentu di rinfurzamentu (RL) ùn hè micca diventatu una cunea, è quandu a furmazione di reti neurali cumplessi, hè cunsigliu di pruvà altre metudi. Un dibattitu hè ghjuntu in quantu à l'impurtanza di l'apprendimentu di rinfurzamentu è quantu meriteghja u so statutu di tecnulugia "must-have" per l'insignamentu di risolve i prublemi. Quì vogliu dì chì sti dui tecnulugii ùn deve esse cunsideratu cum'è cumpetizione, una di quale hè chjaramente megliu cà l'altru; à u cuntrariu, si cumplementanu in fine. Infatti, se pensate un pocu à ciò chì ci vole à creà AI generale è tali sistemi, chì in tutta a so esistenza saria capaci di amparà, di ghjudiziu è di pianificazione, allora quasi certamenti ghjunghjemu à a cunclusione chì questa o quella suluzione cumminata serà necessaria. A strada, era precisamente sta suluzione cumminata chì a natura hè ghjunta, chì hà dotatu i mammiferi è altri animali più altu cù intelligenza cumplessa durante u cursu di l'evoluzione.

Strategie evolutive

A tesi principale di u documentu OpenAI era chì, invece di utilizà l'apprendimentu di rinfurzamentu cumminatu cù a retropropagazione tradiziunale, anu furmatu cù successu una rete neurale per risolve i prublemi cumplessi utilizendu ciò chì chjamanu una "strategia evolutiva" (ES). Stu approcciu ES hè custituitu di mantene una distribuzione di pesi in tutta a reta, chì implica parechji agenti chì travaglianu in parallelu è utilizendu paràmetri selezziunati da sta distribuzione. Ogni agentu opera in u so propiu ambiente, è dopu à u cumpletu di un numeru specificu di episodi o tappe di un episodiu, l'algoritmu torna una ricumpensa cumulativa, espressa cum'è un puntu di fitness. Pigliendu stu valore in contu, a distribuzione di i paràmetri pò esse spustata versu l'agenti più riesciuti, privandu i menu successu. Ripetendu una tale operazione milioni di volte cù a participazione di centinaie di agenti, hè pussibule di trasfurmà a distribuzione di pesi à un spaziu chì permetterà à l'agenti di furmulà una pulitica d'alta qualità per risolve u compitu assignatu. In verità, i risultati presentati in l'articulu sò impressiunanti: hè dimustratu chì, se correte mille agenti in parallelu, allora a locomozione antropomorfa nantu à duie gambe pò esse amparatu in menu di una meza ora (mentre chì ancu i metudi RL più avanzati necessitanu spende più. più di una ora nantu à questu). Per infurmazione più dettagliata, vi cunsigliu di leghje l'eccellente post da l'autori di l'esperimentu, è ancu articulu scientificu.

Diverse strategie per l'insignamentu di a caminata eretta antropomorfa, studiate cù u metudu ES da OpenAI.

Scatola nera

U grande benefiziu di stu metudu hè chì pò esse facilmente parallelizatu. Mentre i metudi RL, cum'è A3C, necessitanu infurmazione per esse scambiata trà i fili di u travagliu è un servitore di paràmetri, ES solu bisognu di stimi di fitness è infurmazione generalizata di distribuzione di parametri. Hè per via di sta simplicità chì stu metudu hè assai avanti di i metudi RL muderni in termini di capacità di scala. In ogni casu, tuttu questu ùn hè micca in vain: avete da ottimisà a reta secondu u principiu di scatula negra. In questu casu, a "scatola nera" significa chì durante a furmazione, a struttura interna di a rete hè completamente ignorata, è solu u risultatu generale (ricompensa per l'episodiu) hè utilizatu, è dipende da ellu chì i pesi di una reta particulare serà. esse ereditati da e generazioni successive. In situazioni induve ùn ricevemu micca assai feedback da l'ambienti - è in parechji prublemi tradiziunali di RL, u flussu di ricumpensa hè assai sparse - u prublema passa da esse una "cassetta parzialmente negra" à una "scatola cumpletamente negra". In questu casu, pudete aumentà significativamente a produtividade, cusì, sicuru, un tali cumprumissu hè ghjustificatu. "Quale hà bisognu di gradienti s'elli sò in ogni modu senza speranza?" - questu hè l'opinione generale.

In ogni casu, in situazioni induve u feedback hè più attivu, e cose cumincianu à sbaglià per l'ES. U squadra OpenAI descrive cumu una semplice reta di classificazione MNIST hè stata furmata cù ES, è sta volta a furmazione era 1000 volte più lenta. U fattu hè chì u signale di gradiente in a classificazione di l'imaghjini hè estremamente informativu in quantu à insignà a classificazione di a rete megliu. Cusì, u prublema hè menu cù a tecnica RL è più cù ricumpensa sparse in ambienti chì pruducenu gradienti rumorosi.

A suluzione di a natura

Sè avemu pruvatu à amparà da l'esempiu di a natura, pensendu à modi per sviluppà AI, allora in certi casi l'AI pò esse pensatu cum'è approcciu orientatu à u prublema. Dopu tuttu, a natura opera in limitazioni chì l'informatica ùn anu micca solu. Ci hè una opinione chì un approcciu puramente teoricu per risolve un prublema particulari pò furnisce suluzioni più efficaci cà l'alternattivi empirichi. Tuttavia, pensu sempre chì valerebbe a pena di pruvà cumu un sistema dinamicu chì opera sottu à certe limitazioni (a Terra) hà generatu agenti (animali, in particulare mammiferi) capaci di cumportamentu flexible è cumplessu. Mentre alcune di queste limitazioni ùn sò micca applicate in i mondi simulati di scienza di dati, altri sò bè.

Dopu avè esaminatu u cumpurtamentu intellettuale di i mammiferi, vedemu chì hè furmatu com'è u risultatu di l'influenza mutuale cumplessa di dui prucessi strettamente interrelati: amparà da l'esperienze di l'altri и amparera da fà. U primu hè spessu equiparatu à l'evoluzione guidata da a selezzione naturale, ma quì aghju utilizatu un termu più largu per piglià in contu l'epigenetica, i microbiomi è altri meccanismi chì permettenu a spartera di l'esperienze trà l'organisimi geneticamente senza relazione. U sicondu prucessu, apprendu da l'experientia, hè tutta l'infurmazioni chì un animali riesce à amparà in tutta a so vita, è sta informazione hè direttamente determinata da l'interazzione di questu animali cù u mondu esternu. Questa categuria include tuttu, da l'amparà à ricunnosce l'uggetti à u maestru di a cumunicazione inherente à u prucessu di apprendimentu.

À pocu pressu, sti dui prucessi chì sò in natura ponu esse paragunati cù duie opzioni per ottimisà e rete neurali. Strategie evolutive, induve l'infurmazioni nantu à i gradienti sò utilizati per aghjurnà l'infurmazioni nantu à l'organisimu, avvicinanu à l'apprendimentu da l'esperienza di l'altri. In listessu modu, i metudi di gradiente, induve ottene una o una altra sperienza porta à un o un altru cambiamentu in u cumpurtamentu di l'agente, sò paragunabili à l'apprendimentu da a propria sperienza. Se pensemu à i tipi di cumportamentu intelligente o capacità chì ognunu di sti dui approcci si sviluppa in l'animali, u paraguni diventa più pronunzianu. In i dui casi, i "metudi evoluzione" prumove u studiu di cumpurtamenti reattivi chì permettenu di sviluppà una certa fitness (sufficiente per stà vivu). Amparate à marchjà o scappà da a cattività hè in parechji casi equivalenti à cumpurtamenti più "instinctive" chì sò "hard-wired" in parechji animali à u livellu geneticu. Inoltre, questu esempiu cunfirma chì i metudi evoluzione sò applicabili in i casi induve u signale di ricumpensa hè estremamente raru (per esempiu, u fattu di criazione riescita di un zitellu). In questu casu, hè impussibile di correlate a ricumpensa cù qualsiasi settore specificu di azzione chì pò esse realizatu parechji anni prima di l'occurrence di stu fattu. Per d 'altra banda, se cunsideremu un casu in quale ES falla, vale à dì a classificazione di l'imaghjini, i risultati sò notevolmente paragunabili à i risultati di l'apprendimentu di l'animali ottenuti in innumerevoli esperimenti psicologichi di cumportamentu realizati più di 100 anni.

Amparate da l'animali

I metudi usati in l'apprendimentu di rinfurzamentu sò in parechji casi pigliati direttamente da a literatura psicologica condizionamentu operante, è u cundizionamentu operante hè statu studiatu cù a psiculugia animale. Per via, Richard Sutton, unu di i dui fundatori di l'apprendimentu di rinfurzamentu, hà un diploma di bachelor in psicologia. In u cuntestu di u cundizzioni operante, l'animali amparanu à associà ricumpensa o punizioni cù mudelli di cumportamentu specifichi. Trainers è circadori ponu manipulà sta associazione di ricumpensa in un modu o un altru, pruvucannu l'animali per dimustrà l'intelligenza o certi cumpurtamenti. In ogni casu, u cundizionamentu operante, cum'è usatu in a ricerca di l'animali, ùn hè nunda più cà una forma più pronunzia di u stessu cundizionamentu nantu à a basa di quale l'animali amparanu in tutta a so vita. Ricevemu constantemente segnali di rinfurzamentu pusitivu da l'ambiente è aghjustemu u nostru cumpurtamentu in cunseguenza. In fatti, parechji neuroscientists è scentifichi cognitivi credenu chì l'omu è l'altri animali operanu in realtà à un livellu ancu più altu è amparanu continuamente à predichendu u risultatu di u so cumpurtamentu in situazioni futuri basatu nantu à ricumpensa potenziale.

U rolu cintrali di a prediczione in l'apprendimentu da l'esperienza cambia a dinamica descritta sopra in modu significativu. U signale chì prima era cunsideratu assai sparse (recompensa episodica) risulta assai densu. Teoricamente, a situazione hè una cosa cusì: in ogni mumentu, u cervu di u mammiferu hè calculatu risultati basatu annantu à un flussu cumplessu di stimuli sensoriali è azzioni, mentre chì l'animali hè simplicemente immersi in questu flussu. In questu casu, u cumpurtamentu finali di l'animali dà un signalu forte chì deve esse usatu per guidà l'aghjustamentu di e previsioni è u sviluppu di u cumpurtamentu. U cervellu usa tutti sti signali per ottimisà e previsioni (è, per quessa, a qualità di l'azzioni pigliate) in u futuru. Una panoramica di questu approcciu hè datu in u libru eccellente "Surfing Uncertainty” scientist cognitivu è filòsufu Andy Clark. Se extrapolemu tali ragiunamentu à a furmazione di l'agenti artificiali, allora un difettu fundamentale in l'apprendimentu di rinfurzamentu hè revelatu: u segnu utilizatu in questu paradigma hè disperatamente debule cumparatu à ciò chì puderia esse (o duverebbe esse). In i casi induve hè impussibile di aumentà a saturazione di u signale (forsi perchè hè intrinsecamente debule o assuciatu cù reattività di livellu bassu), hè prubabilmente megliu preferite un metudu di furmazione chì hè bè parallelizatu, per esempiu, ES.

Formazione più ricca di e rete neurali

Basendu nantu à i principii di l'attività neurale superiore inherente à u cervellu di i mammiferi, chì hè sempre impegnatu à fà predizioni, i recenti avanzati sò stati fatti in l'apprendimentu di rinfurzamentu, chì avà piglia in contu l'impurtanza di tali predizioni. Puderaghju immediatamente ricumandà duie opere simili per voi:

In i dui documenti, l'autori cumplementanu a pulitica tipica predeterminata di e so rete neurali cù risultati di prediczione nantu à u statu di l'ambiente in u futuru. In u primu articulu, a previsione hè appiicata à una varietà di variabili di misurazione, è in u sicondu, a previsione hè appiicata à i cambiamenti in l'ambienti è u cumpurtamentu di l'agente cum'è tali. In i dui casi, u signale sparse assuciatu à u rinfurzamentu pusitivu diventa assai più riccu è più informativu, chì permette un apprendimentu più veloce è l'acquistu di cumpurtamenti più cumplessi. Tali megliurenze sò dispunibuli solu cù metudi chì utilizanu un signalu di gradiente, è micca cù metudi chì operanu nantu à un principiu di "scatola negra", cum'è ES.

Inoltre, l'apprendimentu da l'esperienza è i metudi di gradiente sò assai più efficaci. Ancu in i casi induve era pussibule di studià un prublema particulari utilizendu u metudu ES più veloce di l'usu di l'apprendimentu di rinfurzamentu, u guadagnu hè stata ottenuta per u fattu chì a strategia ES implicava parechje volte più dati chì cù RL. Riflettendu in questu casu nantu à i principii di l'apprendimentu in l'animali, avemu nutatu chì u risultatu di l'aprenu da l'esempiu di l'altru si manifesta dopu à parechje generazioni, mentri à volte un unicu avvenimentu sperimentatu da ellu stessu hè abbastanza per l'animali per amparà a lezioni per sempre. Mentre cum'è furmazione senza esempi Ancu s'ellu ùn hè micca abbastanza in i metudi tradiziunali di gradiente, hè assai più intelligibile cà ES. Ci sò, per esempiu, avvicinamenti cum'è cuntrollu episodicu neurale, induve i valori Q sò almacenati durante a furmazione, dopu chì u prugramma li verifica prima di piglià l'azzioni. U risultatu hè un metudu gradiente chì vi permette di amparà à risolve i prublemi assai più veloce ch'è prima. In un articulu nantu à u cuntrollu episodicu neurale, l'autori mintuvà l'ippocampu umanu, chì hè capaci di mantene l'infurmazioni nantu à un avvenimentu ancu dopu una sola sperienza è, per quessa, ghjucà. rolu criticu in u prucessu di ricurdà. Tali miccanismi necessanu accessu à l'urganizazione interna di l'agente, chì hè ancu, per definizione, impussibile in u paradigma ES.

Allora, perchè ùn li combina micca?

Hè prubabile chì a maiò parte di questu articulu puderia lascià l'impressione chì sò favurendu i metudi RL. In ogni casu, veramente pensu chì à longu andà a megliu suluzione hè di cunghjuntà i dui metudi, per chì ognunu hè utilizatu in e situazioni in quale hè megliu adattatu. Ovviamente, in u casu di parechje pulitiche reattive o in situazione cù signali assai sparse di rinfurzamentu pusitivu, l'ES vince, soprattuttu s'è vo avete u putere di computing à a vostra dispusizione nantu à quale pudete eseguisce una furmazione massivamente parallela. Per d 'altra banda, i metudi di gradiente chì utilizanu l'apprendimentu di rinforzu o l'apprendimentu supervisatu seranu utili quandu avemu accessu à un feedback estensivu è bisognu di amparà à risolve un prublema rapidamente è cù menu dati.

Turnendu à a natura, truvamu chì u primu metudu, in essenza, pone a fundazione per u sicondu. Hè per quessa, in u cursu di l'evoluzione, i mammiferi anu sviluppatu cervelli chì li permettenu di amparà in modu estremamente efficace da i signali cumplessi chì venenu da l'ambiente. Dunque, a quistione resta aperta. Forse e strategie evolutive ci aiutanu à inventà architetture d'apprendimentu efficaci chì saranu ancu utili per i metudi di apprendimentu gradiente. Dopu tuttu, a suluzione truvata da a natura hè veramente assai successu.

Source: www.habr.com

Apprendimentu di rinforzu o strategie evolutive? - Tutti dui