🥇Aprenentatge de reforç o estratègies evolutives? — Tots dos

Hola Habr!

Sovint no ens decidim a penjar aquí traduccions de textos de dos anys, sense codi i clarament de caràcter acadèmic, però avui farem una excepció. Esperem que el dilema plantejat en el títol de l'article preocupi a molts dels nostres lectors, i ja heu llegit el treball fonamental sobre estratègies evolutives amb què argumenta aquest post a l'original o el llegireu ara. Benvingut al gat!

El març de 2017, OpenAI va fer onades a la comunitat d'aprenentatge profund amb el document "Estratègies d'evolució com a alternativa escalable a l'aprenentatge per reforç" Aquest treball va descriure resultats impressionants a favor del fet que l'aprenentatge per reforç (RL) no s'ha convertit en una falca, i quan s'entrenen xarxes neuronals complexes, s'aconsella provar altres mètodes. Aleshores va esclatar un debat sobre la importància de l'aprenentatge per reforç i com es mereixia el seu estatus de tecnologia "imprescindible" per ensenyar a resoldre problemes. Aquí vull dir que aquestes dues tecnologies no s'han de considerar com a competidores, una de les quals és clarament millor que l'altra; al contrari, finalment es complementen. De fet, si penseu una mica en què cal crear IA general i sistemes d'aquest tipus, que al llarg de la seva existència serien capaços d'aprendre, judiciar i planificar, aleshores gairebé segur arribarem a la conclusió que caldrà aquesta o aquella solució combinada. Per cert, va ser precisament aquesta solució combinada a la qual va arribar la natura, que va dotar els mamífers i altres animals superiors d'una intel·ligència complexa durant el curs de l'evolució.

Estratègies evolutives

La tesi principal del document d'OpenAI va ser que, en lloc d'utilitzar l'aprenentatge de reforç combinat amb la retropropagació tradicional, van entrenar amb èxit una xarxa neuronal per resoldre problemes complexos utilitzant el que van anomenar una "estratègia evolutiva" (ES). Aquest enfocament ES consisteix a mantenir una distribució de pesos a tota la xarxa, implicant múltiples agents treballant en paral·lel i utilitzant paràmetres seleccionats d'aquesta distribució. Cada agent opera en el seu propi entorn i, en completar un nombre determinat d'episodis o etapes d'un episodi, l'algoritme retorna una recompensa acumulada, expressada com a puntuació de condició física. Tenint en compte aquest valor, la distribució dels paràmetres es pot desplaçar cap a agents més reeixits, privant els de menys èxit. Amb la repetició d'una operació d'aquest tipus milions de vegades amb la participació de centenars d'agents, és possible traslladar la distribució de pesos a un espai que permeti als agents formular una política de qualitat per resoldre la tasca que se'ls ha encomanat. De fet, els resultats que es presenten a l'article són impressionants: es demostra que si feu funcionar mil agents en paral·lel, la locomoció antropomòrfica a dues cames es pot aprendre en menys de mitja hora (mentre que fins i tot els mètodes de RL més avançats requereixen gastar més més d'una hora). Per obtenir informació més detallada, recomano llegir l'excel·lent publicar dels autors de l'experiment, així com article científic.

Diferents estratègies per a l'ensenyament de la marxa erguida antropomòrfica, estudiades mitjançant el mètode ES d'OpenAI.

Caixa negra

El gran avantatge d'aquest mètode és que es pot paral·lelitzar fàcilment. Tot i que els mètodes RL, com A3C, requereixen que s'intercanviï informació entre fils de treball i un servidor de paràmetres, ES només necessita estimacions d'aptitud i informació generalitzada de distribució de paràmetres. És a causa d'aquesta simplicitat que aquest mètode està molt per davant dels mètodes RL moderns en termes de capacitats d'escalat. Tanmateix, tot això no és en va: cal optimitzar la xarxa segons el principi de la caixa negra. En aquest cas, la "caixa negra" significa que durant l'entrenament s'ignora completament l'estructura interna de la xarxa i només s'utilitza el resultat global (recompensa per l'episodi) i depèn d'això si els pesos d'una xarxa en particular ser heretat per les generacions posteriors. En situacions en què no rebem gaire feedback de l'entorn —i en molts problemes tradicionals de RL el flux de recompenses és molt escàs—, el problema passa de ser una "caixa parcialment negra" a una "caixa completament negra". En aquest cas, podeu augmentar significativament la productivitat, de manera que, per descomptat, aquest compromís està justificat. "Qui necessita gradients si de totes maneres són irremediablement sorollosos?" - aquesta és l'opinió general.

Tanmateix, en situacions en què el feedback és més actiu, les coses comencen a anar malament per a l'ES. L'equip d'OpenAI descriu com es va entrenar una xarxa de classificació MNIST senzilla mitjançant ES, i aquesta vegada l'entrenament va ser 1000 vegades més lent. El fet és que el senyal de gradient en la classificació d'imatges és extremadament informatiu sobre com ensenyar una millor classificació de la xarxa. Així, el problema és menor amb la tècnica RL i més amb recompenses escasses en entorns que produeixen gradients sorollosos.

La solució de la natura

Si intentem aprendre de l'exemple de la natura, pensant en maneres de desenvolupar la IA, en alguns casos la IA es pot considerar com enfocament orientat a problemes. Després de tot, la natura opera dins de limitacions que els informàtics simplement no tenen. Hi ha l'opinió que un enfocament purament teòric per resoldre un problema particular pot proporcionar solucions més efectives que les alternatives empíriques. Tanmateix, encara crec que valdria la pena provar com un sistema dinàmic que funciona sota determinades limitacions (la Terra) ha generat agents (animals, especialment mamífers) capaços de tenir un comportament flexible i complex. Tot i que algunes d'aquestes limitacions no s'apliquen als mons de la ciència de dades simulades, d'altres estan bé.

Després d'haver examinat el comportament intel·lectual dels mamífers, veiem que es forma com a resultat de la complexa influència mútua de dos processos estretament relacionats: aprendre de les experiències dels altres и aprendre fent. El primer s'equipara sovint amb l'evolució impulsada per la selecció natural, però aquí faig servir un terme més ampli per tenir en compte l'epigenètica, els microbiomes i altres mecanismes que permeten compartir experiències entre organismes genèticament no relacionats. El segon procés, l'aprenentatge de l'experiència, és tota la informació que un animal aconsegueix aprendre al llarg de la seva vida, i aquesta informació ve determinada directament per la interacció d'aquest animal amb el món exterior. Aquesta categoria inclou des d'aprendre a reconèixer objectes fins a dominar la comunicació inherent al procés d'aprenentatge.

A grans trets, aquests dos processos que ocorren a la natura es poden comparar amb dues opcions per optimitzar les xarxes neuronals. Les estratègies evolutives, on la informació sobre gradients s'utilitza per actualitzar la informació sobre l'organisme, s'acosten a l'aprenentatge de l'experiència dels altres. De la mateixa manera, els mètodes de gradient, on l'obtenció d'una o altra experiència condueix a un o altre canvi en el comportament de l'agent, són comparables a l'aprenentatge de la pròpia experiència. Si pensem en els tipus de comportament o habilitats intel·ligents que cada un d'aquests dos enfocaments desenvolupa en els animals, la comparació es fa més pronunciada. En ambdós casos, els “mètodes evolutius” promouen l'estudi de comportaments reactius que permeten desenvolupar una determinada condició física (suficient per mantenir-se amb vida). Aprendre a caminar o escapar de la captivitat és en molts casos equivalent a comportaments més "instintius" que estan "configurats" en molts animals a nivell genètic. A més, aquest exemple confirma que els mètodes evolutius són aplicables en els casos en què el senyal de recompensa és extremadament rar (per exemple, el fet de criar amb èxit un nadó). En aquest cas, és impossible correlacionar la recompensa amb qualsevol conjunt concret d'accions que s'hagin pogut realitzar molts anys abans de l'ocurrència d'aquest fet. D'altra banda, si tenim en compte un cas en què l'ES falla, és a dir, la classificació d'imatges, els resultats són notablement comparables als resultats de l'aprenentatge animal assolit en innombrables experiments psicològics de comportament realitzats durant més de 100 anys.

Aprenent dels animals

Els mètodes utilitzats en l'aprenentatge per reforç són en molts casos extrets directament de la literatura psicològica condicionament operant, i el condicionament operant es va estudiar mitjançant la psicologia animal. Per cert, Richard Sutton, un dels dos fundadors de l'aprenentatge per reforç, té una llicenciatura en psicologia. En el context del condicionament operant, els animals aprenen a associar la recompensa o el càstig amb patrons de comportament específics. Els entrenadors i els investigadors poden manipular aquesta associació de recompensa d'una manera o altra, provocant que els animals demostrin intel·ligència o determinats comportaments. Tanmateix, el condicionament operant, tal com s'utilitza en la investigació animal, no és més que una forma més pronunciada del mateix condicionament sobre la base del qual els animals aprenen al llarg de la seva vida. Rebem constantment senyals de reforç positiu de l'entorn i ajustem el nostre comportament en conseqüència. De fet, molts neurocientífics i científics cognitius creuen que els humans i altres animals realment operen a un nivell encara més alt i aprenen contínuament a predir el resultat del seu comportament en situacions futures basant-se en possibles recompenses.

El paper central de la predicció en l'aprenentatge de l'experiència canvia la dinàmica descrita anteriorment de manera significativa. El senyal que abans es considerava molt escàs (recompensa episòdica) resulta molt dens. Teòricament, la situació és una cosa així: en un moment donat, el cervell del mamífer està calculant resultats basant-se en un flux complex d'estímuls i accions sensorials, mentre que l'animal està simplement immers en aquest corrent. En aquest cas, el comportament final de l'animal dóna un senyal fort que ha de servir per guiar l'ajust de les previsions i el desenvolupament del comportament. El cervell utilitza tots aquests senyals per optimitzar les previsions (i, en conseqüència, la qualitat de les accions realitzades) en el futur. Una visió general d'aquest enfocament es dóna a l'excel·lent llibre "La incertesa del surf” el científic cognitiu i filòsof Andy Clark. Si extrapolem aquest raonament a l'entrenament d'agents artificials, aleshores es revela un defecte fonamental en l'aprenentatge per reforç: el senyal utilitzat en aquest paradigma és irremediablement feble en comparació amb el que podria ser (o hauria de ser). En els casos en què és impossible augmentar la saturació del senyal (potser perquè és inherentment feble o associada a una reactivitat de baix nivell), probablement sigui millor preferir un mètode d'entrenament que estigui ben paral·lelitzat, per exemple, ES.

Entrenament més ric de les xarxes neuronals

A partir dels principis d'activitat neuronal superior inherents al cervell dels mamífers, que està constantment ocupat fent prediccions, s'han fet avenços recents en l'aprenentatge de reforç, que ara té en compte la importància d'aquestes prediccions. De seguida us puc recomanar dues obres semblants:

En ambdós articles, els autors complementen la política predeterminada típica de les seves xarxes neuronals amb resultats de predicció sobre l'estat del medi ambient en el futur. En el primer article, la previsió s'aplica a una varietat de variables de mesura, i en el segon, la previsió s'aplica als canvis en l'entorn i al comportament de l'agent com a tal. En ambdós casos, el senyal escàs associat al reforç positiu es fa molt més ric i informatiu, permetent tant un aprenentatge més ràpid com l'adquisició de comportaments més complexos. Aquestes millores només estan disponibles amb mètodes que utilitzen un senyal de gradient, i no amb mètodes que funcionen amb un principi de "caixa negra", com ara ES.

A més, l'aprenentatge de l'experiència i els mètodes de gradient són molt més efectius. Fins i tot en els casos en què va ser possible estudiar un problema particular mitjançant el mètode ES més ràpid que amb l'aprenentatge de reforç, el guany es va aconseguir a causa del fet que l'estratègia ES implicava moltes vegades més dades que amb RL. Reflexionant en aquest cas sobre els principis de l'aprenentatge en els animals, observem que el resultat de l'aprenentatge de l'exemple d'una altra persona es manifesta després de moltes generacions, mentre que de vegades n'hi ha prou amb un únic esdeveniment experimentat per si mateix perquè l'animal aprengui la lliçó per sempre. Mentre agrada formació sense exemples Tot i que no encaixa del tot en els mètodes de gradient tradicionals, és molt més intel·ligible que ES. Hi ha, per exemple, enfocaments com control episòdic neural, on els valors Q s'emmagatzemen durant l'entrenament, després del qual el programa els verifica abans de prendre accions. El resultat és un mètode de gradient que permet aprendre a resoldre problemes molt més ràpidament que abans. En un article sobre control episòdic neuronal, els autors esmenten l'hipocamp humà, que és capaç de retenir informació sobre un esdeveniment fins i tot després d'una única experiència i, per tant, juga. paper crític en el procés de recordar. Aquests mecanismes requereixen l'accés a l'organització interna de l'agent, cosa que també és, per definició, impossible en el paradigma ES.

Aleshores, per què no combinar-los?

És probable que gran part d'aquest article deixi la impressió que estic defensant els mètodes RL. No obstant això, de fet crec que a la llarga la millor solució és combinar ambdós mètodes, de manera que cada un s'utilitzi en les situacions en què més li convingui. Òbviament, en el cas de moltes polítiques reactives o en situacions amb senyals de reforç positiu molt escassos, l'ES guanya, sobretot si tens la potència de càlcul a la teva disposició sobre la qual pots executar un entrenament massivament paral·lel. D'altra banda, els mètodes de gradient que utilitzen l'aprenentatge de reforç o l'aprenentatge supervisat ens seran útils quan tinguem accés a un feedback ampli i necessitem aprendre a resoldre un problema ràpidament i amb menys dades.

Pel que fa a la natura, trobem que el primer mètode, en essència, posa les bases del segon. És per això que, al llarg de l'evolució, els mamífers han desenvolupat cervells que els permeten aprendre de manera extremadament eficaç a partir de senyals complexos procedents de l'entorn. Per tant, la pregunta continua oberta. Potser les estratègies evolutives ens ajudaran a inventar arquitectures d'aprenentatge efectives que també seran útils per als mètodes d'aprenentatge en gradient. Al cap i a la fi, la solució trobada per la natura té molt èxit.

Font: www.habr.com

Aprenentatge de reforç o estratègies evolutives? - Tots dos