Hola Habr!
Sovint no ens decidim a penjar aquí traduccions de textos de dos anys, sense codi i clarament de caràcter acadèmic, però avui farem una excepció. Esperem que el dilema plantejat en el títol de l'article preocupi a molts dels nostres lectors, i ja heu llegit el treball fonamental sobre estratègies evolutives amb què argumenta aquest post a l'original o el llegireu ara. Benvingut al gat!
El març de 2017, OpenAI va fer onades a la comunitat d'aprenentatge profund amb el document "
Estratègies evolutives
La tesi principal del document d'OpenAI va ser que, en lloc d'utilitzar l'aprenentatge de reforç combinat amb la retropropagació tradicional, van entrenar amb èxit una xarxa neuronal per resoldre problemes complexos utilitzant el que van anomenar una "estratègia evolutiva" (ES). Aquest enfocament ES consisteix a mantenir una distribució de pesos a tota la xarxa, implicant múltiples agents treballant en paral·lel i utilitzant paràmetres seleccionats d'aquesta distribució. Cada agent opera en el seu propi entorn i, en completar un nombre determinat d'episodis o etapes d'un episodi, l'algoritme retorna una recompensa acumulada, expressada com a puntuació de condició física. Tenint en compte aquest valor, la distribució dels paràmetres es pot desplaçar cap a agents més reeixits, privant els de menys èxit. Amb la repetició d'una operació d'aquest tipus milions de vegades amb la participació de centenars d'agents, és possible traslladar la distribució de pesos a un espai que permeti als agents formular una política de qualitat per resoldre la tasca que se'ls ha encomanat. De fet, els resultats que es presenten a l'article són impressionants: es demostra que si feu funcionar mil agents en paral·lel, la locomoció antropomòrfica a dues cames es pot aprendre en menys de mitja hora (mentre que fins i tot els mètodes de RL més avançats requereixen gastar més més d'una hora). Per obtenir informació més detallada, recomano llegir l'excel·lent
Diferents estratègies per a l'ensenyament de la marxa erguida antropomòrfica, estudiades mitjançant el mètode ES d'OpenAI.
Caixa negra
El gran avantatge d'aquest mètode és que es pot paral·lelitzar fàcilment. Tot i que els mètodes RL, com A3C, requereixen que s'intercanviï informació entre fils de treball i un servidor de paràmetres, ES només necessita estimacions d'aptitud i informació generalitzada de distribució de paràmetres. És a causa d'aquesta simplicitat que aquest mètode està molt per davant dels mètodes RL moderns en termes de capacitats d'escalat. Tanmateix, tot això no és en va: cal optimitzar la xarxa segons el principi de la caixa negra. En aquest cas, la "caixa negra" significa que durant l'entrenament s'ignora completament l'estructura interna de la xarxa i només s'utilitza el resultat global (recompensa per l'episodi) i depèn d'això si els pesos d'una xarxa en particular ser heretat per les generacions posteriors. En situacions en què no rebem gaire feedback de l'entorn —i en molts problemes tradicionals de RL el flux de recompenses és molt escàs—, el problema passa de ser una "caixa parcialment negra" a una "caixa completament negra". En aquest cas, podeu augmentar significativament la productivitat, de manera que, per descomptat, aquest compromís està justificat. "Qui necessita gradients si de totes maneres són irremediablement sorollosos?" - aquesta és l'opinió general.
Tanmateix, en situacions en què el feedback és més actiu, les coses comencen a anar malament per a l'ES. L'equip d'OpenAI descriu com es va entrenar una xarxa de classificació MNIST senzilla mitjançant ES, i aquesta vegada l'entrenament va ser 1000 vegades més lent. El fet és que el senyal de gradient en la classificació d'imatges és extremadament informatiu sobre com ensenyar una millor classificació de la xarxa. Així, el problema és menor amb la tècnica RL i més amb recompenses escasses en entorns que produeixen gradients sorollosos.
La solució de la natura
Si intentem aprendre de l'exemple de la natura, pensant en maneres de desenvolupar la IA, en alguns casos la IA es pot considerar com
Després d'haver examinat el comportament intel·lectual dels mamífers, veiem que es forma com a resultat de la complexa influència mútua de dos processos estretament relacionats: aprendre de les experiències dels altres и aprendre fent. El primer s'equipara sovint amb l'evolució impulsada per la selecció natural, però aquí faig servir un terme més ampli per tenir en compte l'epigenètica, els microbiomes i altres mecanismes que permeten compartir experiències entre organismes genèticament no relacionats. El segon procés, l'aprenentatge de l'experiència, és tota la informació que un animal aconsegueix aprendre al llarg de la seva vida, i aquesta informació ve determinada directament per la interacció d'aquest animal amb el món exterior. Aquesta categoria inclou des d'aprendre a reconèixer objectes fins a dominar la comunicació inherent al procés d'aprenentatge.
A grans trets, aquests dos processos que ocorren a la natura es poden comparar amb dues opcions per optimitzar les xarxes neuronals. Les estratègies evolutives, on la informació sobre gradients s'utilitza per actualitzar la informació sobre l'organisme, s'acosten a l'aprenentatge de l'experiència dels altres. De la mateixa manera, els mètodes de gradient, on l'obtenció d'una o altra experiència condueix a un o altre canvi en el comportament de l'agent, són comparables a l'aprenentatge de la pròpia experiència. Si pensem en els tipus de comportament o habilitats intel·ligents que cada un d'aquests dos enfocaments desenvolupa en els animals, la comparació es fa més pronunciada. En ambdós casos, els “mètodes evolutius” promouen l'estudi de comportaments reactius que permeten desenvolupar una determinada condició física (suficient per mantenir-se amb vida). Aprendre a caminar o escapar de la captivitat és en molts casos equivalent a comportaments més "instintius" que estan "configurats" en molts animals a nivell genètic. A més, aquest exemple confirma que els mètodes evolutius són aplicables en els casos en què el senyal de recompensa és extremadament rar (per exemple, el fet de criar amb èxit un nadó). En aquest cas, és impossible correlacionar la recompensa amb qualsevol conjunt concret d'accions que s'hagin pogut realitzar molts anys abans de l'ocurrència d'aquest fet. D'altra banda, si tenim en compte un cas en què l'ES falla, és a dir, la classificació d'imatges, els resultats són notablement comparables als resultats de l'aprenentatge animal assolit en innombrables experiments psicològics de comportament realitzats durant més de 100 anys.
Aprenent dels animals
Els mètodes utilitzats en l'aprenentatge per reforç són en molts casos extrets directament de la literatura psicològica
El paper central de la predicció en l'aprenentatge de l'experiència canvia la dinàmica descrita anteriorment de manera significativa. El senyal que abans es considerava molt escàs (recompensa episòdica) resulta molt dens. Teòricament, la situació és una cosa així: en un moment donat, el cervell del mamífer està calculant resultats basant-se en un flux complex d'estímuls i accions sensorials, mentre que l'animal està simplement immers en aquest corrent. En aquest cas, el comportament final de l'animal dóna un senyal fort que ha de servir per guiar l'ajust de les previsions i el desenvolupament del comportament. El cervell utilitza tots aquests senyals per optimitzar les previsions (i, en conseqüència, la qualitat de les accions realitzades) en el futur. Una visió general d'aquest enfocament es dóna a l'excel·lent llibre "
Entrenament més ric de les xarxes neuronals
A partir dels principis d'activitat neuronal superior inherents al cervell dels mamífers, que està constantment ocupat fent prediccions, s'han fet avenços recents en l'aprenentatge de reforç, que ara té en compte la importància d'aquestes prediccions. De seguida us puc recomanar dues obres semblants:
En ambdós articles, els autors complementen la política predeterminada típica de les seves xarxes neuronals amb resultats de predicció sobre l'estat del medi ambient en el futur. En el primer article, la previsió s'aplica a una varietat de variables de mesura, i en el segon, la previsió s'aplica als canvis en l'entorn i al comportament de l'agent com a tal. En ambdós casos, el senyal escàs associat al reforç positiu es fa molt més ric i informatiu, permetent tant un aprenentatge més ràpid com l'adquisició de comportaments més complexos. Aquestes millores només estan disponibles amb mètodes que utilitzen un senyal de gradient, i no amb mètodes que funcionen amb un principi de "caixa negra", com ara ES.
A més, l'aprenentatge de l'experiència i els mètodes de gradient són molt més efectius. Fins i tot en els casos en què va ser possible estudiar un problema particular mitjançant el mètode ES més ràpid que amb l'aprenentatge de reforç, el guany es va aconseguir a causa del fet que l'estratègia ES implicava moltes vegades més dades que amb RL. Reflexionant en aquest cas sobre els principis de l'aprenentatge en els animals, observem que el resultat de l'aprenentatge de l'exemple d'una altra persona es manifesta després de moltes generacions, mentre que de vegades n'hi ha prou amb un únic esdeveniment experimentat per si mateix perquè l'animal aprengui la lliçó per sempre. Mentre agrada
Aleshores, per què no combinar-los?
És probable que gran part d'aquest article deixi la impressió que estic defensant els mètodes RL. No obstant això, de fet crec que a la llarga la millor solució és combinar ambdós mètodes, de manera que cada un s'utilitzi en les situacions en què més li convingui. Òbviament, en el cas de moltes polítiques reactives o en situacions amb senyals de reforç positiu molt escassos, l'ES guanya, sobretot si tens la potència de càlcul a la teva disposició sobre la qual pots executar un entrenament massivament paral·lel. D'altra banda, els mètodes de gradient que utilitzen l'aprenentatge de reforç o l'aprenentatge supervisat ens seran útils quan tinguem accés a un feedback ampli i necessitem aprendre a resoldre un problema ràpidament i amb menys dades.
Pel que fa a la natura, trobem que el primer mètode, en essència, posa les bases del segon. És per això que, al llarg de l'evolució, els mamífers han desenvolupat cervells que els permeten aprendre de manera extremadament eficaç a partir de senyals complexos procedents de l'entorn. Per tant, la pregunta continua oberta. Potser les estratègies evolutives ens ajudaran a inventar arquitectures d'aprenentatge efectives que també seran útils per als mètodes d'aprenentatge en gradient. Al cap i a la fi, la solució trobada per la natura té molt èxit.
Font: www.habr.com