Aprendizaxe por reforzo ou estratexias evolutivas? - Ambos

Ola Habr!

Non adoitamos decidir publicar aquí traducións de textos que tiñan dous anos de antigüidade, sen código e claramente de carácter académico, pero hoxe faremos unha excepción. Agardamos que a disxuntiva que se expón no título do artigo preocupe a moitos dos nosos lectores, e xa lides o traballo fundamental sobre estratexias evolutivas co que argumenta esta entrada no orixinal ou o leredes agora. Benvido ao gato!

Aprendizaxe por reforzo ou estratexias evolutivas? - Ambos

En marzo de 2017, OpenAI fixo ondas na comunidade de aprendizaxe profunda co artigo "Estratexias de evolución como alternativa escalable á aprendizaxe por reforzo" Este traballo describiu resultados impresionantes a favor de que a aprendizaxe por reforzo (RL) non se converteu nunha cuña, e cando se adestran redes neuronais complexas, é recomendable probar outros métodos. A continuación, estalou un debate sobre a importancia da aprendizaxe por reforzo e como merece a súa condición de tecnoloxía "imprescindible" para ensinar a resolución de problemas. Aquí quero dicir que estas dúas tecnoloxías non deben considerarse como competidoras, unha das cales é claramente mellor que a outra; pola contra, finalmente se complementan. De feito, se pensas un pouco sobre o que fai falta para crear AI xeral e tales sistemas, que ao longo da súa existencia serían capaces de aprender, xulgar e planificar, entón chegaremos case con toda seguridade á conclusión de que tal ou aquela solución combinada será necesaria. Por certo, foi precisamente esta solución combinada á que chegou a natureza, que dotou aos mamíferos e outros animais superiores dunha intelixencia complexa durante o curso da evolución.

Estratexias evolutivas

A tese principal do traballo de OpenAI foi que, en lugar de usar a aprendizaxe por reforzo combinada coa retropropagación tradicional, adestraron con éxito unha rede neuronal para resolver problemas complexos usando o que chamaron unha "estratexia evolutiva" (ES). Este enfoque ES consiste en manter unha distribución de pesos en toda a rede, implicando a múltiples axentes traballando en paralelo e utilizando parámetros seleccionados desta distribución. Cada axente opera no seu propio entorno e, tras completar un número especificado de episodios ou etapas dun episodio, o algoritmo devolve unha recompensa acumulada, expresada como unha puntuación de aptitude física. Tendo en conta este valor, a distribución dos parámetros pódese desprazar cara aos axentes máis exitosos, privando aos menos exitosos. Ao repetir millóns de veces tal operación coa participación de centos de axentes, é posible trasladar a distribución de pesos a un espazo que permita aos axentes formular unha política de calidade para resolver a tarefa que se lles encomenda. De feito, os resultados presentados no artigo son impresionantes: demóstrase que se executas mil axentes en paralelo, a locomoción antropomórfica en dúas patas pódese aprender en menos de media hora (mentres que ata os métodos RL máis avanzados requiren gastar máis máis dunha hora sobre isto). Para obter información máis detallada, recomendo ler o excelente publicación dos autores do experimento, así como artigo científico.

Aprendizaxe por reforzo ou estratexias evolutivas? - Ambos

Diferentes estratexias para o ensino da marcha erguida antropomórfica, estudadas mediante o método ES de OpenAI.

Caixa negra

O gran beneficio deste método é que se pode paralelizar facilmente. Aínda que os métodos RL, como A3C, requiren que se intercambie información entre fíos de traballo e un servidor de parámetros, ES só necesita estimacións de aptitude e información de distribución de parámetros xeneralizada. É debido a esta sinxeleza que este método está moi por diante dos métodos RL modernos en termos de capacidades de escalado. Non obstante, todo isto non é en balde: hai que optimizar a rede segundo o principio da caixa negra. Neste caso, a "caixa negra" significa que durante o adestramento se ignora por completo a estrutura interna da rede e só se usa o resultado global (recompensa polo episodio) e depende del se os pesos dunha determinada rede. ser herdado polas xeracións posteriores. Nas situacións nas que non recibimos moito feedback do entorno -e en moitos problemas tradicionais de RL o fluxo de recompensas é moi escaso- o problema pasa de ser unha "caixa negra parcialmente" a unha "caixa completamente negra". Neste caso, pode aumentar significativamente a produtividade, polo que, por suposto, este compromiso está xustificado. "Quen necesita gradientes se son irremediablemente ruidosos de todos os xeitos?" - Esta é a opinión xeral.

Non obstante, nas situacións nas que o feedback é máis activo, as cousas comezan a ir mal para o ES. O equipo de OpenAI describe como se adestrou unha rede de clasificación MNIST sinxela usando ES, e esta vez o adestramento foi 1000 veces máis lento. O feito é que o sinal de gradiente na clasificación de imaxes é extremadamente informativo sobre como ensinar unha mellor clasificación da rede. Así, o problema é menor coa técnica RL e máis con recompensas escasas en ambientes que producen gradientes ruidosos.

A solución da natureza

Se tentamos aprender do exemplo da natureza, pensando en formas de desenvolver a IA, nalgúns casos a IA pódese considerar como enfoque orientado a problemas. Despois de todo, a natureza opera dentro de limitacións que os informáticos simplemente non teñen. Existe a opinión de que un enfoque puramente teórico para resolver un problema particular pode proporcionar solucións máis eficaces que as alternativas empíricas. Porén, sigo pensando que pagaría a pena probar como un sistema dinámico que funciona baixo certas restricións (a Terra) xerou axentes (animais, especialmente mamíferos) capaces de comportarse flexibles e complexos. Aínda que algunhas destas restricións non se aplican nos mundos da ciencia de datos simulados, outras están ben.

Despois de examinar o comportamento intelectual dos mamíferos, vemos que se forma como resultado da complexa influencia mutua de dous procesos estreitamente relacionados: aprendendo das experiencias dos demais и aprender facendo. O primeiro adoita equipararse á evolución impulsada pola selección natural, pero aquí uso un termo máis amplo para ter en conta a epixenética, os microbiomas e outros mecanismos que permiten compartir experiencias entre organismos xeneticamente non relacionados. O segundo proceso, a aprendizaxe da experiencia, é toda a información que un animal consegue aprender ao longo da súa vida, e esta información vén determinada directamente pola interacción deste animal co mundo exterior. Esta categoría inclúe desde aprender a recoñecer obxectos ata dominar a comunicación inherente ao proceso de aprendizaxe.

A grandes liñas, estes dous procesos que ocorren na natureza pódense comparar con dúas opcións para optimizar as redes neuronais. As estratexias evolutivas, onde a información sobre os gradientes se utiliza para actualizar a información sobre o organismo, achéganse a aprender da experiencia dos demais. Do mesmo xeito, os métodos de gradiente, onde a obtención dunha ou outra experiencia leva a un ou outro cambio no comportamento do axente, son comparables á aprendizaxe da propia experiencia. Se pensamos nos tipos de comportamento ou habilidades intelixentes que cada un destes dous enfoques desenvolve nos animais, a comparación faise máis pronunciada. En ambos os casos, os “métodos evolutivos” promoven o estudo de condutas reactivas que permiten desenvolver unha determinada condición física (suficiente para manterse con vida). Aprender a camiñar ou escapar do cativerio é en moitos casos equivalente a comportamentos máis "instintivos" que están "fixados" en moitos animais a nivel xenético. Ademais, este exemplo confirma que os métodos evolutivos son aplicables nos casos nos que o sinal de recompensa é extremadamente raro (por exemplo, o feito de criar con éxito un bebé). En tal caso, é imposible correlacionar a recompensa con algún conxunto específico de accións que se puidesen realizar moitos anos antes de que se producise este feito. Por outra banda, se temos en conta un caso no que a ES falla, é dicir, a clasificación de imaxes, os resultados son notablemente comparables aos resultados da aprendizaxe dos animais acadados en innumerables experimentos psicolóxicos condutuais realizados durante máis de 100 anos.

Aprendendo dos animais

Os métodos empregados na aprendizaxe por reforzo son en moitos casos tomados directamente da literatura psicolóxica condicionamento operante, e estudouse o condicionamento operante mediante a psicoloxía animal. Por certo, Richard Sutton, un dos dous fundadores da aprendizaxe por reforzo, ten unha licenciatura en psicoloxía. No contexto do condicionamento operante, os animais aprenden a asociar a recompensa ou o castigo con patróns de comportamento específicos. Os adestradores e os investigadores poden manipular esta asociación de recompensas dun xeito ou doutro, provocando que os animais demostren intelixencia ou certos comportamentos. Non obstante, o condicionamento operante, tal e como se usa na investigación con animais, non é máis que unha forma máis pronunciada do mesmo condicionamento sobre a base do cal os animais aprenden ao longo da súa vida. Recibimos constantemente sinais de reforzo positivo do medio ambiente e axustamos o noso comportamento en consecuencia. De feito, moitos neurocientíficos e científicos cognitivos cren que os humanos e outros animais realmente operan a un nivel aínda máis elevado e aprenden continuamente a predecir o resultado do seu comportamento en situacións futuras en función de posibles recompensas.

O papel central da predición na aprendizaxe da experiencia cambia a dinámica descrita anteriormente de forma significativa. O sinal que antes se consideraba moi escaso (recompensa episódica) resulta moi denso. Teoricamente, a situación é algo así: nun momento dado, o cerebro do mamífero está a calcular os resultados baseándose nun complexo fluxo de estímulos e accións sensoriais, mentres que o animal simplemente está inmerso nesta corrente. Neste caso, o comportamento final do animal dá un sinal forte que debe ser utilizado para guiar o axuste das previsións e o desenvolvemento do comportamento. O cerebro utiliza todos estes sinais para optimizar as previsións (e, en consecuencia, a calidade das accións realizadas) no futuro. Unha visión xeral deste enfoque dáse no excelente libro "Surfing Incertidumbre” o científico cognitivo e filósofo Andy Clark. Se extrapolamos tal razoamento ao adestramento de axentes artificiais, entón revélase un fallo fundamental na aprendizaxe por reforzo: o sinal empregado neste paradigma é irremediablemente débil en comparación co que podería ser (ou debería ser). Nos casos nos que é imposible aumentar a saturación do sinal (quizais porque é inherentemente débil ou asociada a reactividade de baixo nivel), probablemente sexa mellor preferir un método de adestramento que estea ben paralelizado, por exemplo, ES.

Formación máis rica das redes neuronais

Partindo dos principios de maior actividade neuronal inherentes ao cerebro dos mamíferos, que está constantemente ocupado facendo predicións, os últimos avances realizáronse na aprendizaxe por reforzo, que agora ten en conta a importancia de tales predicións. Podo recomendarche inmediatamente dous traballos similares:

Nestes dous artigos, os autores complementan a política predeterminada típica das súas redes neuronais con resultados de predición sobre o estado do medio ambiente no futuro. No primeiro artigo, a previsión aplícase a unha variedade de variables de medida, e no segundo, a previsión aplícase aos cambios no ambiente e no comportamento do axente como tal. En ambos os casos, o sinal escaso asociado ao reforzo positivo faise moito máis rico e informativo, o que permite tanto unha aprendizaxe máis rápida como a adquisición de comportamentos máis complexos. Tales melloras só están dispoñibles con métodos que usan un sinal de gradiente, e non con métodos que funcionan cun principio de "caixa negra", como ES.

Ademais, aprender coa experiencia e os métodos de gradiente son moito máis efectivos. Mesmo nos casos nos que foi posible estudar un problema particular usando o método ES máis rápido que usando a aprendizaxe por reforzo, a ganancia conseguiuse debido ao feito de que a estratexia de ES implicaba moitas veces máis datos que con RL. Reflexionando neste caso sobre os principios da aprendizaxe nos animais, observamos que o resultado da aprendizaxe do exemplo alleo maniféstase despois de moitas xeracións, mentres que ás veces un único acontecemento experimentado por si mesmo é suficiente para que o animal aprenda a lección para sempre. Mentres como formación sen exemplos Aínda que non encaixa nos métodos tradicionais de gradiente, é moito máis intelixible que ES. Hai, por exemplo, enfoques como control episódico neural, onde os valores Q se almacenan durante o adestramento, despois de que o programa comproba antes de tomar accións. O resultado é un método de gradiente que permite aprender a resolver problemas moito máis rápido que antes. Nun artigo sobre o control episódico neural, os autores mencionan o hipocampo humano, que é capaz de reter información sobre un evento mesmo despois dunha única experiencia e, polo tanto, xoga. papel crítico no proceso de lembranza. Estes mecanismos requiren o acceso á organización interna do axente, o que tamén é, por definición, imposible no paradigma ES.

Entón, por que non combinalos?

É probable que gran parte deste artigo deixe a impresión de que estou a defender os métodos RL. Non obstante, en realidade penso que a longo prazo a mellor solución é combinar ambos os métodos, para que cada un se utilice nas situacións nas que máis lle conveña. Obviamente, no caso de moitas políticas reactivas ou en situacións con sinais moi escasos de reforzo positivo, o ES gaña, sobre todo se tes a túa disposición a potencia de cómputo sobre a que podes realizar un adestramento masivamente paralelo. Por outra banda, os métodos de gradiente que utilizan a aprendizaxe por reforzo ou a aprendizaxe supervisada serán útiles cando teñamos acceso a unha ampla retroalimentación e necesitemos aprender a resolver un problema de forma rápida e con menos datos.

Volvendo á natureza, descubrimos que o primeiro método, en esencia, senta as bases para o segundo. É por iso que, ao longo da evolución, os mamíferos desenvolveron cerebros que lles permiten aprender de forma extremadamente efectiva a partir de sinais complexos procedentes do medio. Entón, a pregunta segue aberta. Quizais as estratexias evolutivas axuden a inventar arquitecturas de aprendizaxe eficaces que tamén sexan útiles para os métodos de aprendizaxe en gradiente. Despois de todo, a solución atopada pola natureza ten moito éxito.

Fonte: www.habr.com

Engadir un comentario