¿Aprendizaje por refuerzo o estrategias evolutivas? - Ambos

¡Hola, Habr!

No es frecuente que decidamos publicar aquí traducciones de textos de hace dos años, sin código y de carácter claramente académico, pero hoy haremos una excepción. Esperamos que el dilema planteado en el título del artículo preocupe a muchos de nuestros lectores, y ya habéis leído el trabajo fundamental sobre estrategias evolutivas con el que se argumenta este post en el original o lo leeréis ahora. ¡Bienvenido al gato!

¿Aprendizaje por refuerzo o estrategias evolutivas? - Ambos

En marzo de 2017, OpenAI causó sensación en la comunidad de aprendizaje profundo con el artículo "Estrategias de evolución como alternativa escalable al aprendizaje por refuerzo" Este trabajo describió resultados impresionantes a favor del hecho de que el aprendizaje por refuerzo (RL) no se ha convertido en una cuña, y al entrenar redes neuronales complejas, es recomendable probar otros métodos. Entonces surgió un debate sobre la importancia del aprendizaje por refuerzo y cuán merecedor de su estatus como tecnología "imprescindible" para enseñar a resolver problemas. Aquí quiero decir que no se deben considerar competitivas estas dos tecnologías, una de las cuales es claramente mejor que la otra; al contrario, en última instancia se complementan. De hecho, si piensas un poco en lo que se necesita para crear IA general y tales sistemas, que a lo largo de su existencia serían capaces de aprender, juzgar y planificar, entonces casi con seguridad llegaremos a la conclusión de que será necesaria tal o cual solución combinada. Por cierto, fue precisamente esta solución combinada a la que llegó la naturaleza, la que dotó a los mamíferos y otros animales superiores de una inteligencia compleja durante el curso de la evolución.

Estrategias evolutivas

La tesis principal del artículo de OpenAI fue que, en lugar de utilizar el aprendizaje por refuerzo combinado con la retropropagación tradicional, entrenaron con éxito una red neuronal para resolver problemas complejos utilizando lo que llamaron una "estrategia evolutiva" (ES). Este enfoque ES consiste en mantener una distribución de pesos en toda la red, involucrando a múltiples agentes trabajando en paralelo y utilizando parámetros seleccionados de esta distribución. Cada agente opera en su propio entorno y, al completar un número específico de episodios o etapas de un episodio, el algoritmo devuelve una recompensa acumulativa, expresada como una puntuación de aptitud. Teniendo en cuenta este valor, la distribución de parámetros puede desplazarse hacia los agentes más exitosos, privando a los menos exitosos. Repitiendo tal operación millones de veces con la participación de cientos de agentes, es posible mover la distribución de pesos a un espacio que permitirá a los agentes formular una política de alta calidad para resolver la tarea que se les ha asignado. De hecho, los resultados presentados en el artículo son impresionantes: se muestra que si se ejecutan mil agentes en paralelo, entonces la locomoción antropomórfica sobre dos piernas se puede aprender en menos de media hora (mientras que incluso los métodos RL más avanzados requieren gastar más más de una hora en esto). Para información más detallada recomiendo leer el excelente enviar de los autores del experimento, así como articulo cientifico.

¿Aprendizaje por refuerzo o estrategias evolutivas? - Ambos

Diferentes estrategias para la enseñanza de la marcha erguida antropomórfica, estudiadas mediante el método ES de OpenAI.

Caja negra

La gran ventaja de este método es que se puede paralelizar fácilmente. Mientras que los métodos RL, como A3C, requieren que se intercambie información entre los subprocesos de trabajo y un servidor de parámetros, ES solo necesita estimaciones de idoneidad e información generalizada de distribución de parámetros. Es debido a esta simplicidad que este método está muy por delante de los métodos RL modernos en términos de capacidades de escalamiento. Sin embargo, todo esto no es en vano: hay que optimizar la red según el principio de la caja negra. En este caso, la "caja negra" significa que durante el entrenamiento la estructura interna de la red se ignora por completo y solo se utiliza el resultado general (recompensa por el episodio), y depende de ello si los pesos de una red en particular se ajustarán o no. ser heredado por las generaciones siguientes. En situaciones en las que no recibimos mucha retroalimentación del entorno (y en muchos problemas tradicionales de RL el flujo de recompensas es muy escaso), el problema pasa de ser una "caja parcialmente negra" a una "caja completamente negra". En este caso, es posible aumentar significativamente el rendimiento, por lo que, por supuesto, dicho compromiso está justificado. "¿Quién necesita gradientes si de todos modos son irremediablemente ruidosos?" - esta es la opinión general.

Sin embargo, en situaciones en las que la retroalimentación es más activa, las cosas empiezan a ir mal para el ES. El equipo de OpenAI describe cómo se entrenó una red de clasificación MNIST simple usando ES, y esta vez el entrenamiento fue 1000 veces más lento. El hecho es que la señal de gradiente en la clasificación de imágenes es extremadamente informativa sobre cómo enseñarle a la red una mejor clasificación. Por lo tanto, el problema es menos con la técnica RL y más con recompensas escasas en entornos que producen gradientes ruidosos.

La solución de la naturaleza

Si tratamos de aprender del ejemplo de la naturaleza, pensando en formas de desarrollar la IA, entonces, en algunos casos, se puede pensar en la IA como enfoque orientado a problemas. Después de todo, la naturaleza opera dentro de limitaciones que los científicos informáticos simplemente no tienen. Existe la opinión de que un enfoque puramente teórico para resolver un problema particular puede proporcionar soluciones más efectivas que las alternativas empíricas. Sin embargo, sigo pensando que valdría la pena comprobar cómo un sistema dinámico que opera bajo ciertas limitaciones (la Tierra) ha generado agentes (animales, particularmente mamíferos) capaces de comportamientos flexibles y complejos. Si bien algunas de estas limitaciones no se aplican en mundos de ciencia de datos simulados, otras están bien.

Habiendo examinado el comportamiento intelectual de los mamíferos, vemos que se forma como resultado de la compleja influencia mutua de dos procesos estrechamente interrelacionados: aprendiendo de las experiencias de otros и aprender haciendo. El primero se equipara a menudo con la evolución impulsada por la selección natural, pero aquí uso un término más amplio para tener en cuenta la epigenética, los microbiomas y otros mecanismos que permiten compartir experiencias entre organismos genéticamente no relacionados. El segundo proceso, aprender de la experiencia, es toda la información que un animal logra aprender a lo largo de su vida, y esta información está directamente determinada por la interacción de este animal con el mundo exterior. Esta categoría incluye todo, desde aprender a reconocer objetos hasta dominar la comunicación inherente al proceso de aprendizaje.

En términos generales, estos dos procesos que ocurren en la naturaleza se pueden comparar con dos opciones para optimizar las redes neuronales. Las estrategias evolutivas, en las que la información sobre los gradientes se utiliza para actualizar la información sobre el organismo, se acercan a aprender de la experiencia de otros. De manera similar, los métodos de gradiente, en los que la obtención de una u otra experiencia conduce a uno u otro cambio en el comportamiento del agente, son comparables al aprendizaje de la propia experiencia. Si pensamos en los tipos de conductas o habilidades inteligentes que cada uno de estos dos enfoques desarrolla en los animales, la comparación se vuelve más pronunciada. En ambos casos, los “métodos evolutivos” promueven el estudio de comportamientos reactivos que permiten desarrollar una determinada aptitud (suficiente para mantenerse con vida). Aprender a caminar o escapar del cautiverio equivale en muchos casos a comportamientos más “instintivos” que están “programados” en muchos animales a nivel genético. Además, este ejemplo confirma que los métodos evolutivos son aplicables en los casos en que la señal de recompensa es extremadamente rara (por ejemplo, el hecho de criar exitosamente a un bebé). En tal caso, es imposible correlacionar la recompensa con cualquier conjunto específico de acciones que se hayan realizado muchos años antes de que ocurriera este hecho. Por otro lado, si consideramos un caso en el que la ES falla, es decir, la clasificación de imágenes, los resultados son notablemente comparables a los resultados del aprendizaje animal logrado en innumerables experimentos de psicología conductual realizados durante más de 100 años.

Aprendiendo de los animales

Los métodos utilizados en el aprendizaje por refuerzo en muchos casos se toman directamente de la literatura psicológica sobre condicionamiento operantey el condicionamiento operante se estudió utilizando la psicología animal. Por cierto, Richard Sutton, uno de los dos fundadores del aprendizaje por refuerzo, tiene una licenciatura en psicología. En el contexto del condicionamiento operante, los animales aprenden a asociar la recompensa o el castigo con patrones de comportamiento específicos. Los entrenadores e investigadores pueden manipular esta asociación de recompensa de una forma u otra, provocando que los animales demuestren inteligencia o ciertos comportamientos. Sin embargo, el condicionamiento operante, tal como se utiliza en la investigación con animales, no es más que una forma más pronunciada del mismo condicionamiento sobre la base del cual los animales aprenden a lo largo de su vida. Recibimos constantemente señales de refuerzo positivo del entorno y ajustamos nuestro comportamiento en consecuencia. De hecho, muchos neurocientíficos y científicos cognitivos creen que los humanos y otros animales en realidad operan a un nivel aún más alto y aprenden continuamente a predecir el resultado de su comportamiento en situaciones futuras basándose en recompensas potenciales.

El papel central de la predicción en el aprendizaje a partir de la experiencia cambia de manera significativa la dinámica descrita anteriormente. La señal que antes se consideraba muy escasa (recompensa episódica) resulta ser muy densa. Teóricamente, la situación es algo así: en un momento dado, el cerebro del mamífero calcula resultados basándose en un flujo complejo de estímulos y acciones sensoriales, mientras que el animal simplemente está inmerso en este flujo. En este caso, el comportamiento final del animal da una fuerte señal que debe utilizarse para orientar el ajuste de las previsiones y el desarrollo del comportamiento. El cerebro utiliza todas estas señales para optimizar las previsiones (y, en consecuencia, la calidad de las acciones realizadas) en el futuro. Una descripción general de este enfoque se ofrece en el excelente libro “Incertidumbre en el surf”Científico cognitivo y filósofo Andy Clark. Si extrapolamos tal razonamiento al entrenamiento de agentes artificiales, entonces se revela un defecto fundamental en el aprendizaje por refuerzo: la señal utilizada en este paradigma es irremediablemente débil en comparación con lo que podría (o debería ser). En los casos en los que sea imposible aumentar la saturación de la señal (quizás porque es inherentemente débil o está asociada con un bajo nivel de reactividad), probablemente sea mejor preferir un método de entrenamiento que esté bien paralelizado, por ejemplo, ES.

Entrenamiento más rico de redes neuronales.

Partiendo de los principios de la actividad neuronal superior inherente al cerebro de los mamíferos, que está constantemente ocupado haciendo predicciones, se han logrado avances recientes en el aprendizaje por refuerzo, que ahora tiene en cuenta la importancia de tales predicciones. Puedo recomendarte inmediatamente dos trabajos similares:

En ambos artículos, los autores complementan la política predeterminada típica de sus redes neuronales con resultados de predicción sobre el estado del medio ambiente en el futuro. En el primer artículo, el pronóstico se aplica a una variedad de variables de medición, y en el segundo, el pronóstico se aplica a cambios en el entorno y al comportamiento del agente como tal. En ambos casos, la escasa señal asociada con el refuerzo positivo se vuelve mucho más rica e informativa, lo que permite un aprendizaje más rápido y la adquisición de conductas más complejas. Estas mejoras sólo están disponibles con métodos que utilizan una señal de gradiente, y no con métodos que funcionan según el principio de "caja negra", como ES.

Además, aprender de la experiencia y los métodos de gradiente es mucho más eficaz. Incluso en los casos en los que fue posible estudiar un problema particular usando el método ES más rápido que usando el aprendizaje por refuerzo, la ganancia se logró debido al hecho de que la estrategia ES involucraba muchas veces más datos que con RL. Reflexionando en este caso sobre los principios del aprendizaje en los animales, observamos que el resultado de aprender del ejemplo de otra persona se manifiesta después de muchas generaciones, mientras que a veces un solo evento experimentado por sí solo es suficiente para que el animal aprenda la lección para siempre. mientras me gusta entrenamiento sin ejemplos Si bien no encaja del todo en los métodos de gradiente tradicionales, es mucho más inteligible que ES. Existen, por ejemplo, enfoques como control episódico neuronal, donde se almacenan los valores Q durante el entrenamiento, después de lo cual el programa los verifica antes de realizar acciones. El resultado es un método de gradiente que le permite aprender a resolver problemas mucho más rápido que antes. En un artículo sobre control episódico neuronal, los autores mencionan el hipocampo humano, que es capaz de retener información sobre un evento incluso después de una sola experiencia y, por tanto, juega rol critico en el proceso de recordar. Tales mecanismos requieren acceso a la organización interna del agente, lo cual también es, por definición, imposible en el paradigma ES.

Entonces, ¿por qué no combinarlos?

Es probable que gran parte de este artículo dé la impresión de que estoy defendiendo los métodos RL. Sin embargo, creo que a la larga la mejor solución es combinar ambos métodos, de modo que cada uno se utilice en las situaciones en las que mejor se adapte. Obviamente, en el caso de muchas políticas reactivas o en situaciones con señales muy escasas de refuerzo positivo, el ES gana, especialmente si se tiene la potencia informática a su disposición con la que se puede ejecutar un entrenamiento paralelo masivo. Por otro lado, los métodos de gradiente que utilizan aprendizaje por refuerzo o aprendizaje supervisado serán útiles cuando tengamos acceso a una retroalimentación extensa y necesitemos aprender a resolver un problema rápidamente y con menos datos.

Volviendo a la naturaleza, encontramos que el primer método, en esencia, sienta las bases para el segundo. Por eso, a lo largo de la evolución, los mamíferos han desarrollado cerebros que les permiten aprender de forma muy eficaz a partir de señales complejas procedentes del entorno. Así pues, la cuestión sigue abierta. Quizás las estrategias evolutivas nos ayuden a inventar arquitecturas de aprendizaje efectivas que también serán útiles para los métodos de aprendizaje gradual. Después de todo, la solución encontrada por la naturaleza es realmente muy exitosa.

Fuente: habr.com

Añadir un comentario