NeurIPS 2019: tendencias de ML que nos acompañarán durante la próxima década

NeuroIPS (Sistemas de procesamiento de información neural) es la conferencia más grande del mundo sobre aprendizaje automático e inteligencia artificial y el principal evento en el mundo del aprendizaje profundo.

¿Los ingenieros de DS dominaremos también la biología, la lingüística y la psicología en la nueva década? Te lo contamos en nuestra reseña.

NeurIPS 2019: tendencias de ML que nos acompañarán durante la próxima década

Este año la conferencia reunió a más de 13500 personas de 80 países en Vancouver, Canadá. Este no es el primer año que Sberbank representa a Rusia en la conferencia: el equipo de DS habló sobre la implementación de ML en los procesos bancarios, sobre la competencia de ML y sobre las capacidades de la plataforma Sberbank DS. ¿Cuáles fueron las principales tendencias de 2019 en la comunidad de ML? Los participantes de la conferencia dicen: Andrey Chertok и Tatiana Shavrina.

Este año, NeurIPS aceptó más de 1400 artículos: algoritmos, nuevos modelos y nuevas aplicaciones a nuevos datos. Enlace a todos los materiales

Contenido:

  • Tendencias
    • Interpretabilidad del modelo
    • Multidisciplinariedad
    • Razonamiento
    • RL
    • GAN
  • Charlas invitadas básicas
    • “Inteligencia Social”, Blaise Aguera y Arcas (Google)
    • “Ciencia de datos verídicos”, Bin Yu (Berkeley)
    • “Modelado del comportamiento humano con aprendizaje automático: oportunidades y desafíos”, Nuria M Oliver, Albert Ali Salah
    • “Del Aprendizaje Profundo del Sistema 1 al Sistema 2”, Yoshua Bengio

Tendencias 2019 del año.

1. Interpretabilidad del modelo y nueva metodología de ML

El tema principal de la conferencia es la interpretación y evidencia de por qué obtenemos ciertos resultados. Se puede hablar durante mucho tiempo de la importancia filosófica de la interpretación de la “caja negra”, pero en esta área hubo métodos y avances técnicos más reales.

La metodología para replicar modelos y extraer conocimiento de ellos es un nuevo conjunto de herramientas para la ciencia. Los modelos pueden servir como herramienta para obtener nuevos conocimientos y probarlos, y cada etapa de preprocesamiento, entrenamiento y aplicación del modelo debe ser reproducible.
Una proporción significativa de las publicaciones no está dedicada a la construcción de modelos y herramientas, sino a los problemas de garantizar la seguridad, la transparencia y la verificabilidad de los resultados. En particular, ha aparecido una corriente separada sobre ataques al modelo (ataques adversarios), y se consideran opciones tanto para ataques al entrenamiento como para ataques a la aplicación.

Artículo:

NeurIPS 2019: tendencias de ML que nos acompañarán durante la próxima década
ExBert.net muestra interpretación de modelos para tareas de procesamiento de textos

2. Multidisciplinariedad

Para garantizar una verificación confiable y desarrollar mecanismos para verificar y ampliar el conocimiento, necesitamos especialistas en campos relacionados que tengan simultáneamente competencias en AA y en el área temática (medicina, lingüística, neurobiología, educación, etc.). Cabe destacar especialmente la presencia más significativa de trabajos y discursos en neurociencias y ciencias cognitivas: hay un acercamiento de especialistas y un préstamo de ideas.

Además de este acercamiento, está surgiendo la multidisciplinariedad en el procesamiento conjunto de información de diversas fuentes: texto y fotografías, texto y juegos, bases de datos de gráficos + texto y fotografías.

Artículo:

NeurIPS 2019: tendencias de ML que nos acompañarán durante la próxima década
Dos modelos, estratega y ejecutivo, basados ​​en la estrategia en línea de RL y PNL.

3. Razonamiento

El fortalecimiento de la inteligencia artificial es un movimiento hacia sistemas de autoaprendizaje, “conscientes”, de razonamiento y razonamiento. En particular, se están desarrollando la inferencia causal y el razonamiento de sentido común. Algunos de los informes están dedicados al metaaprendizaje (sobre cómo aprender a aprender) y a la combinación de tecnologías DL con lógica de primer y segundo orden: el término Inteligencia general artificial (AGI) se está convirtiendo en un término común en los discursos de los oradores.

Artículo:

4. Aprendizaje por refuerzo

La mayor parte del trabajo continúa desarrollando áreas tradicionales de RL - DOTA2, Starcraft, combinando arquitecturas con visión por computadora, PNL y bases de datos gráficas.

Un día aparte de la conferencia se dedicó a un taller de RL, en el que se presentó la arquitectura del Modelo Optimista Actor Crítico, superior a todas las anteriores, en particular Soft Actor Critic.

Artículo:

NeurIPS 2019: tendencias de ML que nos acompañarán durante la próxima década
Los jugadores de StarCraft luchan contra el modelo Alphastar (DeepMind)

5.GAN

Las redes generativas todavía están en el centro de atención: muchos trabajos utilizan GAN básicos para pruebas matemáticas y también las aplican de formas nuevas e inusuales (modelos generativos de gráficos, trabajo con series, aplicación a relaciones de causa y efecto en datos, etc.).

Artículo:

Desde que se aceptaron más trabajos 1400 A continuación hablaremos de los discursos más importantes.

Charlas invitadas

“Inteligencia Social”, Blaise Aguera y Arcas (Google)

Enlace
Diapositivas y vídeos
La charla se centra en la metodología general del aprendizaje automático y las perspectivas que están cambiando la industria en este momento: ¿a qué encrucijada nos enfrentamos? ¿Cómo funcionan el cerebro y la evolución, y por qué hacemos tan poco uso de lo que ya sabemos sobre el desarrollo de los sistemas naturales?

El desarrollo industrial del ML coincide en gran medida con los hitos del desarrollo de Google, que año tras año publica sus investigaciones sobre NeurIPS:

  • 1997: lanzamiento de servicios de búsqueda, primeros servidores, pequeña potencia informática
  • 2010 – Jeff Dean lanza el proyecto Google Brain, el auge de las redes neuronales en sus inicios
  • 2015 – implementación industrial de redes neuronales, reconocimiento facial rápido directamente en un dispositivo local, procesadores de bajo nivel diseñados para computación tensorial - TPU. Google lanza Coral ai, un análogo de raspberry pi, una minicomputadora para introducir redes neuronales en instalaciones experimentales
  • 2017: Google comienza a desarrollar capacitación descentralizada y a combinar los resultados del entrenamiento de redes neuronales de diferentes dispositivos en un solo modelo, en Android.

Hoy en día, toda una industria está dedicada a la seguridad de los datos, la agregación y la replicación de los resultados del aprendizaje en dispositivos locales.

Aprendizaje federado – una dirección de ML en la que los modelos individuales aprenden independientemente unos de otros y luego se combinan en un solo modelo (sin centralizar los datos de origen), ajustado a eventos raros, anomalías, personalización, etc. Todos los dispositivos Android son esencialmente una única supercomputadora informática para Google.

Los modelos generativos basados ​​en el aprendizaje federado son una dirección futura prometedora según Google, que se encuentra "en las primeras etapas de crecimiento exponencial". Las GAN, según el profesor, son capaces de aprender a reproducir el comportamiento masivo de poblaciones de organismos vivos y algoritmos de pensamiento.

Utilizando el ejemplo de dos arquitecturas GAN simples, se muestra que en ellas la búsqueda de una ruta de optimización deambula en círculo, lo que significa que la optimización como tal no ocurre. Al mismo tiempo, estos modelos tienen mucho éxito a la hora de simular los experimentos que los biólogos realizan con poblaciones bacterianas, obligándolos a aprender nuevas estrategias de comportamiento en busca de alimento. Podemos concluir que la vida funciona de manera diferente a la función de optimización.

NeurIPS 2019: tendencias de ML que nos acompañarán durante la próxima década
Optimización de GAN para caminar

Todo lo que hacemos ahora en el marco del aprendizaje automático son tareas limitadas y extremadamente formalizadas, mientras que estos formalismos no se generalizan bien y no se corresponden con nuestro conocimiento temático en áreas como la neurofisiología y la biología.

Lo que realmente merece la pena tomar prestado del campo de la neurofisiología en un futuro próximo son nuevas arquitecturas neuronales y una ligera revisión de los mecanismos de retropropagación de errores.

El cerebro humano en sí no aprende como una red neuronal:

  • No recibe estímulos primarios aleatorios, incluidos los establecidos a través de los sentidos y en la infancia.
  • Tiene direcciones inherentes de desarrollo instintivo (el deseo de aprender el lenguaje desde un bebé, caminar erguido)

Entrenar un cerebro individual es una tarea de bajo nivel; tal vez deberíamos considerar “colonias” de individuos que cambian rápidamente y se transmiten conocimientos entre sí para reproducir los mecanismos de evolución grupal.

Qué podemos adoptar ahora en los algoritmos de ML:

  • Aplicar modelos de linaje celular que aseguren el aprendizaje de la población, pero la corta vida del individuo (“cerebro individual”)
  • Aprendizaje rápido utilizando una pequeña cantidad de ejemplos.
  • Estructuras neuronales más complejas, funciones de activación ligeramente diferentes.
  • Transferir el "genoma" a las próximas generaciones: algoritmo de retropropagación
  • Una vez que conectemos la neurofisiología y las redes neuronales, aprenderemos a construir un cerebro multifuncional a partir de muchos componentes.

Desde este punto de vista, la práctica de soluciones SOTA es perjudicial y debería revisarse en aras del desarrollo de tareas comunes (benchmarks).

“Ciencia de datos verídicos”, Bin Yu (Berkeley)

Vídeos y diapositivas
El informe está dedicado al problema de la interpretación de los modelos de aprendizaje automático y la metodología para su prueba y verificación directa. Cualquier modelo de ML entrenado puede percibirse como una fuente de conocimiento que debe extraerse de él.

En muchas áreas, especialmente en medicina, el uso de un modelo es imposible sin extraer este conocimiento oculto e interpretar los resultados del modelo; de lo contrario, no estaremos seguros de que los resultados serán estables, no aleatorios, confiables y no matarán al paciente. Dentro del paradigma del aprendizaje profundo se está desarrollando toda una dirección de metodología de trabajo que va más allá de sus fronteras: la ciencia de datos verídicos. ¿Lo que es?

Queremos lograr tal calidad de publicaciones científicas y reproducibilidad de modelos que sean:

  1. previsible
  2. calculable
  3. estable

Estos tres principios forman la base de la nueva metodología. ¿Cómo se pueden comparar los modelos de ML con estos criterios? La forma más sencilla es construir modelos inmediatamente interpretables (regresiones, árboles de decisión). Sin embargo, también queremos obtener los beneficios inmediatos del aprendizaje profundo.

Varias formas existentes de trabajar con el problema:

  1. interpretar el modelo;
  2. utilizar métodos basados ​​en la atención;
  3. utilizar conjuntos de algoritmos durante el entrenamiento y garantizar que los modelos lineales interpretables aprendan a predecir las mismas respuestas que la red neuronal, interpretando características del modelo lineal;
  4. cambiar y aumentar los datos de entrenamiento. Esto incluye agregar ruido, interferencias y aumento de datos;
  5. cualquier método que ayude a garantizar que los resultados del modelo no sean aleatorios y no dependan de interferencias menores no deseadas (ataques adversarios);
  6. interpretar el modelo a posteriori, después del entrenamiento;
  7. estudiar el peso de las características de varias maneras;
  8. estudiar las probabilidades de todas las hipótesis, distribución de clases.

NeurIPS 2019: tendencias de ML que nos acompañarán durante la próxima década
Ataque adversario para un cerdo

Los errores de modelado son costosos para todos: un buen ejemplo es el trabajo de Reinhart y Rogov."Crecimiento en tiempos de deuda" influyó en las políticas económicas de muchos países europeos y los obligó a aplicar políticas de austeridad, pero una cuidadosa revisión de los datos y su procesamiento años más tarde mostró el resultado opuesto.

Cualquier tecnología de ML tiene su propio ciclo de vida desde una implementación hasta otra. El objetivo de la nueva metodología es comprobar tres principios básicos en cada etapa de la vida del modelo.

Resultados:

  • Se están desarrollando varios proyectos que ayudarán a que el modelo ML sea más confiable. Este es, por ejemplo, deeptune (enlace a: github.com/ChrisCummins/paper-end2end-dl);
  • Para un mayor desarrollo de la metodología, es necesario mejorar significativamente la calidad de las publicaciones en el campo del LD;
  • El aprendizaje automático necesita líderes con formación multidisciplinaria y experiencia tanto en el campo técnico como en el de humanidades.

“Modelado del comportamiento humano con aprendizaje automático: oportunidades y desafíos” Nuria M Oliver, Albert Ali Salah

Conferencia dedicada a la modelización del comportamiento humano, sus fundamentos tecnológicos y perspectivas de aplicación.

El modelado del comportamiento humano se puede dividir en:

  • comportamiento individual
  • comportamiento de un pequeño grupo de personas
  • comportamiento masivo

Cada uno de estos tipos se puede modelar utilizando ML, pero con información de entrada y características completamente diferentes. Cada tipo también tiene sus propias cuestiones éticas por las que pasa cada proyecto:

  • comportamiento individual – robo de identidad, deepfake;
  • comportamiento de grupos de personas: anonimización, obtención de información sobre movimientos, llamadas telefónicas, etc.;

comportamiento individual

Principalmente relacionado con el tema de la visión por computadora: reconocimiento de emociones y reacciones humanas. Quizás sólo en contexto, en tiempo o con la escala relativa de su propia variabilidad de emociones. La diapositiva muestra el reconocimiento de las emociones de Mona Lisa utilizando el contexto del espectro emocional de las mujeres mediterráneas. Resultado: una sonrisa de alegría, pero con desprecio y disgusto. Lo más probable es que la razón esté en la forma técnica de definir una emoción “neutral”.

Comportamiento de un pequeño grupo de personas.

Hasta ahora el peor modelo se debe a la falta de información. A modo de ejemplo se mostraron trabajos de 2018 – 2019. en docenas de personas X docenas de videos (cf. conjuntos de datos de imágenes de 100k++). Para modelar mejor esta tarea, se necesita información multimodal, preferiblemente procedente de sensores en un altímetro corporal, termómetro, grabación de micrófono, etc.

Comportamiento masivo

El área más desarrollada, ya que el cliente es la ONU y muchos estados. Las cámaras de vigilancia exteriores, los datos de las torres telefónicas (facturación, SMS, llamadas, datos sobre el movimiento entre fronteras estatales) dan una imagen muy fiable del movimiento de personas y de la inestabilidad social. Posibles aplicaciones de la tecnología: optimización de las operaciones de rescate, asistencia y evacuación oportuna de la población durante emergencias. La mayoría de los modelos utilizados todavía están mal interpretados: se trata de varios LSTM y redes convolucionales. Hubo un breve comentario de que la ONU estaba presionando para que se aprobara una nueva ley que obligaría a las empresas europeas a compartir los datos anonimizados necesarios para cualquier investigación.

“Del Aprendizaje Profundo del Sistema 1 al Sistema 2”, Yoshua Bengio

Diapositivas
En la conferencia de Joshua Bengio, el aprendizaje profundo se encuentra con la neurociencia al nivel del establecimiento de objetivos.
Bengio identifica dos tipos principales de problemas según la metodología del premio Nobel Daniel Kahneman (libro “Piensa despacio, decide rápido»)
tipo 1 - Sistema 1, acciones inconscientes que hacemos “automáticamente” (cerebro antiguo): conducir un coche en lugares familiares, caminar, reconocer rostros.
tipo 2 - Sistema 2, acciones conscientes (corteza cerebral), establecimiento de objetivos, análisis, pensamiento, tareas compuestas.

Hasta ahora, la IA ha alcanzado alturas suficientes sólo en tareas del primer tipo, mientras que nuestra tarea es llevarla al segundo, enseñándole a realizar operaciones multidisciplinarias y a operar con lógica y habilidades cognitivas de alto nivel.

Para lograr este objetivo se propone:

  1. en tareas de PNL, utilice la atención como mecanismo clave para modelar el pensamiento
  2. utilizar el metaaprendizaje y el aprendizaje de representación para modelar mejor las características que influyen en la conciencia y su localización y, sobre esta base, pasar a operar con conceptos de nivel superior.

En lugar de una conclusión, aquí hay una charla invitada: Bengio es uno de los muchos científicos que están tratando de expandir el campo del ML más allá de los problemas de optimización, SOTA y nuevas arquitecturas.
Queda abierta la cuestión de hasta qué punto la combinación de los problemas de la conciencia, la influencia del lenguaje en el pensamiento, la neurobiología y los algoritmos es lo que nos espera en el futuro y nos permitirá pasar a máquinas que “piensen” como personas.

Gracias!



Fuente: habr.com

Añadir un comentario