DeepMind AI domina el juego en equipo y supera a los humanos en Quake III

Capturar la bandera es un modo competitivo bastante simple que se encuentra en muchos juegos de disparos populares. Cada equipo tiene un marcador ubicado en su base y el objetivo es capturar el marcador del equipo contrario y traerlo exitosamente hacia sí. Sin embargo, lo que es fácil de entender para los humanos no lo es tanto para las máquinas. Para capturar la bandera, los personajes no jugadores (bots) se programan tradicionalmente utilizando heurísticas y algoritmos simples que brindan una libertad de elección limitada y son significativamente inferiores a los humanos. Pero la inteligencia artificial y el aprendizaje automático prometen cambiar por completo esta situación.

В статье, publicado esta semana en la revista Science aproximadamente un año después preimpresióny así en tu blog, investigadores de DeepMind, una filial de Alphabet con sede en Londres, describen un sistema que no sólo puede aprender a capturar la bandera en los mapas Quake III Arena de id Software, sino que también puede desarrollar estrategias de equipo completamente nuevas, de ninguna manera inferiores a las de un humano.

DeepMind AI domina el juego en equipo y supera a los humanos en Quake III

“Nadie le dijo a la IA cómo jugar este juego, solo tenía el resultado: si la IA venció a su oponente o no. Lo bueno de utilizar este enfoque es que nunca se sabe qué comportamiento surgirá cuando entrenes a los agentes”, afirma Max Jaderberg, científico investigador de DeepMind que anteriormente trabajó en el sistema de aprendizaje automático AlphaStar (más recientemente superado equipo humano de profesionales en StarCraft II). Explicó además que el método clave de su nuevo trabajo es, en primer lugar, el aprendizaje reforzado, que utiliza una especie de sistema de recompensa para impulsar a los agentes de software a lograr los objetivos establecidos, y el sistema de recompensa funcionó independientemente de si el equipo de IA ganó o no. , pero en segundo lugar, los agentes fueron entrenados en grupos, lo que obligó a la IA a dominar la interacción en equipo desde el principio.

"Desde el punto de vista de la investigación, esta es una novedad para un enfoque algorítmico que es realmente emocionante", añadió Max. "La forma en que entrenamos nuestra IA muestra bien cómo escalar e implementar algunas ideas evolutivas clásicas".

DeepMind AI domina el juego en equipo y supera a los humanos en Quake III

Provocativamente llamados For The Win (FTW), los agentes de DeepMind aprenden directamente de los píxeles de la pantalla utilizando una red neuronal convolucional, un conjunto de funciones matemáticas (neuronas) dispuestas en capas modeladas a partir de la corteza visual humana. Los datos recibidos se transmiten a dos redes con múltiples memorias a corto plazo (memoria a corto plazo en inglés - LSTM), capaces de reconocer dependencias a largo plazo. Uno de ellos gestiona datos operativos con una velocidad de respuesta rápida, mientras que el otro trabaja lentamente para analizar y formular estrategias. Ambos están asociados con la memoria variacional, que utilizan juntos para predecir cambios en el mundo del juego y realizar acciones a través del controlador del juego emulado.

DeepMind AI domina el juego en equipo y supera a los humanos en Quake III

En total, DeepMind entrenó a 30 agentes, les dio una variedad de compañeros de equipo y oponentes para jugar, y cartas de juego seleccionadas al azar para evitar que la IA las recordara. Cada agente tenía su propia señal de recompensa, lo que le permitía crear sus propios objetivos internos, como capturar la bandera. Cada IA ​​jugó individualmente alrededor de 450 mil juegos de captura de bandera, lo que equivale a unos cuatro años de experiencia de juego.

Los agentes FTW completamente capacitados han aprendido a aplicar estrategias comunes a cualquier mapa, lista de equipo y tamaño de equipo. Aprendieron comportamientos humanos como seguir a sus compañeros de equipo, acampar en una base enemiga y defender su base de los atacantes, y gradualmente perdieron patrones menos beneficiosos, como observar demasiado de cerca a un aliado.

Entonces, ¿qué resultados se lograron? En un torneo de 40 personas en el que humanos y agentes jugaron aleatoriamente juntos y entre sí, los agentes de FTW superaron significativamente la tasa de victorias de los jugadores humanos. El índice Elo de la IA, que es la probabilidad de ganar, era de 1600, en comparación con 1300 para los jugadores humanos "fuertes" y 1050 para el jugador humano "promedio".

DeepMind AI domina el juego en equipo y supera a los humanos en Quake III

Esto no es sorprendente, ya que la velocidad de reacción de la IA es significativamente mayor que la de un humano, lo que le dio a la primera una ventaja significativa en los experimentos iniciales. Pero incluso cuando la precisión de los agentes se redujo y el tiempo de reacción aumentó gracias a la latencia incorporada de 257 milisegundos, la IA aún superó a los humanos. Los jugadores avanzados y ocasionales ganaron sólo el 21% y el 12% del total de juegos, respectivamente.

Además, después de la publicación del estudio, los científicos decidieron probar a los agentes en mapas completos de Quake III Arena con una arquitectura de niveles compleja y objetos adicionales, como Future Crossings y Ironwood, donde la IA comenzó a desafiar con éxito a los humanos en partidos de prueba. . Cuando los investigadores observaron los patrones de activación de las redes neuronales de los agentes, es decir, las funciones de las neuronas responsables de determinar la salida en función de la información entrante, encontraron grupos que representaban habitaciones, el estado de las banderas, la visibilidad de los compañeros de equipo y oponentes, y la presencia o ausencia de agentes en la base enemiga o en equipos, y otros aspectos importantes del juego. Los agentes entrenados incluso contenían neuronas que codificaban situaciones específicas directamente, como cuando un agente tomaba una bandera o cuando un aliado la sostenía.

"Creo que una de las cosas a tener en cuenta es que estos equipos de múltiples agentes son extremadamente poderosos, y nuestro estudio lo demuestra", dice Jaderberg. "Eso es lo que hemos estado aprendiendo a hacer cada vez mejor en los últimos años: cómo resolver el problema del aprendizaje por refuerzo". Y la capacitación mejorada realmente funcionó de manera brillante”.

Thore Graepel, profesor de informática en el University College de Londres y científico de DeepMind, cree que su trabajo resalta el potencial del aprendizaje multiagente para el futuro de la IA. También puede servir como base para la investigación sobre la interacción hombre-máquina y los sistemas que se complementan o trabajan juntos.

“Nuestros resultados muestran que el aprendizaje por refuerzo de múltiples agentes puede dominar con éxito un juego complejo hasta el punto de que los jugadores humanos incluso llegan a creer que los jugadores de computadora son mejores compañeros de equipo. El estudio también proporciona un análisis en profundidad extremadamente interesante de cómo se comportan y trabajan juntos los agentes capacitados, afirma Grapel. “Lo que hace que estos resultados sean tan interesantes es que estos agentes perciben su entorno en primera persona, [es decir] como un jugador humano. Para aprender a jugar tácticamente y cooperar con sus compañeros de equipo, estos agentes tuvieron que confiar en la retroalimentación de los resultados del juego, sin que ningún profesor o entrenador les mostrara qué hacer".



Fuente: 3dnews.ru

Añadir un comentario