DeepMind AI domina o jogo em equipe e supera os humanos em Quake III

Capture the flag é um modo competitivo bastante simples, encontrado em muitos jogos de tiro populares. Cada equipe possui um marcador localizado em sua base, e o objetivo é capturar o marcador da equipe adversária e trazê-lo para si com sucesso. No entanto, o que é fácil de entender para os humanos não é tão fácil para as máquinas. Para capturar a bandeira, os personagens não-jogadores (bots) são tradicionalmente programados usando heurísticas e algoritmos simples que fornecem liberdade de escolha limitada e são significativamente inferiores aos humanos. Mas a inteligência artificial e o aprendizado de máquina prometem mudar completamente esta situação.

В статье, publicado esta semana na revista Science cerca de um ano depois pré-impressão, bem como em seu blog, pesquisadores da DeepMind, uma subsidiária da Alphabet com sede em Londres, descrevem um sistema que pode não apenas aprender a jogar capture a bandeira nos mapas Quake III Arena da id Software, mas também desenvolver estratégias de equipe inteiramente novas, de forma alguma inferiores a um humano.

DeepMind AI domina o jogo em equipe e supera os humanos em Quake III

“Ninguém disse à IA como jogar este jogo, só teve o resultado - se a IA venceu o adversário ou não. A beleza de usar essa abordagem é que você nunca sabe qual comportamento surgirá quando você treinar agentes”, diz Max Jaderberg, cientista pesquisador da DeepMind que trabalhou anteriormente no sistema de aprendizado de máquina AlphaStar (mais recentemente superado equipe humana de profissionais em StarCraft II). Ele explicou ainda que o método principal de seu novo trabalho é, em primeiro lugar, o aprendizado reforçado, que usa uma espécie de sistema de recompensa para pressionar os agentes de software a atingir as metas definidas, e o sistema de recompensa funcionou independentemente de a equipe de IA ter vencido ou não. , mas em segundo lugar, os agentes foram treinados em grupos, o que forçou a IA a dominar a interação da equipe desde o início.

“Do ponto de vista da pesquisa, esta é uma novidade para uma abordagem algorítmica que é realmente emocionante”, acrescentou Max. “A forma como treinamos nossa IA mostra bem como dimensionar e implementar algumas ideias evolucionárias clássicas.”

DeepMind AI domina o jogo em equipe e supera os humanos em Quake III

Provocativamente chamados de For The Win (FTW), os agentes da DeepMind aprendem diretamente a partir dos pixels da tela usando uma rede neural convolucional, um conjunto de funções matemáticas (neurônios) organizadas em camadas modeladas a partir do córtex visual humano. Os dados recebidos são transmitidos para duas redes com múltiplas memórias de curto prazo (do inglês long short-term memory - LSTM), capazes de reconhecer dependências de longo prazo. Um deles gerencia dados operacionais com rapidez de resposta, enquanto o outro trabalha lentamente para analisar e formular estratégias. Ambos estão associados à memória variacional, que usam juntos para prever mudanças no mundo do jogo e realizar ações por meio do controlador de jogo emulado.

DeepMind AI domina o jogo em equipe e supera os humanos em Quake III

No total, a DeepMind treinou 30 agentes, deu-lhes uma variedade de companheiros de equipe e oponentes para jogar e cartas de jogo selecionadas aleatoriamente para evitar que a IA se lembrasse deles. Cada agente tinha seu próprio sinal de recompensa, permitindo criar seus próprios objetivos internos, como capturar a bandeira. Cada IA ​​jogou individualmente cerca de 450 mil partidas de capture the flag, o que equivale a cerca de quatro anos de experiência em jogos.

Agentes FTW totalmente treinados aprenderam a aplicar estratégias comuns a qualquer mapa, escalação e tamanho de equipe. Eles aprenderam comportamentos humanos, como seguir companheiros de equipe, acampar em uma base inimiga e defender sua base de atacantes, e gradualmente perderam padrões menos benéficos, como observar um aliado muito de perto.

Então, quais resultados foram alcançados? Em um torneio de 40 pessoas em que humanos e agentes jogaram aleatoriamente juntos e uns contra os outros, os agentes FTW superaram significativamente a taxa de vitórias dos jogadores humanos. A classificação Elo da IA, que é a probabilidade de vitória, era de 1600, em comparação com 1300 para jogadores humanos “fortes” e 1050 para o jogador humano “médio”.

DeepMind AI domina o jogo em equipe e supera os humanos em Quake III

Isto não é surpreendente, uma vez que a velocidade de reação da IA ​​é significativamente superior à de um ser humano, o que deu ao primeiro uma vantagem significativa nas experiências iniciais. Mas mesmo quando a precisão dos agentes foi reduzida e o tempo de reação aumentado graças à latência integrada de 257 milissegundos, a IA ainda superou os humanos. Jogadores avançados e casuais ganharam apenas 21% e 12% do total de jogos, respectivamente.

Além disso, após a publicação do estudo, os cientistas decidiram testar agentes em mapas completos da Quake III Arena com arquitetura de nível complexo e objetos adicionais, como Future Crossings e Ironwood, onde a IA começou a desafiar humanos com sucesso em partidas de teste. . Quando os pesquisadores observaram os padrões de ativação da rede neural dos agentes, ou seja, as funções dos neurônios responsáveis ​​por determinar a saída com base nas informações recebidas, encontraram clusters representando salas, o estado das bandeiras, a visibilidade dos companheiros de equipe e oponentes, e a presença ou ausência de agentes na base inimiga ou em equipe e outros aspectos significativos da jogabilidade. Os agentes treinados continham até neurônios que codificavam diretamente situações específicas, como quando uma bandeira era tomada por um agente ou quando um aliado a segurava.

“Acho que uma das coisas a observar é que essas equipes multiagentes são extremamente poderosas, e nosso estudo demonstra isso”, diz Jaderberg. “É isso que temos aprendido a fazer cada vez melhor nos últimos anos: como resolver o problema da aprendizagem por reforço.” E o treinamento aprimorado realmente funcionou de maneira brilhante.”

Thore Graepel, professor de ciência da computação na University College London e cientista da DeepMind, acredita que seu trabalho destaca o potencial da aprendizagem multiagente para o futuro da IA. Também pode servir de base para pesquisas sobre interação homem-máquina e sistemas que se complementam ou funcionam em conjunto.

“Nossos resultados mostram que o aprendizado por reforço multiagente pode dominar com sucesso um jogo complexo a ponto de os jogadores humanos chegarem a acreditar que os jogadores de computador são melhores companheiros de equipe. O estudo também fornece uma análise aprofundada extremamente interessante de como os agentes treinados se comportam e trabalham juntos, diz Grapel. “O que torna estes resultados tão entusiasmantes é que estes agentes percebem o seu ambiente na primeira pessoa, [isto é] tal como um jogador humano. Para aprender a jogar taticamente e a cooperar com os companheiros, esses agentes tiveram que contar com o feedback dos resultados do jogo, sem que nenhum professor ou treinador lhes mostrasse o que fazer."



Fonte: 3dnews.ru

Adicionar um comentário