🥇OpenAI ensina trabalho em equipe de IA no jogo de esconde-esconde

Um bom e velho jogo de esconde-esconde pode ser um ótimo teste para bots de inteligência artificial (IA) demonstrarem como eles tomam decisões e interagem entre si e com vários objetos ao seu redor.

Na sua novo artigo, publicado por pesquisadores da OpenAI, uma organização sem fins lucrativos de pesquisa em inteligência artificial que se tornou famosa vitória sobre campeões mundiais no jogo de computador Dota 2, os cientistas descrevem como os agentes controlados pela inteligência artificial foram treinados para serem mais sofisticados na busca e na ocultação uns dos outros em um ambiente virtual. Os resultados do estudo demonstraram que uma equipe de dois bots aprende de forma mais eficaz e rápida do que qualquer agente único sem aliados.

Os cientistas usaram um método que há muito ganhou fama aprendizado de máquina com reforço, em que a inteligência artificial é colocada em um ambiente que lhe é desconhecido, embora possua determinadas formas de interagir com ela, bem como um sistema de recompensas e multas por um ou outro resultado de suas ações. Este método é bastante eficaz devido à capacidade da IA de realizar diversas ações em um ambiente virtual em enorme velocidade, milhões de vezes mais rápido do que uma pessoa pode imaginar. Isso permite tentativa e erro para encontrar as estratégias mais eficazes para resolver um determinado problema. Mas esta abordagem também tem algumas limitações, por exemplo, criar um ambiente e realizar numerosos ciclos de formação requer enormes recursos computacionais, e o próprio processo requer um sistema preciso para comparar os resultados das ações de IA com o seu objetivo. Além disso, as competências adquiridas pelo agente desta forma limitam-se à tarefa descrita e, uma vez que a IA aprenda a lidar com ela, não haverá mais melhorias.

Para treinar a IA para brincar de esconde-esconde, os cientistas usaram uma abordagem chamada “exploração não direcionada”, onde os agentes têm total liberdade para desenvolver sua compreensão do mundo do jogo e desenvolver estratégias vencedoras. Isso é semelhante à abordagem de aprendizagem multiagente que os pesquisadores da DeepMind usaram quando vários sistemas de inteligência artificial foram treinados para jogar o modo capture the flag no Quake III Arena. Como neste caso, os agentes de IA não foram previamente treinados nas regras do jogo, mas com o tempo aprenderam estratégias básicas e conseguiram até surpreender os pesquisadores com soluções não triviais.

Num jogo de esconde-esconde, vários agentes cujo trabalho era se esconder foram obrigados a evitar a linha de visão de seus oponentes após uma ligeira vantagem enquanto a equipe de agentes de busca estava imobilizada. Além disso, a “linha de visão” neste contexto é um cone de 135 graus na frente de um bot individual. Os agentes não podiam se aventurar muito fora da área de jogo e eram forçados a navegar por salas geradas aleatoriamente com a capacidade de usar alguns objetos externos (caixas, paredes móveis, rampas especiais) espalhados por aí que poderiam ser usados tanto para criar cobertura quanto para se infiltrar nelas. .

Através de um longo processo de aprendizagem, os agentes de IA aprenderam seis estratégias únicas, cada uma das quais os ajudou a passar para a próxima fase do jogo. No início, as equipes de busca e de ocultação simplesmente fugiram e perseguiram umas às outras, mas depois de cerca de 25 milhões de partidas, a equipe de ocultação aprendeu a bloquear passagens com caixas e a construir abrigos com elas. Depois de mais 75 milhões de partidas, a equipe descobriu maneiras de usar rampas para entrar nesses esconderijos. Depois de mais 10 milhões de rodadas, os hiders aprenderam a arrastar rampas até a borda da área de jogo e prendê-las no lugar para evitar que os oponentes as usassem.

Depois de 388 milhões de partidas, os buscadores aprenderam a usar rampas bloqueadas para subir nas caixas que lhes foram trazidas e, então, movendo-se diretamente sobre elas, penetrar nos esconderijos inimigos criados a partir de paredes portáteis. E finalmente, após 458 milhões de partidas, a equipe oculta concluiu que precisava bloquear todos os objetos e depois construir um abrigo, o que aparentemente levou à vitória final.

O que é particularmente impressionante é que depois de 22 milhões de partidas, os agentes aprenderam a coordenar as suas ações e a eficácia do seu trabalho só aumentou no futuro, por exemplo, cada um trouxe a sua própria caixa ou parede para criar um abrigo e escolheu a sua quota de objetos para bloco, para complicar a dificuldade do jogo aos adversários.

Os cientistas também notaram um ponto importante relacionado à influência do número de objetos de treinamento (a quantidade de dados passados pela rede neural - “Batch Size”) na velocidade de aprendizado. O modelo padrão exigia 132,3 milhões de partidas em 34 horas de treinamento para chegar ao ponto em que a equipe escondida aprendesse a bloquear rampas, enquanto mais dados resultaram em uma redução notável no tempo de treinamento. Por exemplo, aumentar o número de parâmetros (parte dos dados obtidos durante todo o processo de treinamento) de 0,5 milhões para 5,8 milhões aumentou a eficiência da amostragem em 2,2 vezes, e aumentar o tamanho dos dados de entrada de 64 KB para 128 KB reduziu o treinamento. vez quase uma vez e meia.

No final do trabalho, os investigadores decidiram testar até que ponto o treino no jogo poderia ajudar os agentes a lidar com tarefas semelhantes fora do jogo. Foram cinco testes no total: consciência da quantidade de objetos (compreensão de que um objeto continua a existir mesmo que esteja fora da vista e não seja utilizado); “travar e retornar” - a capacidade de lembrar a posição original e retornar a ela após completar alguma tarefa adicional; “bloqueio sequencial” - 4 caixas foram localizadas aleatoriamente em três salas sem portas, mas com rampas para entrar, os agentes precisavam encontrar e bloquear todas elas; colocação de caixas em locais pré-determinados; criando um abrigo em torno de um objeto na forma de um cilindro.

Como resultado, em três das cinco tarefas, os bots que passaram por treinamento preliminar no jogo aprenderam mais rápido e apresentaram melhores resultados do que a IA que foi treinada para resolver problemas do zero. Eles tiveram um desempenho um pouco melhor na conclusão da tarefa e no retorno à posição inicial, bloqueando sequencialmente caixas em salas fechadas e colocando caixas em determinadas áreas, mas tiveram um desempenho um pouco mais fraco no reconhecimento do número de objetos e na criação de cobertura em torno de outro objeto.

Os pesquisadores atribuem resultados mistos à forma como a IA aprende e lembra certas habilidades. “Achamos que as tarefas em que o pré-treinamento no jogo teve melhor desempenho envolviam a reutilização de habilidades previamente aprendidas de uma forma familiar, enquanto executar as tarefas restantes melhor do que a IA treinada do zero exigiria usá-las de uma maneira diferente, o que muito mais difícil”, escrevem os coautores do trabalho. “Este resultado destaca a necessidade de desenvolver métodos para reutilizar eficazmente as competências adquiridas através da formação ao transferi-las de um ambiente para outro.”

O trabalho realizado é verdadeiramente impressionante, pois a perspectiva de utilização deste método de ensino está muito além dos limites de qualquer jogo. Os pesquisadores dizem que seu trabalho é um passo significativo em direção à criação de IA com comportamento “baseado na física” e “semelhante ao humano” que pode diagnosticar doenças, prever as estruturas de moléculas de proteínas complexas e analisar tomografias computadorizadas.

No vídeo abaixo você pode ver claramente como ocorreu todo o processo de aprendizagem, como a IA aprendeu o trabalho em equipe e suas estratégias se tornaram cada vez mais astutas e complexas.

Fonte: 3dnews.ru

OpenAI ensina trabalho em equipe de IA em um jogo de esconde-esconde

Adicionar um comentário cancelar resposta