A mais recente tecnologia da Microsoft no Azure AI descreve imagens, bem como pessoas


Pesquisadores da Microsoft criaram um sistema de inteligência artificial capaz de gerar legendas de imagens que, em muitos casos, acabam sendo mais precisas do que descrições feitas por humanos. Esse avanço marcou um marco importante no compromisso da Microsoft em tornar seus produtos e serviços inclusivos e acessíveis a todos os usuários.

“A descrição da imagem é uma das principais funções da visão computacional, o que torna possível uma ampla gama de serviços”, disse Xuedong Huang (Xuedong Huang), Diretor Técnico da Microsoft e CTO do Azure AI Cognitive Services em Redmond, Washington.

O novo modelo já está disponível para os consumidores através da Visão Computacional em Serviços Cognitivos Azure, que faz parte do Azure AI e permite que os desenvolvedores usem esse recurso para melhorar a disponibilidade de seus serviços. Ele também está sendo incluído no aplicativo Seeing AI e estará disponível ainda este ano no Microsoft Word e Outlook para Windows e Mac, bem como PowerPoint para Windows, Mac e na web.

A descrição automática ajuda os usuários a acessar o conteúdo importante de qualquer imagem, seja uma foto retornada nos resultados da pesquisa ou uma ilustração para uma apresentação.

“O uso de legendas que descrevam o conteúdo das imagens (o chamado texto alternativo ou alternativo) em páginas da web e documentos é especialmente importante para pessoas cegas ou com deficiência visual”, disse Saqib Sheikh (Saqib Shaikh), gerente de software do AI Platform Group da Microsoft em Redmond.

Por exemplo, sua equipe está usando um recurso de descrição de imagem aprimorado no aplicativo para cegos e deficientes visuais. Vendo ai, que reconhece o que a câmera está capturando e informa sobre isso. O aplicativo usa legendas geradas para descrever fotos, inclusive nas mídias sociais.

“O ideal é que todos adicionem texto alternativo a todas as imagens em documentos, na web, nas redes sociais, pois isso permite que pessoas cegas acessem o conteúdo e participem da conversa. Mas, infelizmente, as pessoas não fazem isso”, diz o xeque. "No entanto, existem alguns aplicativos que usam o recurso de descrição da imagem para adicionar texto alternativo quando está faltando."
  
A mais recente tecnologia da Microsoft no Azure AI descreve imagens, bem como pessoas

Liruan Wang, gerente geral de pesquisa do Redmond Lab da Microsoft, liderou uma equipe de pesquisa que alcançou e superou os resultados humanos. Foto: Dan DeLong.

Descrição de novos objetos

“Descrever imagens é uma das principais tarefas da visão computacional, que requer um sistema de inteligência artificial para entender e descrever o conteúdo principal ou ação apresentada na imagem”, explicou Liruan Wang (Lijuan Wang), gerente geral de pesquisa do laboratório de Redmond da Microsoft.

“Você precisa entender o que está acontecendo, descobrir quais são as relações entre objetos e ações e, em seguida, resumir e descrever tudo em uma frase em linguagem legível por humanos”, disse ela.

Wang liderou a equipe de pesquisa, que em benchmarking nocaps (legenda de novos objetos em escala, uma descrição em grande escala de novos objetos) alcançou um resultado comparável ao humano e o superou. Este teste permite avaliar o quão bem os sistemas de IA geram descrições de objetos representados que não estão incluídos no conjunto de dados no qual o modelo foi treinado.

Normalmente, os sistemas de descrição de imagens são treinados em conjuntos de dados que contêm imagens acompanhadas de uma descrição textual dessas imagens, ou seja, em conjuntos de imagens assinadas.

“O teste nocaps mostra quão bem o sistema é capaz de descrever novos objetos não encontrados nos dados de treinamento”, diz Wang.

Para resolver esse problema, a equipe da Microsoft pré-treinou um grande modelo de IA em um grande conjunto de dados contendo imagens marcadas por palavras, cada uma associada a um objeto específico na imagem.

Conjuntos de imagens com tags de palavras em vez de legendas completas são mais eficientes de criar, permitindo que a equipe de Wang insira muitos dados em seu modelo. Essa abordagem deu ao modelo o que a equipe chama de vocabulário visual.

Como explicou Huang, a abordagem de pré-aprendizagem usando vocabulário visual é semelhante à preparação das crianças para a leitura: primeiro, é usado um livro ilustrado no qual palavras individuais são associadas a imagens, por exemplo, sob a foto de uma maçã está escrito "maçã". e sob a foto de um gato está a palavra "gato".

“Esse pré-treinamento com vocabulário visual é, em essência, a formação inicial necessária para treinar o sistema. É assim que tentamos desenvolver uma espécie de memória motora”, disse Huang.

O modelo pré-treinado é então refinado com um conjunto de dados incluindo imagens rotuladas. Nesta fase do treinamento, o modelo aprende a fazer frases. Se uma imagem contendo novos objetos aparecer, o sistema AI usa o dicionário visual para criar descrições precisas.

“Para trabalhar com novos objetos durante o teste, o sistema integra o que aprendeu durante o pré-treinamento e durante o refinamento posterior”, diz Wang.
De acordo com os resultados pesquisa, quando avaliado nos testes nocaps, o sistema de IA produziu descrições mais significativas e precisas do que os humanos para as mesmas imagens.

Transição mais rápida para o ambiente de trabalho 

Entre outras coisas, o novo sistema de descrição de imagens é duas vezes melhor do que o modelo usado em produtos e serviços da Microsoft desde 2015, quando comparado a outro benchmark do setor.

Considerando os benefícios que todos os usuários de produtos e serviços da Microsoft receberão com essa melhoria, Huang acelerou a integração do novo modelo no ambiente de trabalho do Azure.

“Estamos levando essa tecnologia de IA disruptiva para o Azure como uma plataforma para atender a uma gama mais ampla de clientes”, disse ele. “E isso não é apenas um avanço na pesquisa. O tempo que levou para incorporar esse avanço no ambiente de produção do Azure também foi um avanço.”

Huang acrescentou que alcançar resultados semelhantes aos humanos continua uma tendência já estabelecida nos sistemas de inteligência cognitiva da Microsoft.

“Nos últimos cinco anos, alcançamos resultados semelhantes aos humanos em cinco áreas principais: reconhecimento de fala, tradução automática, resposta a perguntas, leitura automática e compreensão de texto e, em 2020, apesar do COVID-19, na descrição de imagem – disse Juan.

Por tópico

Compare os resultados da descrição das imagens que o sistema dava antes e agora usando IA

A mais recente tecnologia da Microsoft no Azure AI descreve imagens, bem como pessoas

Foto cortesia de Getty Images. Descrição anterior: Close-up de um homem preparando um cachorro-quente em uma tábua de corte. Nova descrição: Um homem faz pão.

A mais recente tecnologia da Microsoft no Azure AI descreve imagens, bem como pessoas

Foto cortesia de Getty Images. Descrição anterior: Um homem está sentado ao pôr do sol. Nova descrição: Fogueira na praia.

A mais recente tecnologia da Microsoft no Azure AI descreve imagens, bem como pessoas

Foto cortesia de Getty Images. Descrição anterior: Um homem de camisa azul. Nova descrição: Várias pessoas usando máscaras cirúrgicas.

A mais recente tecnologia da Microsoft no Azure AI descreve imagens, bem como pessoas

Foto cortesia de Getty Images. Descrição anterior: Um homem em um skate voa pela parede. Nova descrição: Um jogador de beisebol pega uma bola.

Fonte: habr.com

Adicionar um comentário