A tecnoloxía máis recente de Microsoft en Azure AI describe imaxes e persoas


Os investigadores de Microsoft crearon un sistema de intelixencia artificial capaz de xerar subtítulos de imaxes que, en moitos casos, resultan máis precisos que as descricións realizadas polos humanos. Este avance marcou un fito importante no compromiso de Microsoft por facer que os seus produtos e servizos sexan inclusivos e accesibles para todos os usuarios.

"A descrición da imaxe é unha das principais funcións da visión por ordenador, o que fai posible unha ampla gama de servizos", dixo Xuedong Huang.Xuedong Huang), un oficial técnico de Microsoft e CTO de Azure AI Cognitive Services en Redmond, Washington.

O novo modelo xa está dispoñible para os consumidores a través de Computer Vision en Servizos cognitivos de Azure, que forma parte de Azure AI, e permite aos desenvolvedores utilizar esta función para mellorar a dispoñibilidade dos seus servizos. Tamén se inclúe na aplicación Seeing AI e estará dispoñible a finais deste ano en Microsoft Word e Outlook para Windows e Mac, así como en PowerPoint para Windows, Mac e na web.

A descrición automática axuda aos usuarios a acceder ao contido importante de calquera imaxe, xa sexa unha foto que aparece nos resultados da busca ou unha ilustración para unha presentación.

"O uso de subtítulos que describen o contido das imaxes (o chamado texto alternativo ou alternativo) en páxinas web e documentos é especialmente importante para as persoas cegas ou con discapacidade visual", dixo Saqib Sheikh.Saqib Shaikh), xestor de software en Microsoft AI Platform Group en Redmond.

Por exemplo, o seu equipo está a usar unha función de descrición de imaxes mellorada na aplicación para persoas cegas e con discapacidade visual. Vendo IA, que recoñece o que a cámara está a capturar e conta sobre iso. A aplicación usa subtítulos xerados para describir fotos, incluso nas redes sociais.

“O ideal é que todo o mundo engada texto alternativo a todas as imaxes dos documentos, na web, nas redes sociais, xa que isto permite que as persoas cegas poidan acceder ao contido e participar na conversación. Pero, por desgraza, a xente non fai isto", di o xeque. "Non obstante, hai algunhas aplicacións que usan a función de descrición da imaxe para engadir texto alternativo cando falta".
  
A tecnoloxía máis recente de Microsoft en Azure AI describe imaxes e persoas

Liruan Wang, director xeral de investigación do Redmond Lab de Microsoft, liderou un equipo de investigación que logrou e superou resultados humanos. Foto: Dan DeLong.

Descrición de novos obxectos

"Describir imaxes é unha das principais tarefas da visión por computador, que require un sistema de intelixencia artificial para comprender e describir o contido ou acción principal que se presenta na imaxe", explicou Liruan Wang.Lijuan Wang), director xeral de investigación do laboratorio de Redmond de Microsoft.

"Cómpre comprender o que está a suceder, descubrir cales son as relacións entre obxectos e accións, e despois resumilo e describilo todo nunha frase en linguaxe lexible polos humanos", dixo.

Wang liderou o equipo de investigación, que en benchmarking sen caps (subtítulos novos de obxectos a escala, unha descrición a gran escala de novos obxectos) conseguiu un resultado comparable a un humano e superouno. Esta proba permítelle avaliar o ben que os sistemas de IA xeran descricións dos obxectos representados que non están incluídos no conxunto de datos no que se adestrou o modelo.

Normalmente, os sistemas de descrición de imaxes adestran en conxuntos de datos que conteñen imaxes acompañadas dunha descrición textual destas imaxes, é dicir, en conxuntos de imaxes asinadas.

"A proba nocaps mostra o ben que o sistema é capaz de describir novos obxectos que non se atopan nos datos de adestramento", di Wang.

Para resolver este problema, o equipo de Microsoft adestrou previamente un gran modelo de IA nun gran conxunto de datos que contén imaxes etiquetadas con palabras, cada unha asociada a un obxecto específico da imaxe.

Os conxuntos de imaxes con etiquetas de palabras en lugar de subtítulos completos son máis eficientes de crear, o que permite ao equipo de Wang introducir moitos datos no seu modelo. Este enfoque deulle ao modelo o que o equipo chama vocabulario visual.

Como explicou Huang, o enfoque de pre-aprendizaxe mediante o vocabulario visual é semellante á preparación dos nenos para a lectura: en primeiro lugar, utilízase un libro ilustrado no que as palabras individuais se asocian con imaxes, por exemplo, debaixo dunha foto dunha mazá escribe "mazá". e debaixo dunha foto dun gato está a palabra "gato".

“Esta formación previa con vocabulario visual é, en esencia, a formación inicial necesaria para formar o sistema. Así é como intentamos desenvolver unha especie de memoria motora", dixo Huang.

O modelo adestrado previamente refírase cun conxunto de datos que inclúe imaxes etiquetadas. Nesta fase de adestramento, o modelo aprende a facer frases. Se aparece unha imaxe que contén novos obxectos, o sistema de IA usa o dicionario visual para crear descricións precisas.

"Para traballar con novos obxectos durante as probas, o sistema integra o que aprendeu durante o adestramento previo e durante o perfeccionamento posterior", di Wang.
Segundo os resultados investigación, cando se avaliou nas probas nocaps, o sistema de intelixencia artificial produciu descricións máis significativas e precisas que os humanos para as mesmas imaxes.

Transición máis rápida ao ambiente de traballo 

Entre outras cousas, o novo sistema de descrición de imaxes é dúas veces máis bo que o modelo utilizado nos produtos e servizos de Microsoft desde 2015, en comparación con outro referente da industria.

Tendo en conta os beneficios que todos os usuarios de produtos e servizos de Microsoft recibirán desta mellora, Huang acelerou a integración do novo modelo no contorno de traballo de Azure.

"Estamos levando esta tecnoloxía disruptiva de intelixencia artificial a Azure como plataforma para servir a unha gama máis ampla de clientes", dixo. "E isto non é só un avance na investigación. O tempo que levou incorporar este avance ao ambiente de produción de Azure tamén foi un avance".

Huang engadiu que conseguir resultados similares aos humanos continúa unha tendencia xa establecida nos sistemas de intelixencia cognitiva de Microsoft.

"Nos últimos cinco anos, conseguimos resultados similares aos humanos en cinco áreas principais: no recoñecemento de voz, na tradución automática, na resposta a preguntas, na lectura automática e na comprensión de textos e en 2020, a pesar do COVID-19, na descrición de imaxes. 'dixo Juan.

Por temas

Compara os resultados da descrición de imaxes que o sistema daba antes e agora usando AI

A tecnoloxía máis recente de Microsoft en Azure AI describe imaxes e persoas

Foto cortesía de Getty Images. Descrición anterior: primeiro plano dun home preparando un cachorro quente nunha táboa de cortar. Nova descrición: un home fai pan.

A tecnoloxía máis recente de Microsoft en Azure AI describe imaxes e persoas

Foto cortesía de Getty Images. Descrición anterior: un home está sentado ao pór do sol. Nova descrición: Fogueira na praia.

A tecnoloxía máis recente de Microsoft en Azure AI describe imaxes e persoas

Foto cortesía de Getty Images. Descrición anterior: Un home cunha camisa azul. Nova descrición: varias persoas que usan máscaras cirúrxicas.

A tecnoloxía máis recente de Microsoft en Azure AI describe imaxes e persoas

Foto cortesía de Getty Images. Descrición anterior: un home nun monopatín voa pola parede. Nova descrición: un xogador de béisbol colle unha pelota.

Fonte: www.habr.com

Engadir un comentario