La última tecnología de Microsoft en Azure AI describe imágenes además de personas


Investigadores de Microsoft han creado un sistema de inteligencia artificial capaz de generar leyendas de imágenes que, en muchos casos, resultan más precisas que las descripciones hechas por humanos. Este avance marcó un hito importante en el compromiso de Microsoft de hacer que sus productos y servicios sean inclusivos y accesibles para todos los usuarios.

“La descripción de la imagen es una de las funciones principales de la visión por computadora, lo que hace posible una amplia gama de servicios”, dijo Xuedong Huang (Xuedong Huang), oficial técnico de Microsoft y CTO de Azure AI Cognitive Services en Redmond, Washington.

El nuevo modelo ya está disponible para los consumidores a través de Computer Vision en Servicios cognitivos de Azure, que forma parte de Azure AI y permite a los desarrolladores utilizar esta característica para mejorar la disponibilidad de sus servicios. También se incluirá en la aplicación Seeing AI y estará disponible más adelante este año en Microsoft Word y Outlook para Windows y Mac, así como en PowerPoint para Windows, Mac y en la web.

La descripción automática ayuda a los usuarios a acceder al contenido importante de cualquier imagen, ya sea una foto devuelta en los resultados de búsqueda o una ilustración para una presentación.

“El uso de subtítulos que describen el contenido de las imágenes (el llamado texto alternativo o alternativo) en páginas web y documentos es especialmente importante para las personas ciegas o con problemas de visión”, dijo Saqib Sheikh (Saqib jeque), Gerente de software en AI Platform Group de Microsoft en Redmond.

Por ejemplo, su equipo está utilizando una función de descripción de imágenes mejorada en la aplicación para personas ciegas y con problemas de visión. Al ver a AI, que reconoce lo que está capturando la cámara y lo cuenta. La aplicación utiliza subtítulos generados para describir fotos, incluso en las redes sociales.

“Idealmente, todos deberían agregar texto alternativo a todas las imágenes en documentos, en la web, en redes sociales, ya que esto permite que las personas ciegas accedan al contenido y participen en la conversación. Pero, por desgracia, la gente no hace esto”, dice el jeque. "Sin embargo, hay algunas aplicaciones que usan la función de descripción de la imagen para agregar texto alternativo cuando falta".
  
La última tecnología de Microsoft en Azure AI describe imágenes además de personas

Liruan Wang, gerente general de investigación en Redmond Lab de Microsoft, dirigió un equipo de investigación que logró y superó los resultados humanos. Foto: Dan DeLong.

Descripción de nuevos objetos.

“Describir imágenes es una de las principales tareas de la visión artificial, que requiere un sistema de inteligencia artificial para comprender y describir el contenido principal o la acción que se presenta en la imagen”, explicó Liruan Wang (Lijuan Wang), director general de investigación del laboratorio Redmond de Microsoft.

“Necesita comprender lo que está sucediendo, descubrir cuáles son las relaciones entre los objetos y las acciones, y luego resumirlo y describirlo todo en una oración en un lenguaje legible por humanos”, dijo.

Wang dirigió el equipo de investigación, que en la evaluación comparativa Sin mayúsculas (novedosos subtítulos de objetos a escala, una descripción a gran escala de nuevos objetos) logró un resultado comparable al humano, y lo superó. Esta prueba le permite evaluar qué tan bien los sistemas de IA generan descripciones de objetos representados que no están incluidos en el conjunto de datos en el que se entrenó el modelo.

Normalmente, los sistemas de descripción de imágenes se entrenan en conjuntos de datos que contienen imágenes acompañadas de una descripción textual de estas imágenes, es decir, en conjuntos de imágenes firmadas.

"La prueba de nocaps muestra qué tan bien el sistema puede describir nuevos objetos que no se encuentran en los datos de entrenamiento", dice Wang.

Para resolver este problema, el equipo de Microsoft entrenó previamente un gran modelo de IA en un gran conjunto de datos que contenía imágenes etiquetadas con palabras, cada una asociada con un objeto específico en la imagen.

Los conjuntos de imágenes con etiquetas de palabras en lugar de subtítulos completos son más eficientes de crear, lo que permite que el equipo de Wang ingrese una gran cantidad de datos en su modelo. Este enfoque le dio al modelo lo que el equipo llama un vocabulario visual.

Como explicó Huang, el enfoque de preaprendizaje que usa vocabulario visual es similar a preparar a los niños para la lectura: primero, se usa un libro ilustrado en el que las palabras individuales se asocian con imágenes, por ejemplo, debajo de una foto de una manzana está escrito "manzana". y debajo de una foto de un gato está la palabra "gato".

“Este preentrenamiento con vocabulario visual es, en esencia, la educación inicial necesaria para entrenar el sistema. Así es como tratamos de desarrollar una especie de memoria motora”, dijo Huang.

Luego, el modelo preentrenado se refina con un conjunto de datos que incluye imágenes etiquetadas. En esta etapa de entrenamiento, el modelo aprende a hacer oraciones. Si aparece una imagen que contiene nuevos objetos, el sistema de IA utiliza el diccionario visual para crear descripciones precisas.

“Para trabajar con objetos nuevos durante las pruebas, el sistema integra lo que aprendió durante el entrenamiento previo y durante el refinamiento posterior”, dice Wang.
De acuerdo a los resultados investigación, cuando se evaluó en las pruebas de nocaps, el sistema de IA produjo descripciones más significativas y precisas que las que hicieron los humanos para las mismas imágenes.

Transición más rápida al entorno laboral 

Entre otras cosas, el nuevo sistema de descripción de imágenes es el doble de bueno que el modelo utilizado en los productos y servicios de Microsoft desde 2015, en comparación con otro punto de referencia de la industria.

Teniendo en cuenta los beneficios que todos los usuarios de productos y servicios de Microsoft recibirán con esta mejora, Huang aceleró la integración del nuevo modelo en el entorno de trabajo de Azure.

“Estamos llevando esta tecnología disruptiva de IA a Azure como una plataforma para servir a una gama más amplia de clientes”, dijo. “Y esto no es solo un avance en la investigación. El tiempo que llevó incorporar este avance en el entorno de producción de Azure también fue un avance”.

Huang agregó que lograr resultados similares a los humanos continúa una tendencia ya establecida en los sistemas de inteligencia cognitiva de Microsoft.

“Durante los últimos cinco años, hemos logrado resultados similares a los humanos en cinco áreas principales: reconocimiento de voz, traducción automática, respuesta a preguntas, lectura automática y comprensión de textos, y en 2020, a pesar de COVID-19, en descripción de imágenes. ', dijo Juan.

Por tema

Compara los resultados de la descripción de imágenes que daba el sistema antes y ahora usando IA

La última tecnología de Microsoft en Azure AI describe imágenes además de personas

Foto cortesía de Getty Images. Descripción anterior: Primer plano de un hombre preparando un perrito caliente en una tabla de cortar. Nueva descripción: Un hombre hace pan.

La última tecnología de Microsoft en Azure AI describe imágenes además de personas

Foto cortesía de Getty Images. Descripción anterior: Un hombre está sentado al atardecer. Nueva descripción: Hoguera en la playa.

La última tecnología de Microsoft en Azure AI describe imágenes además de personas

Foto cortesía de Getty Images. Descripción previa: Un hombre con camisa azul. Nueva descripción: Varias personas con mascarillas quirúrgicas.

La última tecnología de Microsoft en Azure AI describe imágenes además de personas

Foto cortesía de Getty Images. Descripción previa: Un hombre en patineta vuela por la pared. Nueva descripción: Un jugador de béisbol atrapa una pelota.

Fuente: habr.com

Añadir un comentario