La dernière technologie de Microsoft dans Azure AI décrit les images aussi bien que les personnes


Les chercheurs de Microsoft ont créé un système d'intelligence artificielle capable de générer des légendes d'images qui, dans de nombreux cas, s'avèrent plus précises que les descriptions faites par les humains. Cette percée a marqué une étape majeure dans l'engagement de Microsoft à rendre ses produits et services inclusifs et accessibles à tous les utilisateurs.

"La description d'images est l'une des principales fonctions de la vision par ordinateur, ce qui rend possible une large gamme de services", a déclaré Xuedong Huang (Xuedong Huang), un agent technique Microsoft et CTO d'Azure AI Cognitive Services à Redmond, Washington.

Le nouveau modèle est maintenant disponible pour les consommateurs via Computer Vision à Services cognitifs Azure, qui fait partie d'Azure AI, et permet aux développeurs d'utiliser cette fonctionnalité pour améliorer la disponibilité de leurs services. Il est également inclus dans l'application Seeing AI et sera disponible plus tard cette année dans Microsoft Word et Outlook pour Windows et Mac, ainsi que PowerPoint pour Windows, Mac et sur le Web.

La description automatique aide les utilisateurs à accéder au contenu important de n'importe quelle image, qu'il s'agisse d'une photo renvoyée dans les résultats de recherche ou d'une illustration pour une présentation.

"L'utilisation de légendes décrivant le contenu des images (ce que l'on appelle le texte alternatif ou alternatif) sur les pages Web et les documents est particulièrement importante pour les personnes aveugles ou malvoyantes", a déclaré Saqib Sheikh (Saqib Cheikh), Software Manager chez Microsoft AI Platform Group à Redmond.

Par exemple, son équipe utilise une fonctionnalité de description d'image améliorée dans l'application pour les personnes aveugles et malvoyantes. Voir AI, qui reconnaît ce que la caméra capture et en parle. L'application utilise des légendes générées pour décrire les photos, y compris sur les réseaux sociaux.

« Idéalement, tout le monde devrait ajouter du texte alternatif à toutes les images dans les documents, sur le Web, sur les réseaux sociaux, car cela permet aux personnes aveugles d'accéder au contenu et de participer à la conversation. Mais, hélas, les gens ne font pas ça », dit le cheikh. "Cependant, il existe quelques applications qui utilisent la fonction de description d'image pour ajouter un texte alternatif lorsqu'il est manquant."
  
La dernière technologie de Microsoft dans Azure AI décrit les images aussi bien que les personnes

Liruan Wang, directeur général de la recherche au Redmond Lab de Microsoft, a dirigé une équipe de recherche qui a atteint et dépassé les résultats humains. Photo : Dan DeLong.

Description des nouveaux objets

"Décrire des images est l'une des tâches principales de la vision par ordinateur, qui nécessite un système d'intelligence artificielle pour comprendre et décrire le contenu principal ou l'action présentée dans l'image", a expliqué Liruan Wang (Lijuan Wang), directeur général de la recherche au laboratoire Microsoft de Redmond.

"Vous devez comprendre ce qui se passe, déterminer quelles sont les relations entre les objets et les actions, puis résumer et décrire le tout dans une phrase dans un langage lisible par l'homme", a-t-elle déclaré.

Wang a dirigé l'équipe de recherche qui, dans l'analyse comparative pas de majuscules (nouveau sous-titrage d'objets à grande échelle, une description à grande échelle de nouveaux objets) a obtenu un résultat comparable à celui de l'homme, et l'a dépassé. Ce test vous permet d'évaluer dans quelle mesure les systèmes d'IA génèrent des descriptions d'objets représentés qui ne sont pas inclus dans l'ensemble de données sur lequel le modèle a été formé.

Typiquement, les systèmes de description d'images sont formés sur des ensembles de données qui contiennent des images accompagnées d'une description textuelle de ces images, c'est-à-dire sur des ensembles d'images signées.

"Le test nocaps montre à quel point le système est capable de décrire de nouveaux objets non trouvés dans les données de formation", explique Wang.

Pour résoudre ce problème, l'équipe Microsoft a pré-formé un grand modèle d'IA sur un grand ensemble de données contenant des images étiquetées par mot, chacune associée à un objet spécifique dans l'image.

Les ensembles d'images avec des balises de mots au lieu de légendes complètes sont plus efficaces à créer, ce qui permet à l'équipe de Wang d'introduire beaucoup de données dans leur modèle. Cette approche a donné au modèle ce que l'équipe appelle un vocabulaire visuel.

Comme l'a expliqué Huang, l'approche de pré-apprentissage utilisant le vocabulaire visuel est similaire à la préparation des enfants à la lecture : tout d'abord, un livre d'images est utilisé dans lequel des mots individuels sont associés à des images, par exemple, sous une photo d'une pomme est écrit "pomme" et sous la photo d'un chat se trouve le mot "chat".

« Cette pré-formation avec le vocabulaire visuel est essentiellement la formation initiale nécessaire pour former le système. C'est ainsi que nous essayons de développer une sorte de mémoire motrice », a déclaré Huang.

Le modèle pré-formé est ensuite affiné avec un ensemble de données comprenant des images étiquetées. A ce stade de la formation, le modèle apprend à faire des phrases. Si une image contenant de nouveaux objets apparaît, le système d'IA utilise le dictionnaire visuel pour créer des descriptions précises.

"Pour travailler avec de nouveaux objets lors des tests, le système intègre ce qu'il a appris lors de la pré-formation et lors du raffinement ultérieur", explique Wang.
Selon les résultats recherche, lorsqu'il a été évalué sur les tests nocaps, le système d'IA a produit des descriptions plus significatives et précises que les humains pour les mêmes images.

Transition plus rapide vers l'environnement de travail 

Entre autres choses, le nouveau système de description d'images est deux fois meilleur que le modèle utilisé dans les produits et services Microsoft depuis 2015, par rapport à une autre référence de l'industrie.

Compte tenu des avantages que tous les utilisateurs des produits et services Microsoft tireront de cette amélioration, Huang a accéléré l'intégration du nouveau modèle dans l'environnement de travail Azure.

"Nous apportons cette technologie d'intelligence artificielle perturbatrice à Azure en tant que plate-forme pour servir un plus large éventail de clients", a-t-il déclaré. « Et ce n'est pas seulement une percée dans la recherche. Le temps qu'il a fallu pour intégrer cette percée dans l'environnement de production Azure a également été une percée.

Huang a ajouté que l'obtention de résultats de type humain poursuit une tendance déjà établie dans les systèmes d'intelligence cognitive de Microsoft.

"Au cours des cinq dernières années, nous avons obtenu des résultats proches de l'humain dans cinq domaines majeurs : dans la reconnaissance vocale, dans la traduction automatique, dans la réponse aux questions, dans la lecture automatique et la compréhension de texte, et en 2020, malgré le COVID-19, dans la description d'images. dit Juan.

Par thème

Comparez les résultats de la description des images que le système donnait auparavant et maintenant en utilisant l'IA

La dernière technologie de Microsoft dans Azure AI décrit les images aussi bien que les personnes

Photo publiée avec l'aimable autorisation de Getty Images. Description précédente : Gros plan d'un homme préparant un hot-dog sur une planche à découper. Nouvelle description : Un homme fait du pain.

La dernière technologie de Microsoft dans Azure AI décrit les images aussi bien que les personnes

Photo publiée avec l'aimable autorisation de Getty Images. Description précédente : Un homme est assis au coucher du soleil. Nouvelle description : Feu de joie sur la plage.

La dernière technologie de Microsoft dans Azure AI décrit les images aussi bien que les personnes

Photo publiée avec l'aimable autorisation de Getty Images. Description précédente : Un homme en chemise bleue. Nouvelle description : Plusieurs personnes portant des masques chirurgicaux.

La dernière technologie de Microsoft dans Azure AI décrit les images aussi bien que les personnes

Photo publiée avec l'aimable autorisation de Getty Images. Description précédente : Un homme sur une planche à roulettes vole sur le mur. Nouvelle description : Un joueur de baseball attrape une balle.

Source: habr.com

Ajouter un commentaire