L'última tecnologia de Microsoft en Azure AI descriu imatges i persones


Els investigadors de Microsoft han creat un sistema d'intel·ligència artificial capaç de generar subtítols d'imatges que, en molts casos, resulten més precises que les descripcions fetes per humans. Aquest avenç va marcar una fita important en el compromís de Microsoft per fer que els seus productes i serveis siguin inclusius i accessibles per a tots els usuaris.

"La descripció de la imatge és una de les funcions principals de la visió per ordinador, que fa possible una àmplia gamma de serveis", va dir Xuedong Huang (Xuedong Huang), un oficial tècnic de Microsoft i CTO d'Azure AI Cognitive Services a Redmond, Washington.

El nou model ja està disponible per als consumidors a través de Computer Vision a Serveis Cognitius Azure, que forma part d'Azure AI, i permet als desenvolupadors utilitzar aquesta funció per millorar la disponibilitat dels seus serveis. També s'inclou a l'aplicació Seeing AI i estarà disponible a finals d'any a Microsoft Word i Outlook per a Windows i Mac, així com PowerPoint per a Windows, Mac i al web.

La descripció automàtica ajuda els usuaris a accedir al contingut important de qualsevol imatge, ja sigui una foto que apareix als resultats de la cerca o una il·lustració per a una presentació.

"L'ús de subtítols que descriuen el contingut de les imatges (l'anomenat text alternatiu o alternatiu) a pàgines web i documents és especialment important per a persones cegues o amb discapacitat visual", va dir Saqib Sheikh (Saqib Shaikh), Gestor de programari del grup AI Platform de Microsoft a Redmond.

Per exemple, el seu equip està utilitzant una funció de descripció d'imatges millorada a l'aplicació per a persones cegues i amb discapacitat visual. Veure IA, que reconeix el que està captant la càmera i ho explica. L'aplicació utilitza subtítols generats per descriure fotos, fins i tot a les xarxes socials.

“Idealment, tothom hauria d'afegir text alternatiu a totes les imatges dels documents, a la web, a les xarxes socials, ja que això permet que les persones cegues puguin accedir al contingut i participar en la conversa. Però, per desgràcia, la gent no fa això", diu el xeic. "No obstant això, hi ha algunes aplicacions que utilitzen la funció de descripció d'imatges per afegir text alternatiu quan falta".
  
L'última tecnologia de Microsoft en Azure AI descriu imatges i persones

Liruan Wang, director general d'investigació del Redmond Lab de Microsoft, va dirigir un equip de recerca que va aconseguir i superar resultats humans. Foto: Dan DeLong.

Descripció de nous objectes

"La descripció d'imatges és una de les principals tasques de la visió per ordinador, que requereix un sistema d'intel·ligència artificial per entendre i descriure el contingut o l'acció principal que es presenta a la imatge", va explicar Liruan Wang.Lijuan Wang), director general d'investigació del laboratori de Redmond de Microsoft.

"Cal entendre què està passant, esbrinar quines són les relacions entre objectes i accions, i després resumir-ho i descriure-ho tot en una frase en llenguatge llegible per l'home", va dir.

Wang va dirigir l'equip de recerca, que en l'avaluació comparativa nocaps (subtítols d'objectes nous a escala, una descripció a gran escala de nous objectes) va aconseguir un resultat comparable a un humà i el va superar. Aquesta prova us permet avaluar com de bé els sistemes d'IA generen descripcions d'objectes representats que no s'inclouen al conjunt de dades en què s'ha entrenat el model.

Normalment, els sistemes de descripció d'imatges s'entrenen en conjunts de dades que contenen imatges acompanyades d'una descripció textual d'aquestes imatges, és a dir, en conjunts d'imatges signades.

"La prova nocaps mostra fins a quin punt el sistema és capaç de descriure nous objectes que no es troben a les dades d'entrenament", diu Wang.

Per resoldre aquest problema, l'equip de Microsoft va entrenar prèviament un gran model d'IA en un gran conjunt de dades que contenia imatges etiquetades amb paraules, cadascuna associada a un objecte específic de la imatge.

Els conjunts d'imatges amb etiquetes de paraules en comptes de subtítols complets són més eficients de crear, cosa que permet que l'equip de Wang introdueixi moltes dades al seu model. Aquest enfocament va donar al model el que l'equip anomena un vocabulari visual.

Tal com va explicar Huang, l'enfocament de l'aprenentatge previ que utilitza vocabulari visual és semblant a preparar els nens per a la lectura: primer, s'utilitza un llibre d'imatges en el qual s'associen paraules individuals amb imatges, per exemple, sota una foto d'una poma s'escriu "poma". i sota una foto d'un gat hi ha la paraula "cat".

“Aquesta formació prèvia amb vocabulari visual és, en essència, l'educació inicial necessària per formar el sistema. Així és com intentem desenvolupar una mena de memòria motora", va dir Huang.

A continuació, el model pre-entrenat es perfecciona amb un conjunt de dades que inclou imatges etiquetades. En aquesta etapa de formació, el model aprèn a fer frases. Si apareix una imatge que conté objectes nous, el sistema d'IA utilitza el diccionari visual per crear descripcions precises.

"Per treballar amb nous objectes durant les proves, el sistema integra el que va aprendre durant l'entrenament previ i durant el perfeccionament posterior", diu Wang.
Segons els resultats investigació, quan es va avaluar a les proves nocaps, el sistema d'IA va produir descripcions més significatives i precises que els humans per a les mateixes imatges.

Transició més ràpida a l'entorn laboral 

Entre altres coses, el nou sistema de descripció d'imatges és dues vegades més bo que el model utilitzat en productes i serveis de Microsoft des del 2015, en comparació amb un altre punt de referència del sector.

Tenint en compte els beneficis que rebran d'aquesta millora tots els usuaris dels productes i serveis de Microsoft, Huang va accelerar la integració del nou model a l'entorn de treball Azure.

"Estem portant aquesta tecnologia d'IA disruptiva a Azure com a plataforma per atendre una gamma més àmplia de clients", va dir. "I això no és només un avenç en la investigació. El temps que va trigar a incorporar aquest avenç a l'entorn de producció d'Azure també va ser un avenç".

Huang va afegir que aconseguir resultats semblants a humans continua una tendència ja establerta als sistemes d'intel·ligència cognitiva de Microsoft.

"Durant els últims cinc anys, hem aconseguit resultats semblants a humans en cinc àrees principals: en reconeixement de veu, en traducció automàtica, en respondre preguntes, en lectura automàtica i comprensió de textos, i el 2020, malgrat la COVID-19, en la descripció d'imatges. —va dir en Juan.

Per temes

Compareu els resultats de la descripció d'imatges que el sistema donava abans i ara utilitzant IA

L'última tecnologia de Microsoft en Azure AI descriu imatges i persones

Foto cortesia de Getty Images. Descripció anterior: Primer pla d'un home preparant un gosset calent sobre una taula de tallar. Nova descripció: un home fa pa.

L'última tecnologia de Microsoft en Azure AI descriu imatges i persones

Foto cortesia de Getty Images. Descripció anterior: Un home està assegut al capvespre. Nova descripció: Foguera a la platja.

L'última tecnologia de Microsoft en Azure AI descriu imatges i persones

Foto cortesia de Getty Images. Descripció anterior: Un home amb una camisa blava. Nova descripció: diverses persones que porten màscares quirúrgiques.

L'última tecnologia de Microsoft en Azure AI descriu imatges i persones

Foto cortesia de Getty Images. Descripció anterior: un home en monopatí vola per la paret. Nova descripció: un jugador de beisbol agafa una pilota.

Font: www.habr.com

Afegeix comentari