Microsofts nyeste teknologi i Azure AI beskriver billeder såvel som mennesker


Microsoft-forskere har skabt et kunstig intelligenssystem, der er i stand til at generere billedtekster, der i mange tilfælde viser sig at være mere nøjagtige end beskrivelser lavet af mennesker. Dette gennembrud markerede en vigtig milepæl i Microsofts forpligtelse til at gøre dets produkter og tjenester inkluderende og tilgængelige for alle brugere.

"Billedbeskrivelse er en af ​​hovedfunktionerne ved computersyn, som gør en bred vifte af tjenester mulige," sagde Xuedong Huang (Xuedong Huang), en Microsoft Technical Officer og CTO for Azure AI Cognitive Services i Redmond, Washington.

Den nye model er nu tilgængelig for forbrugerne gennem Computer Vision på Azure Cognitive Services, som er en del af Azure AI, og giver udviklere mulighed for at bruge denne funktion til at forbedre tilgængeligheden af ​​deres tjenester. Den er også inkluderet i Seeing AI-appen og vil være tilgængelig senere i år i Microsoft Word og Outlook til Windows og Mac samt PowerPoint til Windows, Mac og på nettet.

Automatisk beskrivelse hjælper brugere med at få adgang til det vigtige indhold af ethvert billede, uanset om det er et foto, der returneres i søgeresultater, eller en illustration til en præsentation.

"Brugen af ​​billedtekster, der beskriver indholdet af billeder (såkaldt alternativ eller alternativ tekst) på websider og dokumenter er især vigtig for blinde eller svagtseende mennesker," sagde Saqib Sheikh (Saqib Shaikh), Software Manager hos Microsofts AI Platform Group i Redmond.

For eksempel bruger hans team en forbedret billedbeskrivelsesfunktion i appen til blinde og synshandicappede. Se AI, som genkender hvad kameraet optager og fortæller om det. Appen bruger genererede billedtekster til at beskrive billeder, herunder på sociale medier.

”Ideelt set bør alle tilføje alt-tekst til alle billeder i dokumenter, på nettet, på sociale netværk, da det giver blinde mulighed for at få adgang til indholdet og deltage i samtalen. Men ak, folk gør ikke dette,” siger sheiken. "Der er dog nogle få apps, der bruger billedbeskrivelsesfunktionen til at tilføje alternativ tekst, når den mangler."
  
Microsofts nyeste teknologi i Azure AI beskriver billeder såvel som mennesker

Liruan Wang, general manager for forskning ved Microsofts Redmond Lab, ledede et forskerhold, der opnåede og overgik menneskelige resultater. Foto: Dan DeLong.

Beskrivelse af nye objekter

"At beskrive billeder er en af ​​computersynets hovedopgaver, som kræver et kunstig intelligenssystem for at forstå og beskrive hovedindholdet eller handlingen præsenteret i billedet," forklarede Liruan Wang (Lijuan Wang), general manager for forskning ved Microsofts Redmond-laboratorium.

"Du er nødt til at forstå, hvad der foregår, finde ud af, hvad relationerne er mellem objekter og handlinger, og derefter opsummere og beskrive det hele i en sætning i et sprog, der kan læses af mennesker," sagde hun.

Wang ledede forskerholdet, som i benchmarking nocaps (novel object captioning at scale, en storstilet beskrivelse af nye objekter) opnåede et resultat, der kunne sammenlignes med et menneskeligt, og overgik det. Denne test giver dig mulighed for at evaluere, hvor godt AI-systemer genererer beskrivelser af afbildede objekter, som ikke er inkluderet i det datasæt, som modellen blev trænet på.

Typisk trænes billedbeskrivelsessystemer på datasæt, der indeholder billeder ledsaget af en tekstbeskrivelse af disse billeder, det vil sige på sæt af signerede billeder.

"Nocaps-testen viser, hvor godt systemet er i stand til at beskrive nye objekter, der ikke findes i træningsdataene," siger Wang.

For at løse dette problem fortrænede Microsoft-teamet en stor AI-model på et stort datasæt indeholdende ordmærkede billeder, der hver især er knyttet til et bestemt objekt i billedet.

Billedsæt med ordmærker i stedet for fulde billedtekster er mere effektive at oprette, hvilket gør det muligt for Wangs team at indføje en masse data i deres model. Denne tilgang gav modellen, hvad teamet kalder et visuelt ordforråd.

Som Huang forklarede, ligner præ-læringstilgangen ved at bruge visuelt ordforråd til at forberede børn til læsning: for det første bruges en billedbog, hvor individuelle ord er forbundet med billeder, for eksempel under et foto af et æble er skrevet "æble" og under et foto af en kat er ordet "kat".

"Denne fortræning med visuelt ordforråd er i bund og grund den indledende uddannelse, der er nødvendig for at træne systemet. Det er sådan, vi forsøger at udvikle en slags motorisk hukommelse,” sagde Huang.

Den præ-trænede model forfines derefter med et datasæt, der inkluderer mærkede billeder. På dette stadium af træningen lærer modellen at lave sætninger. Hvis et billede, der indeholder nye objekter, vises, bruger AI-systemet den visuelle ordbog til at skabe nøjagtige beskrivelser.

"For at arbejde med nye objekter under testning, integrerer systemet det, det lærte under fortræning og under efterfølgende forfining," siger Wang.
Ifølge resultaterne forskning, når det blev evalueret på nocaps-testene, producerede AI-systemet mere meningsfulde og nøjagtige beskrivelser, end mennesker gjorde for de samme billeder.

Hurtigere overgang til arbejdsmiljø 

Blandt andet er det nye billedbeskrivelsessystem dobbelt så godt som den model, der er brugt i Microsofts produkter og tjenester siden 2015, sammenlignet med en anden branchebenchmark.

I betragtning af de fordele, som alle brugere af Microsoft-produkter og -tjenester vil modtage fra denne forbedring, accelererede Huang integrationen af ​​den nye model i Azure-arbejdsmiljøet.

"Vi tager denne forstyrrende AI-teknologi til Azure som en platform til at betjene en bredere vifte af kunder," sagde han. ”Og det her er ikke kun et gennembrud inden for forskning. Den tid, det tog at inkorporere dette gennembrud i Azure-produktionsmiljøet, var også et gennembrud."

Huang tilføjede, at opnåelse af menneskelignende resultater fortsætter en tendens, der allerede er etableret i Microsofts kognitive intelligenssystemer.

"I løbet af de seneste fem år har vi opnået menneskelignende resultater på fem hovedområder: i talegenkendelse, i maskinoversættelse, i besvarelse af spørgsmål, i maskinlæsning og tekstforståelse og i 2020, trods COVID-19, i billedbeskrivelse sagde Juan.

Efter emne

Sammenlign resultaterne af beskrivelsen af ​​billeder, som systemet gav før og nu ved brug af AI

Microsofts nyeste teknologi i Azure AI beskriver billeder såvel som mennesker

Foto udlånt af Getty Images. Tidligere beskrivelse: Nærbillede af en mand, der forbereder en hotdog på et skærebræt. Ny beskrivelse: En mand laver brød.

Microsofts nyeste teknologi i Azure AI beskriver billeder såvel som mennesker

Foto udlånt af Getty Images. Tidligere beskrivelse: En mand sidder ved solnedgang. Ny beskrivelse: Bål på stranden.

Microsofts nyeste teknologi i Azure AI beskriver billeder såvel som mennesker

Foto udlånt af Getty Images. Tidligere beskrivelse: En mand i blå skjorte. Ny beskrivelse: Flere personer iført kirurgiske masker.

Microsofts nyeste teknologi i Azure AI beskriver billeder såvel som mennesker

Foto udlånt af Getty Images. Tidligere beskrivelse: En mand på et skateboard flyver op ad væggen. Ny beskrivelse: En baseballspiller fanger en bold.

Kilde: www.habr.com

Tilføj en kommentar