Microsofts nyeste teknologi innen Azure AI beskriver bilder så vel som mennesker


Microsoft-forskere har laget et kunstig intelligenssystem som er i stand til å generere bildetekster som i mange tilfeller viser seg å være mer nøyaktige enn beskrivelser laget av mennesker. Dette gjennombruddet markerte en viktig milepæl i Microsofts forpliktelse til å gjøre produktene og tjenestene inkluderende og tilgjengelige for alle brukere.

"Bildebeskrivelse er en av hovedfunksjonene til datasyn, som gjør et bredt spekter av tjenester mulig," sa Xuedong Huang (Xuedong Huang), en Microsoft Technical Officer og CTO for Azure AI Cognitive Services i Redmond, Washington.

Den nye modellen er nå tilgjengelig for forbrukere gjennom Computer Vision på Azure kognitive tjenester, som er en del av Azure AI, og lar utviklere bruke denne funksjonen for å forbedre tilgjengeligheten til tjenestene deres. Den blir også inkludert i Seeing AI-appen og vil være tilgjengelig senere i år i Microsoft Word og Outlook for Windows og Mac, samt PowerPoint for Windows, Mac og på nettet.

Automatisk beskrivelse hjelper brukere med å få tilgang til det viktige innholdet i ethvert bilde, enten det er et bilde som returneres i søkeresultater eller en illustrasjon for en presentasjon.

"Bruk av bildetekster som beskriver innholdet i bilder (såkalt alternativ eller alternativ tekst) på nettsider og dokumenter er spesielt viktig for blinde eller synshemmede," sa Saqib Sheikh (Saqib Shaikh), Software Manager hos Microsofts AI Platform Group i Redmond.

For eksempel bruker teamet hans en forbedret bildebeskrivelsesfunksjon i appen for blinde og synshemmede. Ser AI, som gjenkjenner hva kameraet fanger og forteller om det. Appen bruker genererte bildetekster for å beskrive bilder, inkludert på sosiale medier.

«Ideelt sett bør alle legge til alt-tekst til alle bilder i dokumenter, på nettet, på sosiale nettverk, da dette lar blinde få tilgang til innholdet og ta del i samtalen. Men dessverre, folk gjør ikke dette, sier sjeiken. "Det er imidlertid noen få apper som bruker bildebeskrivelsesfunksjonen for å legge til alternativ tekst når den mangler."
  
Microsofts nyeste teknologi innen Azure AI beskriver bilder så vel som mennesker

Liruan Wang, daglig leder for forskning ved Microsofts Redmond Lab, ledet et forskerteam som oppnådde og overgikk menneskelige resultater. Foto: Dan DeLong.

Beskrivelse av nye objekter

"Å beskrive bilder er en av hovedoppgavene til datasyn, som krever et kunstig intelligenssystem for å forstå og beskrive hovedinnholdet eller handlingen som presenteres i bildet," forklarte Liruan Wang (Lijuan Wang), daglig leder for forskning ved Microsofts Redmond-laboratorium.

"Du må forstå hva som skjer, finne ut hva relasjonene er mellom objekter og handlinger, og deretter oppsummere og beskrive det hele i en setning på et språk som kan leses av mennesker," sa hun.

Wang ledet forskerteamet, som i benchmarking nocaps (novel object captioning at scale, en storstilt beskrivelse av nye objekter) oppnådde et resultat som kan sammenlignes med et menneskelig, og overgikk det. Denne testen lar deg evaluere hvor godt AI-systemer genererer beskrivelser av avbildede objekter som ikke er inkludert i datasettet som modellen ble trent på.

Vanligvis trenes bildebeskrivelsessystemer på datasett som inneholder bilder ledsaget av en tekstbeskrivelse av disse bildene, det vil si på sett med signerte bilder.

"Nocaps-testen viser hvor godt systemet er i stand til å beskrive nye objekter som ikke finnes i treningsdataene," sier Wang.

For å løse dette problemet har Microsoft-teamet forhåndstrent en stor AI-modell på et stort datasett som inneholder ordmerkede bilder, som hver er kartlagt til et spesifikt objekt i bildet.

Bildesett med ordmerker i stedet for fullstendige bildetekster er mer effektive å lage, noe som gjør at teamet til Wang kan mate mye data inn i modellen deres. Denne tilnærmingen ga modellen det teamet kaller et visuelt vokabular.

Som Huang forklarte, er pre-learning-tilnærmingen ved bruk av visuelt ordforråd lik det å forberede barn til lesing: først brukes en bildebok der individuelle ord er assosiert med bilder, for eksempel under et bilde av et eple er skrevet "eple" og under et bilde av en katt står ordet "katt".

«Denne foropplæringen med visuelle ordforråd er i hovedsak den første opplæringen som trengs for å trene systemet. Dette er hvordan vi prøver å utvikle en slags motorisk hukommelse," sa Huang.

Den forhåndstrente modellen foredles deretter med et datasett som inkluderer merkede bilder. På dette stadiet av opplæringen lærer modellen å lage setninger. Hvis et bilde som inneholder nye objekter vises, bruker AI-systemet den visuelle ordboken for å lage nøyaktige beskrivelser.

"For å jobbe med nye objekter under testing, integrerer systemet det det lærte under før-trening og under påfølgende foredling," sier Wang.
I følge resultatene forskning, når det ble evaluert på nocaps-testene, produserte AI-systemet mer meningsfylte og nøyaktige beskrivelser enn mennesker gjorde for de samme bildene.

Raskere overgang til arbeidsmiljø 

Blant annet er det nye bildebeskrivelsessystemet dobbelt så bra som modellen brukt i Microsoft-produkter og -tjenester siden 2015, sammenlignet med en annen bransjereferanse.

Tatt i betraktning fordelene som alle brukere av Microsoft-produkter og -tjenester vil motta fra denne forbedringen, akselererte Huang integreringen av den nye modellen i Azure-arbeidsmiljøet.

"Vi tar denne forstyrrende AI-teknologien til Azure som en plattform for å betjene et bredere spekter av kunder," sa han. "Og dette er ikke bare et forskningsgjennombrudd. Tiden det tok å inkorporere dette gjennombruddet i Azure-produksjonsmiljøet var også et gjennombrudd.»

Huang la til at å oppnå menneskelignende resultater fortsetter en trend som allerede er etablert i Microsofts kognitive intelligenssystemer.

"I løpet av de siste fem årene har vi oppnådd menneskelignende resultater på fem hovedområder: i talegjenkjenning, i maskinoversettelse, i å svare på spørsmål, i maskinlesing og tekstforståelse, og i 2020, til tross for COVID-19, i bildebeskrivelse sa Juan.

Etter emne

Sammenlign resultatene av beskrivelsen av bilder som systemet ga før og nå ved bruk av AI

Microsofts nyeste teknologi innen Azure AI beskriver bilder så vel som mennesker

Foto med tillatelse fra Getty Images. Tidligere beskrivelse: Nærbilde av en mann som forbereder en pølse på et skjærebrett. Ny beskrivelse: En mann lager brød.

Microsofts nyeste teknologi innen Azure AI beskriver bilder så vel som mennesker

Foto med tillatelse fra Getty Images. Tidligere beskrivelse: En mann sitter ved solnedgang. Ny beskrivelse: Bål på stranden.

Microsofts nyeste teknologi innen Azure AI beskriver bilder så vel som mennesker

Foto med tillatelse fra Getty Images. Tidligere beskrivelse: En mann i blå skjorte. Ny beskrivelse: Flere personer iført kirurgiske masker.

Microsofts nyeste teknologi innen Azure AI beskriver bilder så vel som mennesker

Foto med tillatelse fra Getty Images. Tidligere beskrivelse: En mann på et skateboard flyr opp veggen. Ny beskrivelse: En baseballspiller fanger en ball.

Kilde: www.habr.com

Legg til en kommentar