Microsofts senaste teknik inom Azure AI beskriver bilder såväl som människor


Microsofts forskare har skapat ett artificiell intelligenssystem som kan generera bildtexter som i många fall visar sig vara mer exakta än beskrivningar gjorda av människor. Detta genombrott markerade en viktig milstolpe i Microsofts engagemang för att göra sina produkter och tjänster inkluderande och tillgängliga för alla användare.

"Bildbeskrivning är en av huvudfunktionerna för datorseende, vilket gör ett brett utbud av tjänster möjliga", säger Xuedong Huang (Xuedong Huang), en Microsoft Technical Officer och CTO för Azure AI Cognitive Services i Redmond, Washington.

Den nya modellen är nu tillgänglig för konsumenter via Computer Vision på Azure Cognitive Services, som är en del av Azure AI, och låter utvecklare använda den här funktionen för att förbättra tillgängligheten för sina tjänster. Den ingår också i Seeing AI-appen och kommer att finnas tillgänglig senare i år i Microsoft Word och Outlook för Windows och Mac, samt PowerPoint för Windows, Mac och på webben.

Automatisk beskrivning hjälper användare att komma åt det viktiga innehållet i alla bilder, oavsett om det är ett foto som returneras i sökresultaten eller en illustration för en presentation.

"Användningen av bildtexter som beskriver innehållet i bilder (så kallad alternativ eller alternativ text) på webbsidor och dokument är särskilt viktigt för blinda eller synskadade personer", säger Saqib Sheikh (Saqib Shaikh), Software Manager på Microsofts AI Platform Group i Redmond.

Till exempel använder hans team en förbättrad bildbeskrivningsfunktion i appen för blinda och synskadade. Se AI, som känner igen vad kameran fångar och berättar om det. Appen använder genererade bildtexter för att beskriva bilder, inklusive på sociala medier.

”Helst borde alla lägga till alt-text till alla bilder i dokument, på webben, på sociala nätverk, eftersom det gör att blinda kan komma åt innehållet och delta i konversationen. Men tyvärr, folk gör inte det här”, säger shejken. "Det finns dock några appar som använder bildbeskrivningsfunktionen för att lägga till alternativ text när den saknas."
  
Microsofts senaste teknik inom Azure AI beskriver bilder såväl som människor

Liruan Wang, chef för forskning vid Microsofts Redmond Lab, ledde ett forskarlag som uppnådde och överträffade mänskliga resultat. Foto: Dan DeLong.

Beskrivning av nya objekt

"Att beskriva bilder är en av huvuduppgifterna för datorseende, vilket kräver ett artificiellt intelligenssystem för att förstå och beskriva huvudinnehållet eller handlingen som presenteras i bilden," förklarade Liruan Wang (Lijuan Wang), chef för forskning vid Microsofts Redmond-labb.

"Du måste förstå vad som händer, ta reda på vad sambanden är mellan objekt och handlingar, och sedan sammanfatta och beskriva det hela i en mening på ett läsbart språk," sa hon.

Wang ledde forskargruppen, som i benchmarking inga kepsar (novel object captioning at scale, en storskalig beskrivning av nya objekt) uppnådde ett resultat som var jämförbart med ett mänskligt och överträffade det. Denna testning låter dig utvärdera hur väl AI-system genererar beskrivningar av avbildade objekt som inte ingår i datamängden som modellen tränades på.

Vanligtvis tränas bildbeskrivningssystem på datamängder som innehåller bilder åtföljda av en textbeskrivning av dessa bilder, det vill säga på uppsättningar av signerade bilder.

"Nocaps-testet visar hur väl systemet kan beskriva nya objekt som inte finns i träningsdatan", säger Wang.

För att lösa detta problem förutbildade Microsoft-teamet en stor AI-modell på en stor datamängd innehållande ordtaggade bilder, var och en associerad med ett specifikt objekt i bilden.

Bilduppsättningar med ordtaggar istället för fullständiga bildtexter är mer effektiva att skapa, vilket gör att Wangs team kan mata in mycket data i sin modell. Detta tillvägagångssätt gav modellen vad teamet kallar ett visuellt ordförråd.

Som Huang förklarade, liknar förinlärningsmetoden med hjälp av visuella ordförråd som att förbereda barn för läsning: först används en bilderbok där enskilda ord associeras med bilder, till exempel under ett foto av ett äpple skrivs "äpple" och under ett foto av en katt står ordet "katt".

"Denna förträning med visuella ordförråd är i grunden den grundläggande utbildningen som behövs för att träna systemet. Det är så vi försöker utveckla ett slags motoriskt minne”, sa Huang.

Den förtränade modellen förfinas sedan med ett dataset inklusive märkta bilder. I detta skede av träningen lär sig modellen att göra meningar. Om en bild som innehåller nya objekt visas använder AI-systemet den visuella ordboken för att skapa korrekta beskrivningar.

"För att arbeta med nya objekt under testning, integrerar systemet det det lärt sig under förträning och under efterföljande förfining", säger Wang.
Enligt resultaten forskning, när det utvärderades på nocaps-testerna, producerade AI-systemet mer meningsfulla och korrekta beskrivningar än människor gjorde för samma bilder.

Snabbare övergång till arbetsmiljö 

Bland annat är det nya bildbeskrivningssystemet dubbelt så bra som den modell som använts i Microsofts produkter och tjänster sedan 2015, jämfört med ett annat branschriktmärke.

Med tanke på fördelarna som alla användare av Microsofts produkter och tjänster kommer att få av denna förbättring, accelererade Huang integrationen av den nya modellen i Azures arbetsmiljö.

"Vi tar denna störande AI-teknik till Azure som en plattform för att betjäna ett bredare spektrum av kunder," sa han. "Och det här är inte bara ett forskningsgenombrott. Tiden det tog att införliva detta genombrott i Azures produktionsmiljö var också ett genombrott.”

Huang tillade att att uppnå mänskliga resultat fortsätter en trend som redan etablerats i Microsofts kognitiva intelligenssystem.

"Under de senaste fem åren har vi uppnått människoliknande resultat inom fem huvudområden: i taligenkänning, i maskinöversättning, i att svara på frågor, i maskinläsning och textförståelse, och 2020, trots covid-19, i bildbeskrivningar sa Juan.

Efter ämne

Jämför resultaten av beskrivningen av bilder som systemet gav tidigare och nu med AI

Microsofts senaste teknik inom Azure AI beskriver bilder såväl som människor

Foto med tillstånd av Getty Images. Tidigare beskrivning: Närbild av en man som förbereder en varmkorv på en skärbräda. Ny beskrivning: En man bakar bröd.

Microsofts senaste teknik inom Azure AI beskriver bilder såväl som människor

Foto med tillstånd av Getty Images. Tidigare beskrivning: En man sitter i solnedgången. Ny beskrivning: Brasa på stranden.

Microsofts senaste teknik inom Azure AI beskriver bilder såväl som människor

Foto med tillstånd av Getty Images. Tidigare beskrivning: En man i blå skjorta. Ny beskrivning: Flera personer bär kirurgiska masker.

Microsofts senaste teknik inom Azure AI beskriver bilder såväl som människor

Foto med tillstånd av Getty Images. Tidigare beskrivning: En man på en skateboard flyger uppför väggen. Ny beskrivning: En basebollspelare fångar en boll.

Källa: will.com

Lägg en kommentar