De nieuwste technologie van Microsoft in Azure AI beschrijft zowel afbeeldingen als mensen


Microsoft-onderzoekers hebben een kunstmatige-intelligentiesysteem ontwikkeld dat in staat is om bijschriften bij afbeeldingen te genereren die in veel gevallen nauwkeuriger blijken te zijn dan beschrijvingen die door mensen zijn gemaakt. Deze doorbraak markeerde een belangrijke mijlpaal in de toewijding van Microsoft om zijn producten en diensten inclusief en toegankelijk te maken voor alle gebruikers.

"Beeldbeschrijving is een van de belangrijkste functies van computervisie, wat een breed scala aan diensten mogelijk maakt", zegt Xuedong Huang (Xuedong Huang), een Microsoft Technical Officer en CTO van Azure AI Cognitive Services in Redmond, Washington.

Het nieuwe model is nu beschikbaar voor consumenten via Computer Vision op Azure cognitieve services, dat deel uitmaakt van Azure AI, en waarmee ontwikkelaars deze functie kunnen gebruiken om de beschikbaarheid van hun services te verbeteren. Het wordt ook opgenomen in de Seeing AI-app en zal later dit jaar beschikbaar zijn in Microsoft Word en Outlook voor Windows en Mac, evenals PowerPoint voor Windows, Mac en op het web.

Automatische beschrijving helpt gebruikers toegang te krijgen tot de belangrijke inhoud van elke afbeelding, of het nu een foto is die wordt geretourneerd in zoekresultaten of een illustratie voor een presentatie.

"Het gebruik van bijschriften die de inhoud van afbeeldingen beschrijven (zogenaamde alternatieve of alternatieve tekst) op webpagina's en documenten is vooral belangrijk voor blinden of slechtzienden", zegt Saqib Sheikh (Saqib Shaikh), Software Manager bij Microsoft's AI Platform Group in Redmond.

Zo gebruikt zijn team een ​​verbeterde beeldbeschrijvingsfunctie in de app voor blinden en slechtzienden. AI zien, die herkent wat de camera vastlegt en daarover vertelt. De app gebruikt gegenereerde bijschriften om foto's te beschrijven, ook op sociale media.

“Idealiter zou iedereen alt-tekst moeten toevoegen aan alle afbeeldingen in documenten, op het web, op sociale netwerken, omdat dit blinde mensen toegang geeft tot de inhoud en kan deelnemen aan het gesprek. Maar helaas, mensen doen dit niet', zegt de sjeik. "Er zijn echter een paar apps die de afbeeldingsbeschrijvingsfunctie gebruiken om alternatieve tekst toe te voegen wanneer deze ontbreekt."
  
De nieuwste technologie van Microsoft in Azure AI beschrijft zowel afbeeldingen als mensen

Liruan Wang, general manager research bij Microsoft's Redmond Lab, leidde een onderzoeksteam dat menselijke resultaten behaalde en overtrof. Foto: Dan DeLong.

Beschrijving van nieuwe objecten

"Het beschrijven van afbeeldingen is een van de belangrijkste taken van computervisie, waarvoor een systeem van kunstmatige intelligentie nodig is om de belangrijkste inhoud of actie die in de afbeelding wordt gepresenteerd, te begrijpen en te beschrijven", legt Liruan Wang (Lijuan Wang), general manager research bij Microsoft's Redmond lab.

"Je moet begrijpen wat er aan de hand is, uitzoeken wat de relaties zijn tussen objecten en acties, en dan alles samenvatten en beschrijven in een zin in voor mensen leesbare taal," zei ze.

Wang leidde het onderzoeksteam, dat zich bezighield met benchmarking geen hoofdletters (nieuwe objecttiteling op schaal, een grootschalige beschrijving van nieuwe objecten) bereikte een resultaat vergelijkbaar met een menselijk resultaat en overtrof het. Met deze tests kunt u evalueren hoe goed AI-systemen beschrijvingen genereren van afgebeelde objecten die niet zijn opgenomen in de dataset waarop het model is getraind.

Typisch worden beeldbeschrijvingssystemen getraind op datasets die afbeeldingen bevatten vergezeld van een tekstuele beschrijving van deze afbeeldingen, dat wil zeggen op sets van ondertekende afbeeldingen.

"De nocaps-test laat zien hoe goed het systeem nieuwe objecten kan beschrijven die niet in de trainingsgegevens voorkomen", zegt Wang.

Om dit probleem op te lossen, heeft het Microsoft-team een ​​groot AI-model vooraf getraind op een grote dataset met afbeeldingen met woordlabels, elk toegewezen aan een specifiek object in de afbeelding.

Afbeeldingensets met woordtags in plaats van volledige bijschriften zijn efficiënter te maken, waardoor het team van Wang veel gegevens in hun model kan invoeren. Deze benadering gaf het model wat het team een ​​visueel vocabulaire noemt.

Zoals Huang uitlegde, is de pre-learningbenadering met behulp van visuele woordenschat vergelijkbaar met het voorbereiden van kinderen op lezen: eerst wordt een prentenboek gebruikt waarin individuele woorden worden geassocieerd met afbeeldingen, bijvoorbeeld onder een foto van een appel staat "appel". en onder een foto van een kat staat het woord "kat".

“Deze vooropleiding met visuele woordenschat is in wezen de initiële opleiding die nodig is om het systeem te trainen. Zo proberen we een soort motorisch geheugen te ontwikkelen”, zei Huang.

Het vooraf getrainde model wordt vervolgens verfijnd met een dataset inclusief gelabelde afbeeldingen. In deze trainingsfase leert het model zinnen te maken. Als er een afbeelding met nieuwe objecten verschijnt, gebruikt het AI-systeem het visuele woordenboek om nauwkeurige beschrijvingen te maken.

"Om tijdens het testen met nieuwe objecten te werken, integreert het systeem wat het tijdens de pre-training en tijdens de daaropvolgende verfijning heeft geleerd", zegt Wang.
огласно езультатам onderzoek, bij evaluatie op de nocaps-tests, produceerde het AI-systeem betekenisvollere en nauwkeurigere beschrijvingen dan mensen deden voor dezelfde afbeeldingen.

Snellere overgang naar de werkomgeving 

Het nieuwe beeldbeschrijvingssysteem is onder andere twee keer zo goed als het model dat sinds 2015 in Microsoft-producten en -diensten wordt gebruikt, in vergelijking met een andere branchebenchmark.

Gezien de voordelen die alle gebruikers van Microsoft-producten en -diensten zullen halen uit deze verbetering, versnelde Huang de integratie van het nieuwe model in de Azure-werkomgeving.

"We brengen deze ontwrichtende AI-technologie naar Azure als een platform om een ​​breder scala aan klanten te bedienen", zei hij. “En dit is niet alleen een doorbraak in onderzoek. De tijd die het kostte om deze doorbraak in de Azure-productieomgeving te integreren, was ook een doorbraak.”

Huang voegde eraan toe dat het bereiken van mensachtige resultaten een trend voortzet die al is vastgesteld in de cognitieve intelligentiesystemen van Microsoft.

“De afgelopen vijf jaar hebben we mensachtige resultaten behaald op vijf belangrijke gebieden: in spraakherkenning, in machinevertaling, in het beantwoorden van vragen, in machinelezen en tekstbegrip, en in 2020, ondanks COVID-19, in beeldbeschrijving ' zei Juan.

Op onderwerp

Vergelijk de resultaten van de beschrijving van afbeeldingen die het systeem eerder gaf en nu met behulp van AI

De nieuwste technologie van Microsoft in Azure AI beschrijft zowel afbeeldingen als mensen

Foto met dank aan Getty Images. Vorige beschrijving: Close-up van een man die een hotdog klaarmaakt op een snijplank. Nieuwe omschrijving: Een man bakt brood.

De nieuwste technologie van Microsoft in Azure AI beschrijft zowel afbeeldingen als mensen

Foto met dank aan Getty Images. Vorige beschrijving: Een man zit bij zonsondergang. Nieuwe omschrijving: Vreugdevuur op het strand.

De nieuwste technologie van Microsoft in Azure AI beschrijft zowel afbeeldingen als mensen

Foto met dank aan Getty Images. Vorige beschrijving: Een man in een blauw overhemd. Nieuwe beschrijving: meerdere mensen met chirurgische maskers.

De nieuwste technologie van Microsoft in Azure AI beschrijft zowel afbeeldingen als mensen

Foto met dank aan Getty Images. Vorige beschrijving: Een man op een skateboard vliegt tegen de muur op. Nieuwe omschrijving: Een honkbalspeler vangt een bal.

Bron: www.habr.com

Voeg een reactie