Microsoft se nuutste tegnologie in Azure AI beskryf beelde sowel as mense


Microsoft-navorsers het 'n kunsmatige intelligensiestelsel geskep wat in staat is om beeldbyskrifte te genereer wat in baie gevalle meer akkuraat blyk te wees as beskrywings wat deur mense gemaak is. Hierdie deurbraak was 'n groot mylpaal in Microsoft se verbintenis om sy produkte en dienste inklusief en toeganklik vir alle gebruikers te maak.

"Beeldbeskrywing is een van die hooffunksies van rekenaarvisie, wat 'n wye reeks dienste moontlik maak," het Xuedong Huang (Xuedong Huang), 'n Microsoft Tegniese Beampte en CTO van Azure AI Cognitive Services in Redmond, Washington.

Die nuwe model is nou beskikbaar vir verbruikers deur Computer Vision by Azure kognitiewe dienste, wat deel is van Azure AI, en laat ontwikkelaars toe om hierdie kenmerk te gebruik om die beskikbaarheid van hul dienste te verbeter. Dit word ook by die Seeing KI-toepassing ingesluit en sal later vanjaar beskikbaar wees in Microsoft Word en Outlook vir Windows en Mac, sowel as PowerPoint vir Windows, Mac en op die web.

Outobeskrywing help gebruikers om toegang tot die belangrike inhoud van enige prent te kry, of dit nou 'n foto is wat in soekresultate of illustrasie vir 'n aanbieding is.

"Die gebruik van onderskrifte wat die inhoud van beelde (sogenaamde alternatiewe of alternatiewe teks) op webblaaie en dokumente beskryf, is veral belangrik vir blinde of gesiggestremde mense," het Saqib Sheikh (Saqib Shaikh), Sagtewarebestuurder by Microsoft se AI Platform Group in Redmond.

Sy span gebruik byvoorbeeld 'n verbeterde beeldbeskrywing-funksie in die toepassing vir blinde en gesiggestremdes. Sien KI, wat herken wat die kamera vasvang en daaroor vertel. Die toepassing gebruik gegenereerde onderskrifte om foto's te beskryf, insluitend op sosiale media.

“Ideaal gesproke moet almal alt-teks by alle beelde in dokumente, op die web, op sosiale netwerke voeg, aangesien dit blinde mense toelaat om toegang tot die inhoud te kry en aan die gesprek deel te neem. Maar, helaas, mense doen dit nie,” sê die Sheikh. "Daar is egter 'n paar toepassings wat die beeldbeskrywing-funksie gebruik om alternatiewe teks by te voeg wanneer dit ontbreek."
  
Microsoft se nuutste tegnologie in Azure AI beskryf beelde sowel as mense

Liruan Wang, hoofbestuurder van navorsing by Microsoft se Redmond Lab, het 'n navorsingspan gelei wat menslike resultate behaal en oortref het. Foto: Dan DeLong.

Beskrywing van nuwe voorwerpe

"Om beelde te beskryf is een van die hooftake van rekenaarvisie, wat 'n kunsmatige intelligensiestelsel vereis om die hoofinhoud of aksie wat in die beeld aangebied word te verstaan ​​en te beskryf," verduidelik Liruan Wang (Lijuan Wang), hoofbestuurder van navorsing by Microsoft se Redmond-laboratorium.

"Jy moet verstaan ​​wat aangaan, uitvind wat die verhoudings tussen voorwerpe en aksies is, en dan dit alles in 'n sin in 'n mens-leesbare taal opsom en beskryf," het sy gesê.

Wang het die navorsingspan gelei, wat in benchmarking nocaps (roman object captioning op skaal, 'n grootskaalse beskrywing van nuwe objekte) het 'n resultaat behaal wat vergelykbaar is met 'n menslike een, en dit oortref. Hierdie toetsing laat jou toe om te evalueer hoe goed KI-stelsels beskrywings genereer van uitgebeelde voorwerpe wat nie ingesluit is in die datastel waarop die model opgelei is nie.

Tipies word beeldbeskrywingstelsels opgelei op datastelle wat beelde bevat vergesel van 'n tekstuele beskrywing van hierdie beelde, dit wil sê op stelle getekende beelde.

"Die nocaps-toets wys hoe goed die stelsel in staat is om nuwe voorwerpe te beskryf wat nie in die opleidingsdata gevind word nie," sê Wang.

Om hierdie probleem op te los, het die Microsoft-span vooraf 'n groot KI-model opgelei op 'n groot datastel wat woordgemerkte beelde bevat, wat elk met 'n spesifieke voorwerp in die beeld geassosieer word.

Beeldstelle met woordetikette in plaas van volledige onderskrifte is doeltreffender om te skep, wat Wang se span in staat stel om baie data in hul model in te voer. Hierdie benadering het die model gegee wat die span 'n visuele woordeskat noem.

Soos Huang verduidelik het, is die voorleerbenadering met behulp van visuele woordeskat soortgelyk aan die voorbereiding van kinders vir lees: eerstens word 'n prenteboek gebruik waarin individuele woorde met beelde geassosieer word, byvoorbeeld, onder 'n foto van 'n appel word "appel" geskryf. en onder 'n foto van 'n kat is die woord "kat".

“Hierdie vooropleiding met visuele woordeskat is in wese die aanvanklike opleiding wat nodig is om die stelsel op te lei. Dit is hoe ons probeer om 'n soort motoriese geheue te ontwikkel,” het Huang gesê.

Die vooraf-opgeleide model word dan verfyn met 'n datastel wat benoemde beelde insluit. Op hierdie stadium van opleiding leer die model om sinne te maak. As 'n prent wat nuwe voorwerpe bevat, verskyn, gebruik die KI-stelsel die visuele woordeboek om akkurate beskrywings te skep.

"Om met nuwe voorwerpe te werk tydens toetsing, integreer die stelsel wat dit tydens vooropleiding en tydens daaropvolgende verfyning geleer het," sê Wang.
Volgens die resultate Navorsing, wanneer dit op die nocaps-toetse geëvalueer is, het die KI-stelsel meer betekenisvolle en akkurate beskrywings opgelewer as wat mense vir dieselfde beelde gedoen het.

Vinniger oorgang na die werksomgewing 

Die nuwe beeldbeskrywingstelsel is onder meer twee keer so goed as die model wat sedert 2015 in Microsoft-produkte en -dienste gebruik word, in vergelyking met 'n ander industrie-maatstaf.

Met inagneming van die voordele wat alle gebruikers van Microsoft-produkte en -dienste uit hierdie verbetering sal ontvang, het Huang die integrasie van die nuwe model in die Azure-werkomgewing versnel.

"Ons neem hierdie ontwrigtende KI-tegnologie na Azure as 'n platform om 'n groter verskeidenheid kliënte te bedien," het hy gesê. “En dit is nie net 'n deurbraak in navorsing nie. Die tyd wat dit geneem het om hierdie deurbraak in die Azure-produksie-omgewing te inkorporeer, was ook 'n deurbraak.”

Huang het bygevoeg dat die bereiking van menslike resultate 'n tendens voortduur wat reeds in Microsoft se kognitiewe intelligensiestelsels gevestig is.

“Oor die afgelope vyf jaar het ons menslike resultate op vyf hoofgebiede behaal: in spraakherkenning, in masjienvertaling, in die beantwoording van vrae, in masjienlees en teksverstaan, en in 2020, ten spyte van COVID-19, in beeldbeskrywing ' het Juan gesê.

Volgens onderwerp

Vergelyk die resultate van die beskrywing van beelde wat die stelsel voorheen en nou met AI gegee het

Microsoft se nuutste tegnologie in Azure AI beskryf beelde sowel as mense

Foto met vergunning van Getty Images. Vorige beskrywing: Close-up van 'n man wat 'n worsbroodjie op 'n snyplank voorberei. Nuwe beskrywing: 'n Man maak brood.

Microsoft se nuutste tegnologie in Azure AI beskryf beelde sowel as mense

Foto met vergunning van Getty Images. Vorige beskrywing: 'n Man sit by sononder. Nuwe beskrywing: Vreugdevuur op die strand.

Microsoft se nuutste tegnologie in Azure AI beskryf beelde sowel as mense

Foto met vergunning van Getty Images. Vorige beskrywing: 'n Man in 'n blou hemp. Nuwe beskrywing: Verskeie mense dra chirurgiese maskers.

Microsoft se nuutste tegnologie in Azure AI beskryf beelde sowel as mense

Foto met vergunning van Getty Images. Vorige beskrywing: 'n Man op 'n skaatsplank vlieg teen die muur op. Nuwe beskrywing: 'n Bofbalspeler vang 'n bal.

Bron: will.com

Voeg 'n opmerking