De lêste technology fan Microsoft yn Azure AI beskriuwt ôfbyldings lykas minsken


Microsoft-ûndersikers hawwe in systeem fan keunstmjittige yntelliginsje makke dat by steat is om ôfbyldingsûnderskriften te generearjen dy't yn in protte gefallen krekter blike te wêzen as beskriuwingen makke troch minsken. Dizze trochbraak markearre in wichtige mylpeal yn 'e ynset fan Microsoft om har produkten en tsjinsten ynklusyf en tagonklik te meitsjen foar alle brûkers.

"Ofbylding beskriuwing is ien fan 'e haadfunksjes fan kompjûterfisy, dy't in breed oanbod fan tsjinsten mooglik makket," sei Xuedong Huang (Xuedong Huang), in Microsoft Technical Officer en CTO fan Azure AI Cognitive Services yn Redmond, Washington.

It nije model is no beskikber foar konsuminten fia Computer Vision at Azure kognitive tsjinsten, dy't diel útmakket fan Azure AI, en lit ûntwikkelders dizze funksje brûke om de beskikberens fan har tsjinsten te ferbetterjen. It wurdt ek opnommen yn 'e Seeing AI-app en sil letter dit jier beskikber wêze yn Microsoft Word en Outlook foar Windows en Mac, lykas PowerPoint foar Windows, Mac en op it web.

Autobeskriuwing helpt brûkers tagong te krijen ta de wichtige ynhâld fan elke ôfbylding, of it no in foto is weromjûn yn sykresultaten of yllustraasje foar in presintaasje.

"It brûken fan titels dy't de ynhâld fan ôfbyldings beskriuwe (saneamde alternative of alternative tekst) op websiden en dokuminten is benammen wichtich foar bline of fisueel beheinde minsken," sei Saqib Sheikh (Saqib Shaikh), Software Manager by Microsoft's AI Platform Group yn Redmond.

Bygelyks, syn team brûkt in ferbettere byldbeskriuwingsfunksje yn 'e app foar blinen en fisueel beheinden. AI sjen, dy't herkent wat de kamera opnimt en dêroer fertelt. De app brûkt generearre ûnderskriften om foto's te beskriuwen, ynklusyf op sosjale media.

"Ideaallik soe elkenien alt-tekst taheakje moatte oan alle ôfbyldings yn dokuminten, op it web, op sosjale netwurken, om't blinen dêrmei tagong krije ta de ynhâld en dielnimme oan it petear. Mar, helaas, minsken dogge dit net," seit de Sheikh. "D'r binne lykwols in pear apps dy't de ôfbyldingsbeskriuwingsfunksje brûke om alternative tekst ta te foegjen as it ûntbrekt."
  
De lêste technology fan Microsoft yn Azure AI beskriuwt ôfbyldings lykas minsken

Liruan Wang, algemien direkteur fan ûndersyk by Microsoft's Redmond Lab, liede in ûndersyksteam dat minsklike resultaten berikte en oertrof. Foto: Dan DeLong.

Beskriuwing fan nije objekten

"It beskriuwen fan ôfbyldings is ien fan 'e haadtaken fan komputerfisy, dy't in keunstmjittige yntelliginsjesysteem fereasket om de haadynhâld of aksje presintearre yn' e ôfbylding te begripen en te beskriuwen," ferklearre Liruan Wang (Lijuan Wang), algemien direkteur fan ûndersyk by Microsoft's Redmond-lab.

"Jo moatte begripe wat der bart, útfine wat de relaasjes binne tusken objekten en aksjes, en dan gearfetsje en beskriuwe it allegear yn in sin yn minsklik lêsbere taal," sei se.

Wang late it ûndersyk team, dat yn benchmarking nocaps (roman foarwerp captioning op skaal, in grutskalige beskriuwing fan nije objekten) berikte in resultaat te fergelykjen mei in minsklik, en oertroffen it. Dizze test lit jo evaluearje hoe goed AI-systemen beskriuwingen generearje fan ôfbylde objekten dy't net binne opnommen yn 'e gegevensset wêrop it model waard oplaat.

Typysk wurde ôfbyldingsbeskriuwingssystemen trainearre op datasets dy't ôfbyldings befetsje begelaat troch in tekstuele beskriuwing fan dizze ôfbyldings, dat is op sets fan ûndertekene ôfbyldings.

"De nocaps-test lit sjen hoe goed it systeem yn steat is om nije objekten te beskriuwen dy't net fûn binne yn 'e trainingsgegevens," seit Wang.

Om dit probleem op te lossen hat it Microsoft-team in grut AI-model foartraind op in grutte dataset mei wurd-tagged ôfbyldings, elk ferbûn mei in spesifyk objekt yn 'e ôfbylding.

Ofbyldingssets mei wurdlabels ynstee fan folsleine titels binne effisjinter te meitsjen, wêrtroch it team fan Wang in protte gegevens yn har model kin feed. Dizze oanpak joech it model wat it team in fisuele wurdskat neamt.

Lykas Huang ferklearre, is de pre-learen oanpak mei help fan fisuele wurdskat fergelykber mei it tarieden fan bern op it lêzen: earst wurdt in fotoboek brûkt wêryn yndividuele wurden ferbûn binne mei ôfbyldings, bygelyks ûnder in foto fan in appel wurdt skreaun "appel" en ûnder in foto fan in kat is it wurd "kat".

“Dizze foaroplieding mei fisuele wurdskat is yn essinsje de inisjele oplieding dy't nedich is om it systeem op te trenen. Dit is hoe't wy besykje in soarte fan motorûnthâld te ûntwikkeljen, "sei Huang.

It pre-trained model wurdt dan ferfine mei in dataset ynklusyf markearre ôfbyldings. Op dit stadium fan training leart it model sinnen te meitsjen. As in ôfbylding mei nije objekten ferskynt, brûkt it AI-systeem it fisuele wurdboek om krekte beskriuwingen te meitsjen.

"Om te wurkjen mei nije objekten tidens testen, yntegreart it systeem wat it learde tidens pre-training en by folgjende ferfining," seit Wang.
Neffens de resultaten ûndersyk, doe't evaluearre op 'e nocaps-tests, produsearre it AI-systeem mear sinfolle en krekte beskriuwingen dan minsken diene foar deselde ôfbyldings.

Snellere oergong nei de wurkomjouwing 

It nije systeem foar ôfbyldingsbeskriuwing is ûnder oare twa kear sa goed as it model dat sûnt 2015 brûkt wurdt yn Microsoft-produkten en tsjinsten, yn ferliking mei in oare benchmark fan 'e yndustry.

Mei it each op de foardielen dy't alle brûkers fan Microsoft-produkten en tsjinsten sille krije fan dizze ferbettering, fersnelle Huang de yntegraasje fan it nije model yn 'e Azure-wurkomjouwing.

"Wy nimme dizze disruptive AI-technology nei Azure as platfoarm om in breder skala oan klanten te tsjinjen," sei er. "En dit is net allinich in trochbraak yn ûndersyk. De tiid dy't it duorre om dizze trochbraak yn 'e Azure-produksjeomjouwing op te nimmen wie ek in trochbraak.

Huang foege ta dat it realisearjen fan minsklike resultaten in trend dy't al fêststeld is yn 'e kognitive yntelliginsjesystemen fan Microsoft trochset.

"Yn 'e ôfrûne fiif jier hawwe wy minsklike resultaten berikt op fiif grutte gebieten: yn spraakherkenning, yn masine-oersetting, yn beäntwurdzjen fan fragen, yn masinelêzen en tekstbegryp, en yn 2020, nettsjinsteande COVID-19, yn ôfbyldingsbeskriuwing ’ sei Juan.

Troch ûnderwerp

Fergelykje de resultaten fan 'e beskriuwing fan ôfbyldings dy't it systeem joech foar en no mei AI

De lêste technology fan Microsoft yn Azure AI beskriuwt ôfbyldings lykas minsken

Foto mei hoflikens fan Getty Images. Foarige beskriuwing: Close-up fan in man dy't in hot dog op in snijplanke tariedt. Nije beskriuwing: In man makket brea.

De lêste technology fan Microsoft yn Azure AI beskriuwt ôfbyldings lykas minsken

Foto mei hoflikens fan Getty Images. Foarige beskriuwing: In man sit by sinne ûndergong. Nije beskriuwing: Bonfire op it strân.

De lêste technology fan Microsoft yn Azure AI beskriuwt ôfbyldings lykas minsken

Foto mei hoflikens fan Getty Images. Foarige beskriuwing: In man yn in blau shirt. Nije beskriuwing: Ferskate minsken dy't sjirurgyske maskers drage.

De lêste technology fan Microsoft yn Azure AI beskriuwt ôfbyldings lykas minsken

Foto mei hoflikens fan Getty Images. Foarige omskriuwing: In man op in skateboard fljocht de muorre op. Nije beskriuwing: In honkbalspiler pakt in bal.

Boarne: www.habr.com

Add a comment