Nýjasta tækni Microsoft í Azure AI lýsir myndum jafnt sem fólki


Vísindamenn Microsoft hafa búið til gervigreindarkerfi sem getur búið til myndatexta sem í mörgum tilfellum reynast nákvæmari en lýsingar gerðar af mönnum. Þessi bylting markaði stór áfangi í skuldbindingu Microsoft um að gera vörur sínar og þjónustu innifalnar og aðgengilegar öllum notendum.

„Myndlýsing er ein af meginhlutverkum tölvusjónar, sem gerir fjölbreytta þjónustu mögulega,“ sagði Xuedong Huang (Xuedong Huang), tæknifulltrúi Microsoft og tæknistjóri Azure AI Cognitive Services í Redmond, Washington.

Nýja gerðin er nú aðgengileg neytendum í gegnum Computer Vision á Hugræn þjónusta Azure, sem er hluti af Azure AI, og gerir forriturum kleift að nota þennan eiginleika til að bæta framboð þjónustu sinna. Það er einnig innifalið í Seeing AI appinu og verður fáanlegt síðar á þessu ári í Microsoft Word og Outlook fyrir Windows og Mac, auk PowerPoint fyrir Windows, Mac og á vefnum.

Sjálfvirk lýsing hjálpar notendum að fá aðgang að mikilvægu efni hvaða mynd sem er, hvort sem það er mynd sem skilað er í leitarniðurstöðum eða myndskreyting fyrir kynningu.

„Notkun myndatexta sem lýsa innihaldi mynda (svokallaðs valtexta) á vefsíðum og skjölum er sérstaklega mikilvæg fyrir blinda eða sjónskerta einstaklinga,“ sagði Saqib Sheikh (Saqib Shaikh), hugbúnaðarstjóri hjá Microsoft AI Platform Group í Redmond.

Til dæmis notar teymi hans endurbættan myndlýsingareiginleika í appinu fyrir blinda og sjónskerta. Að sjá gervigreind, sem þekkir það sem myndavélin er að taka og segir frá því. Forritið notar myndatexta til að lýsa myndum, þar á meðal á samfélagsmiðlum.

„Helst ættu allir að setja alt texta við allar myndir í skjölum, á vefnum, á samfélagsmiðlum, þar sem það gerir blindu fólki kleift að nálgast efnið og taka þátt í samtalinu. En því miður, fólk gerir þetta ekki,“ segir Sheikh. "Hins vegar eru nokkur öpp sem nota myndlýsingareiginleikann til að bæta við öðrum texta þegar það vantar."
  
Nýjasta tækni Microsoft í Azure AI lýsir myndum jafnt sem fólki

Liruan Wang, framkvæmdastjóri rannsókna hjá Microsoft Redmond Lab, leiddi rannsóknarteymi sem náði og fór fram úr mannlegum árangri. Mynd: Dan DeLong.

Lýsing á nýjum hlutum

„Að lýsa myndum er eitt af aðalverkefnum tölvusjónar, sem krefst gervigreindarkerfis til að skilja og lýsa aðalinnihaldi eða aðgerðum sem birtast á myndinni,“ útskýrði Liruan Wang (Lijuan Wang), framkvæmdastjóri rannsókna hjá Redmond rannsóknarstofu Microsoft.

„Þú þarft að skilja hvað er að gerast, komast að því hver tengslin eru á milli hluta og athafna og draga það síðan saman og lýsa þessu öllu í setningu á tungumáli sem hægt er að lesa af mönnum,“ sagði hún.

Wang leiddi rannsóknarhópinn, sem í viðmiðun nocaps (texti fyrir skáldsögur á mælikvarða, víðtæk lýsing á nýjum hlutum) náði sambærilegum árangri og mannlegur og fór fram úr honum. Þessi prófun gerir þér kleift að meta hversu vel gervigreind kerfi búa til lýsingar á sýndum hlutum sem eru ekki með í gagnasettinu sem líkanið var þjálfað á.

Venjulega eru myndlýsingarkerfi þjálfuð á gagnasettum sem innihalda myndir ásamt textalýsingu á þessum myndum, það er að segja á settum af undirrituðum myndum.

„Nocaps prófið sýnir hversu vel kerfið er fær um að lýsa nýjum hlutum sem finnast ekki í þjálfunargögnunum,“ segir Wang.

Til að leysa þetta vandamál forþjálfaði Microsoft teymið stórt gervigreind líkan á stóru gagnasafni sem innihélt orðmerktar myndir, sem hver um sig tengist ákveðnum hlut í myndinni.

Myndasett með orðamerkjum í stað fullra myndatexta er skilvirkara að búa til, sem gerir teymi Wang kleift að fæða mikið af gögnum inn í líkanið sitt. Þessi nálgun gaf líkaninu það sem teymið kallar sjónrænan orðaforða.

Eins og Huang útskýrði er fornámsaðferðin með því að nota sjónræna orðaforða svipað og að undirbúa börn fyrir lestur: í fyrsta lagi er myndabók notuð þar sem einstök orð eru tengd myndum, td undir mynd af epli er skrifað "epli" og undir mynd af kötti er orðið "köttur".

„Þessi forþjálfun með sjónrænum orðaforða er í rauninni grunnmenntunin sem þarf til að þjálfa kerfið. Þannig reynum við að þróa eins konar hreyfiminni,“ sagði Huang.

Forþjálfað líkanið er síðan betrumbætt með gagnasafni sem inniheldur merktar myndir. Á þessu stigi þjálfunar lærir líkanið að búa til setningar. Ef mynd sem inniheldur nýja hluti birtist notar gervigreindarkerfið sjónræna orðabókina til að búa til nákvæmar lýsingar.

„Til að vinna með nýja hluti við prófun samþættir kerfið það sem það lærði í forþjálfun og við síðari endurbætur,“ segir Wang.
Samkvæmt niðurstöðum rannsóknir, þegar það var metið á nocaps prófunum, gaf gervigreindarkerfið marktækari og nákvæmari lýsingar en menn gerðu fyrir sömu myndirnar.

Hraðari umskipti yfir í vinnuumhverfi 

Meðal annars er nýja myndlýsingakerfið tvöfalt betra en líkanið sem notað hefur verið í Microsoft vörum og þjónustu síðan 2015, miðað við annað viðmið í iðnaði.

Með hliðsjón af þeim ávinningi sem allir notendur Microsoft vara og þjónustu munu fá af þessari endurbót, flýtti Huang fyrir samþættingu nýju líkansins í Azure vinnuumhverfið.

„Við erum að fara með þessa truflandi gervigreind tækni til Azure sem vettvang til að þjóna breiðari hópi viðskiptavina,“ sagði hann. „Og þetta er ekki bara bylting í rannsóknum. Tíminn sem það tók að innleiða þessa byltingu inn í Azure framleiðsluumhverfið var líka bylting.“

Huang bætti við að það að ná mannlegum árangri haldi áfram þeirri þróun sem þegar hefur komið fram í vitsmunagreindarkerfum Microsoft.

„Undanfarin fimm ár höfum við náð manneskjulegum árangri á fimm meginsviðum: í talgreiningu, í vélþýðingu, við að svara spurningum, í véllestri og textaskilningi og árið 2020, þrátt fyrir COVID-19, í myndlýsingu. “ sagði Juan.

Eftir efni

Berðu saman niðurstöður lýsingarinnar á myndum sem kerfið gaf áður og nú með gervigreind

Nýjasta tækni Microsoft í Azure AI lýsir myndum jafnt sem fólki

Mynd með leyfi Getty Images. Fyrri lýsing: Nærmynd af manni að undirbúa pylsu á skurðbretti. Ný lýsing: Maður býr til brauð.

Nýjasta tækni Microsoft í Azure AI lýsir myndum jafnt sem fólki

Mynd með leyfi Getty Images. Fyrri lýsing: Maður situr við sólsetur. Ný lýsing: Bál í ströndinni.

Nýjasta tækni Microsoft í Azure AI lýsir myndum jafnt sem fólki

Mynd með leyfi Getty Images. Fyrri lýsing: Maður í blárri skyrtu. Ný lýsing: Nokkrir með skurðgrímur.

Nýjasta tækni Microsoft í Azure AI lýsir myndum jafnt sem fólki

Mynd með leyfi Getty Images. Fyrri lýsing: Maður á hjólabretti flýgur upp á vegg. Ný lýsing: Hafnaboltamaður grípur bolta.

Heimild: www.habr.com

Bæta við athugasemd