Déi lescht Technologie vu Microsoft déi op Azure AI kënnt beschreift Biller wéi och Leit


Microsoft Fuerscher hunn e kënschtlechen Intelligenz System erstallt deen Bildopschrëften generéiere kann, déi a ville Fäll méi genee si wéi mënschlech Beschreiwunge. Dësen Duerchbroch markéiert e grousse Meilesteen am Microsoft säin Engagement fir seng Produkter a Servicer inklusiv an zougänglech fir all Benotzer ze maachen.

"Bildbeschreiwung ass eng vun de Kärfunktioune vun der Computervisioun, déi eng breet Palette vu Servicer erméiglecht," sot de Xuedong Huang (Xuedong Huang), e Microsoft technesche Matbierger a Chef Technologie Offizéier vun Azure AI Cognitive Services zu Redmond, Washington.

Den neie Modell ass elo verfügbar fir Konsumenten iwwer Computer Vision um Azure kognitiv Servicer, deen Deel vun Azure AI ass, an erlaabt d'Entwéckler dës Fäegkeet ze benotzen fir d'Disponibilitéit vun hire Servicer ze verbesseren. Et ass och an der Seeing AI App abegraff a wäert spéider dëst Joer a Microsoft Word an Outlook fir Windows a Mac starten, souwéi PowerPoint fir Windows, Mac an de Web.

Automatesch Beschreiwung hëlleft de Benotzer Zougang zum wichtegen Inhalt vun all Bild, egal ob et eng Foto ass, déi an engem Sichresultat zréckkomm ass oder eng Illustratioun fir eng Presentatioun.

"D'Benotzung vun Iwwerschrëften, déi den Inhalt vu Biller (genannt Alternativ oder Alt Text) op Websäiten an Dokumenter beschreiwen ass besonnesch wichteg fir Leit, déi blann sinn oder eng schlecht Visioun hunn", sot de Saqib Sheikh (Saqib Shaikh), Software Manager an der Microsoft AI Plattform Grupp zu Redmond.

Zum Beispill benotzt säin Team eng verbessert Bildbeschreiwungsfunktioun an der App fir blann a sehbehënnert Leit AI gesinn, déi erkennt wat d'Kamera filmt an doriwwer schwätzt. D'App benotzt generéiert Ënnerschrëften fir Fotoen ze beschreiwen, och op sozialen Netzwierker.

"Idealfall soll jidderee Alt-Text op all Biller an Dokumenter, online an op sozialen Medien addéieren, well dëst blanne Leit erlaabt Zougang zu Inhalt ze kréien an un Gespréich deelzehuelen. Awer, leider, d'Leit maachen dat net, "seet de Sheikh. "Et ginn awer e puer Apps déi d'Bildbeschreiwungsfunktioun benotzen fir alternativ Text ze addéieren wann keen verfügbar ass."
  
Déi lescht Technologie vu Microsoft déi op Azure AI kënnt beschreift Biller wéi och Leit

De Lijuan Wang, Senior Fuerschungsmanager am Redmond Labo vu Microsoft, huet e Fuerschungsteam gefouert dat mënschlech a besser Resultater erreecht huet. Foto: Dan DeLong.

Beschreiwung vun neien Objeten

"Bildbeschreiwung ass eng vun den Haaptaufgaben vun der Computervisioun, déi e kënschtlechen Intelligenz System erfuerdert fir den Haaptinhalt oder Handlung am Bild ze verstoen an ze beschreiwen", erkläert de Lijuan Wang (Lijuan Wang), Senior Fuerschungsmanager am Microsoft Redmond Labo.

"Dir musst verstoen wat lass ass, erauszefannen wat d'Relatiounen tëscht Objeten an Handlungen sinn, an dann alles an engem Saz a mënschlech verständlecher Sprooch zesummefaassen an beschreiwen," sot si.

De Wang huet d'Fuerschungsteam gefouert déi benchmarkéiert huet nocaps (Roman Objet Captioning op Skala, grouss Skala Beschreiwung vun neien Objeten) erreecht Resultater vergläichbar mat mënschlechen an iwwerschratt hinnen. Dësen Test evaluéiert wéi gutt AI Systemer Beschreiwunge vun duergestallten Objeten generéieren déi net Deel vum Dateset sinn, op deem de Modell trainéiert gouf.

Typesch gi Bildbeschreiwungssystemer op Datesätz trainéiert, déi Biller enthalen, begleet vun textuelle Beschreiwunge vun dëse Biller, dat heescht op Sätz vu markéierte Biller.

"Den nocaps Test weist wéi gutt de System nei Objeten beschreiwen kann net an der Training Daten fonnt,"Seet Wang.

Fir dëse Problem ze léisen, huet d'Microsoft-Team e groussen AI-Modell op engem riesegen Datesaz mat Biller mat Wuerttags viraus trainéiert, déi jidderee mat engem spezifeschen Objet am Bild assoziéiert ass.

Et war méi effizient fir Sets vu Biller mat Wuerttags ze kreéieren anstatt voll Ënnerschrëften, wat dem Wang Team erlaabt huet vill Daten an hire Modell ze fidderen. Dës Approche huet dem Modell wat d'Team e visuelle Vokabulär nennt.

Wéi den Huang erkläert huet, ass d'visuell Vokabulär Pre-Teaching Approche ähnlech wéi d'Kanner op d'Liesen virbereeden: Als éischt gëtt e Billerbuch benotzt an deem eenzel Wierder mat Biller verbonne sinn, zum Beispill, ënner enger Foto vun engem Apel steet et "Apel" an ënnert enger Foto vun enger Kaz d'Wuert "Kaz".

"Dës Pre-Training mat engem visuellen Wierderbuch ass am Fong déi initial Ausbildung déi néideg ass fir de System ze trainéieren. Dëst ass wéi mir probéieren eng Zort motoresch Erënnerung z'entwéckelen, "sot Huang.

De pre-trainéierte Modell gëtt dann raffinéiert mat engem Dataset deen ënnerschrëfte Biller enthält. Op dëser Etapp vum Training léiert de Modell Sätz ze bilden. Wann e Bild erschéngt mat neien Objeten, benotzt den AI System e visuellt Wierderbuch fir korrekt Beschreiwunge ze kreéieren.

"Fir mat neien Objeten beim Testen ëmzegoen, kombinéiert de System dat wat et während der Pre-Training a während der spéiderer Entwécklung geléiert huet", seet de Wang.
Laut de Resultater FuerschungWann op nocaps Tester evaluéiert gouf, huet den AI System méi sënnvoll a korrekt Beschreiwunge produzéiert wéi d'Mënsche fir déiselwecht Biller gemaach hunn.

Beschleunegt Iwwergang an d'Aarbechtsëmfeld 

Ënnert anerem ass den neie Bildbeschreiwungssystem duebel sou gutt wéi de Modell deen zënter 2015 a Microsoft Produkter a Servicer benotzt gëtt, laut engem aneren Industriebenchmark.

Wéinst de Virdeeler déi all Benotzer vu Microsoft Produkter a Servicer vun dëser Verbesserung kréien, huet Huang d'Integratioun vum neie Modell an d'Azure Desktop-Ëmfeld beschleunegt.

"Mir huelen dës Duerchbroch AI Technologie op Azure als Plattform fir eng méi breet Palette vu Clienten ze déngen," sot hien. "An dëst ass en Duerchbroch net nëmmen an der Fuerschung. D'Zäit déi et gedauert huet fir dësen Duerchbroch an d'Azure Produktiounsëmfeld z'integréieren war och en Duerchbroch.

Den Huang huet bäigefüügt datt d'Erreeche vun mënschlech-ähnlechen Resultater en Trend weidergeet, deen schonn an de kognitiven Intelligenzsystemer vu Microsoft etabléiert ass.

"An de leschte fënnef Joer hu mir Resultater op mënschlechen Niveau a fënnef grousse Beräicher erreecht: Riederkennung, Maschinn Iwwersetzung, Fro äntweren, Maschinn Liesen an Textverständnis, an am Joer 2020, trotz COVID-19, Bildbeschreiwung ", sot de Juan.

Vum Thema

Vergläicht d'Resultater vu Bildbeschreiwungen, déi de System virdru ginn huet an elo benotzt AI

Déi lescht Technologie vu Microsoft déi op Azure AI kënnt beschreift Biller wéi och Leit

Foto vun der Getty Images Bibliothéik. Virdrun Beschreiwung: Close-up vun engem Mann deen en Hot Dog op engem Schneidebrett kacht. Nei Beschreiwung: E ​​Mann mécht Brout.

Déi lescht Technologie vu Microsoft déi op Azure AI kënnt beschreift Biller wéi och Leit

Foto vun der Getty Images Bibliothéik. Virdrun Beschreiwung: E ​​Mann sëtzt bei Sonnenënnergang. Nei Beschreiwung: Feier op der Plage.

Déi lescht Technologie vu Microsoft déi op Azure AI kënnt beschreift Biller wéi och Leit

Foto vun der Getty Images Bibliothéik. Virdrun Beschreiwung: E ​​Mann an engem bloen Hiem. Nei Beschreiwung: Verschidde Leit droen chirurgesch Masken.

Déi lescht Technologie vu Microsoft déi op Azure AI kënnt beschreift Biller wéi och Leit

Foto vun der Getty Images Bibliothéik. Virdrun Beschreiwung: e Mann op engem Skateboard flitt op d'Mauer. Nei Beschreiwung: E ​​Baseballspiller fënnt e Ball.

Source: will.com

Setzt e Commentaire