L'ultima tecnulugia di Microsoft in Azure AI descrive l'imaghjini è e persone


I ricercatori di Microsoft anu creatu un sistema di intelligenza artificiale capace di generà didascalia di l'imaghjini chì, in parechji casi, risultanu più precise cà e descrizioni fatte da l'omu. Questa svolta hà marcatu una tappa maiò in l'impegnu di Microsoft per rende i so prudutti è servizii inclusi è accessibili à tutti l'utilizatori.

"A descrizzione di l'imaghjini hè una di e funzioni principali di a visione informatica, chì rende pussibule una larga gamma di servizii", disse Xuedong Huang (Xuedong Huang), un Ufficiale Tecnicu Microsoft è CTO di Azure AI Cognitive Services in Redmond, Washington.

U novu mudellu hè avà dispunibule per i cunsumatori attraversu Computer Vision at Servizi Cognitivi Azure, chì face parte di Azure AI, è permette à i sviluppatori di utilizà sta funzione per migliurà a dispunibilità di i so servizii. Hè ancu inclusu in l'app Seeing AI è serà dispunibule più tardi questu annu in Microsoft Word è Outlook per Windows è Mac, è ancu PowerPoint per Windows, Mac è in u web.

Auto Description aiuta l'utilizatori à accede à u cuntenutu impurtante di qualsiasi imagine, sia una foto restituita in risultati di ricerca o illustrazione per una presentazione.

"L'usu di didascalie chì descrizanu u cuntenutu di l'imaghjini (cusì chjamatu testu alternativu o alternativu) nantu à e pagine web è documenti hè particularmente impurtante per i cechi o disabilità visuale", disse Saqib Sheikh (Saqib Shaikh), Manager di Software in u Gruppu AI Platform di Microsoft in Redmond.

Per esempiu, a so squadra usa una funzione di descrizzione di l'imaghjini mejorata in l'app per i cechi è i malati di vista. Videndu AI, chì ricunnosce ciò chì a camera hè catturà è ne conta. L'app usa didascalie generate per descriverà e foto, ancu in e social media.

"Idealmente, ognunu deve aghjunghje testu alternativu à tutte l'imaghjini in documenti, in u web, in e rete soziale, perchè questu permette à i cechi di accede à u cuntenutu è di participà à a conversazione. Ma, sfortunatamente, a ghjente ùn face micca questu ", dice u Sheikh. "Tuttavia, ci sò uni pochi di app chì utilizanu a funzione di descrizzione di l'imaghjini per aghjunghje testu alternativu quandu manca".
  
L'ultima tecnulugia di Microsoft in Azure AI descrive l'imaghjini è e persone

Liruan Wang, direttore generale di ricerca in Redmond Lab di Microsoft, hà guidatu un squadra di ricerca chì hà ottenutu è superatu risultati umani. Foto: Dan DeLong.

Descrizzione di novi oggetti

"A discrizzione di l'imaghjini hè unu di i travaglii principali di a visione di l'urdinatore, chì esige un sistema di intelligenza artificiale per capisce è discrive u cuntenutu principale o l'azzione presentata in l'imaghjini", spiegò Liruan Wang (Lijuan Wang), direttore generale di ricerca in u laboratoriu di Redmond di Microsoft.

"Avete bisognu di capisce ciò chì succede, capisce ciò chì e rilazioni sò trà l'uggetti è l'azzioni, è poi riassume è discrive tuttu in una frase in lingua leggibile da l'omu", disse.

Wang guidò a squadra di ricerca, chì in benchmarking nocaps (Captioning d'ughjettu novu à scala, una descrizzione à grande scala di novi ugetti) hà ottinutu un risultatu paragunabile à un umanu, è u superò. Questa prova permette di valutà quantu i sistemi AI generanu descrizzioni di l'uggetti illustrati chì ùn sò micca inclusi in u settore di dati nantu à quale u mudellu hè statu furmatu.

Di genere, i sistemi di descrizzione di l'imaghjini sò furmati nantu à setti di dati chì cuntenenu l'imaghjini accumpagnati da una descrizzione testuale di sti imagine, vale à dì nantu à setti di l'imaghjini firmati.

"A prova di nocaps mostra quantu u sistema hè capaci di discrìviri novi ogetti micca truvati in i dati di furmazione", dice Wang.

Per risolve stu prublema, a squadra di Microsoft hà pre-formatu un grande mudellu AI nantu à un grande dataset chì cuntene l'imaghjini tagged word, ognunu assuciatu cù un oggettu specificu in l'imaghjini.

I seti d'imaghjini cù tag di parole invece di didascalie cumplete sò più efficaci per creà, chì permettenu à a squadra di Wang per alimentate assai dati in u so mudellu. Stu approcciu hà datu u mudellu ciò chì a squadra chjama un vocabulariu visuale.

Cum'è Huang hà spiegatu, l'approcciu di pre-apprendimentu cù u vocabulariu visuale hè simile à a preparazione di i zitelli per a lettura: prima, un libru di stampa hè utilizatu in quale e parolle individuali sò assuciati cù l'imaghjini, per esempiu, sottu una foto di una mela hè scritta "apple". è sottu una foto di un gattu hè a parolla "cat".

"Questu pre-furmazione cù vocabulariu visuale hè, in essenza, l'educazione iniziale necessaria per furmà u sistema. Hè cusì chì pruvemu di sviluppà un tipu di memoria di u mutore ", disse Huang.

U mudellu pre-addestratu hè poi raffinatu cù un set di dati chì include l'imaghjini etichettati. In questa fase di furmazione, u mudellu ampara à fà sentenzi. Se appare una maghjina chì cuntene novi oggetti, u sistema AI usa u dizziunariu visuale per creà descrizioni precise.

"Per travaglià cù novi ogetti durante a prova, u sistema integra ciò chì hà amparatu durante a pre-formazione è durante u raffinamentu sussegwenti", dice Wang.
Sicondu i risultati ricerca, quandu evaluatu nantu à e teste nocaps, u sistema AI hà pruduttu descrizzioni più significative è precise chì l'omu anu fattu per e stesse imagine.

Transizione più veloce à l'ambiente di travagliu 

Frà altre cose, u novu sistema di descrizzione di l'imaghjini hè duie volte più bonu di u mudellu utilizatu in i prudutti è servizii Microsoft da 2015, paragunatu à un altru benchmark di l'industria.

In cunsiderà i benefici chì tutti l'utilizatori di i prudutti è i servizii Microsoft riceveranu da questa migliione, Huang accelerà l'integrazione di u novu mudellu in l'ambiente di travagliu Azure.

"Pigliemu sta tecnulugia AI disruptiva à Azure cum'è una piattaforma per serve una gamma più larga di clienti", disse. "È questu ùn hè micca solu un avanzu in a ricerca. U tempu chì ci hà pigliatu per incorpore sta svolta in l'ambiente di produzzione Azure era ancu una svolta.

Huang hà aghjustatu chì ottene risultati simili à l'omu cuntinua una tendenza digià stabilita in i sistemi di intelligenza cognitiva di Microsoft.

"In l'ultimi cinque anni, avemu ottinutu risultati simili à l'umani in cinque aree principali: in ricunniscenza di parlà, in traduzzione automatica, in risposta à e dumande, in lettura automatica è a capiscitura di testu, è in 2020, malgradu COVID-19, in a descrizzione di l'imagine. ", disse Juan.

Per tema

Comparare i risultati di a descrizzione di l'imaghjini chì u sistema hà datu prima è avà cù AI

L'ultima tecnulugia di Microsoft in Azure AI descrive l'imaghjini è e persone

Foto per gentile concessione di Getty Images. Descrizzione precedente: Primu pianu di un omu chì prepara un hot dog nantu à una tagliera. Descrizzione nova : Un omu face u pane.

L'ultima tecnulugia di Microsoft in Azure AI descrive l'imaghjini è e persone

Foto per gentile concessione di Getty Images. Descrizzione precedente: Un omu hè pusatu à u tramontu. Descrizzione nova: Bonfire nantu à a spiaggia.

L'ultima tecnulugia di Microsoft in Azure AI descrive l'imaghjini è e persone

Foto per gentile concessione di Getty Images. Descrizzione precedente: Un omu in una cammisa blu. Descrizzione nova: Parechje persone chì portanu maschere chirurgiche.

L'ultima tecnulugia di Microsoft in Azure AI descrive l'imaghjini è e persone

Foto per gentile concessione di Getty Images. Descrizzione precedente: Un omu nantu à un skateboard vola sopra u muru. Descrizzione nova: un ghjucatore di baseball piglia una bola.

Source: www.habr.com

Add a comment