ProHoster > Blog > Amministrazione > L'ultima tecnulugia di Microsoft in Azure AI descrive l'imaghjini è e persone
L'ultima tecnulugia di Microsoft in Azure AI descrive l'imaghjini è e persone
I ricercatori di Microsoft anu creatu un sistema di intelligenza artificiale capace di generà didascalia di l'imaghjini chì, in parechji casi, risultanu più precise cà e descrizioni fatte da l'omu. Questa svolta hà marcatu una tappa maiò in l'impegnu di Microsoft per rende i so prudutti è servizii inclusi è accessibili à tutti l'utilizatori.
"A descrizzione di l'imaghjini hè una di e funzioni principali di a visione informatica, chì rende pussibule una larga gamma di servizii", disse Xuedong Huang (Xuedong Huang), un Ufficiale Tecnicu Microsoft è CTO di Azure AI Cognitive Services in Redmond, Washington.
U novu mudellu hè avà dispunibule per i cunsumatori attraversu Computer Vision at Servizi Cognitivi Azure, chì face parte di Azure AI, è permette à i sviluppatori di utilizà sta funzione per migliurà a dispunibilità di i so servizii. Hè ancu inclusu in l'app Seeing AI è serà dispunibule più tardi questu annu in Microsoft Word è Outlook per Windows è Mac, è ancu PowerPoint per Windows, Mac è in u web.
Auto Description aiuta l'utilizatori à accede à u cuntenutu impurtante di qualsiasi imagine, sia una foto restituita in risultati di ricerca o illustrazione per una presentazione.
"L'usu di didascalie chì descrizanu u cuntenutu di l'imaghjini (cusì chjamatu testu alternativu o alternativu) nantu à e pagine web è documenti hè particularmente impurtante per i cechi o disabilità visuale", disse Saqib Sheikh (Saqib Shaikh), Manager di Software in u Gruppu AI Platform di Microsoft in Redmond.
Per esempiu, a so squadra usa una funzione di descrizzione di l'imaghjini mejorata in l'app per i cechi è i malati di vista. Videndu AI, chì ricunnosce ciò chì a camera hè catturà è ne conta. L'app usa didascalie generate per descriverà e foto, ancu in e social media.
"Idealmente, ognunu deve aghjunghje testu alternativu à tutte l'imaghjini in documenti, in u web, in e rete soziale, perchè questu permette à i cechi di accede à u cuntenutu è di participà à a conversazione. Ma, sfortunatamente, a ghjente ùn face micca questu ", dice u Sheikh. "Tuttavia, ci sò uni pochi di app chì utilizanu a funzione di descrizzione di l'imaghjini per aghjunghje testu alternativu quandu manca".
Liruan Wang, direttore generale di ricerca in Redmond Lab di Microsoft, hà guidatu un squadra di ricerca chì hà ottenutu è superatu risultati umani. Foto: Dan DeLong.
Descrizzione di novi oggetti
"A discrizzione di l'imaghjini hè unu di i travaglii principali di a visione di l'urdinatore, chì esige un sistema di intelligenza artificiale per capisce è discrive u cuntenutu principale o l'azzione presentata in l'imaghjini", spiegò Liruan Wang (Lijuan Wang), direttore generale di ricerca in u laboratoriu di Redmond di Microsoft.
"Avete bisognu di capisce ciò chì succede, capisce ciò chì e rilazioni sò trà l'uggetti è l'azzioni, è poi riassume è discrive tuttu in una frase in lingua leggibile da l'omu", disse.
Wang guidò a squadra di ricerca, chì in benchmarking nocaps (Captioning d'ughjettu novu à scala, una descrizzione à grande scala di novi ugetti) hà ottinutu un risultatu paragunabile à un umanu, è u superò. Questa prova permette di valutà quantu i sistemi AI generanu descrizzioni di l'uggetti illustrati chì ùn sò micca inclusi in u settore di dati nantu à quale u mudellu hè statu furmatu.
Di genere, i sistemi di descrizzione di l'imaghjini sò furmati nantu à setti di dati chì cuntenenu l'imaghjini accumpagnati da una descrizzione testuale di sti imagine, vale à dì nantu à setti di l'imaghjini firmati.
"A prova di nocaps mostra quantu u sistema hè capaci di discrìviri novi ogetti micca truvati in i dati di furmazione", dice Wang.
Per risolve stu prublema, a squadra di Microsoft hà pre-formatu un grande mudellu AI nantu à un grande dataset chì cuntene l'imaghjini tagged word, ognunu assuciatu cù un oggettu specificu in l'imaghjini.
I seti d'imaghjini cù tag di parole invece di didascalie cumplete sò più efficaci per creà, chì permettenu à a squadra di Wang per alimentate assai dati in u so mudellu. Stu approcciu hà datu u mudellu ciò chì a squadra chjama un vocabulariu visuale.
Cum'è Huang hà spiegatu, l'approcciu di pre-apprendimentu cù u vocabulariu visuale hè simile à a preparazione di i zitelli per a lettura: prima, un libru di stampa hè utilizatu in quale e parolle individuali sò assuciati cù l'imaghjini, per esempiu, sottu una foto di una mela hè scritta "apple". è sottu una foto di un gattu hè a parolla "cat".
"Questu pre-furmazione cù vocabulariu visuale hè, in essenza, l'educazione iniziale necessaria per furmà u sistema. Hè cusì chì pruvemu di sviluppà un tipu di memoria di u mutore ", disse Huang.
U mudellu pre-addestratu hè poi raffinatu cù un set di dati chì include l'imaghjini etichettati. In questa fase di furmazione, u mudellu ampara à fà sentenzi. Se appare una maghjina chì cuntene novi oggetti, u sistema AI usa u dizziunariu visuale per creà descrizioni precise.
"Per travaglià cù novi ogetti durante a prova, u sistema integra ciò chì hà amparatu durante a pre-formazione è durante u raffinamentu sussegwenti", dice Wang.
Sicondu i risultati ricerca, quandu evaluatu nantu à e teste nocaps, u sistema AI hà pruduttu descrizzioni più significative è precise chì l'omu anu fattu per e stesse imagine.
Transizione più veloce à l'ambiente di travagliu
Frà altre cose, u novu sistema di descrizzione di l'imaghjini hè duie volte più bonu di u mudellu utilizatu in i prudutti è servizii Microsoft da 2015, paragunatu à un altru benchmark di l'industria.
In cunsiderà i benefici chì tutti l'utilizatori di i prudutti è i servizii Microsoft riceveranu da questa migliione, Huang accelerà l'integrazione di u novu mudellu in l'ambiente di travagliu Azure.
"Pigliemu sta tecnulugia AI disruptiva à Azure cum'è una piattaforma per serve una gamma più larga di clienti", disse. "È questu ùn hè micca solu un avanzu in a ricerca. U tempu chì ci hà pigliatu per incorpore sta svolta in l'ambiente di produzzione Azure era ancu una svolta.
Huang hà aghjustatu chì ottene risultati simili à l'omu cuntinua una tendenza digià stabilita in i sistemi di intelligenza cognitiva di Microsoft.
"In l'ultimi cinque anni, avemu ottinutu risultati simili à l'umani in cinque aree principali: in ricunniscenza di parlà, in traduzzione automatica, in risposta à e dumande, in lettura automatica è a capiscitura di testu, è in 2020, malgradu COVID-19, in a descrizzione di l'imagine. ", disse Juan.
Comparare i risultati di a descrizzione di l'imaghjini chì u sistema hà datu prima è avà cù AI
Foto per gentile concessione di Getty Images. Descrizzione precedente: Primu pianu di un omu chì prepara un hot dog nantu à una tagliera. Descrizzione nova : Un omu face u pane.
Foto per gentile concessione di Getty Images. Descrizzione precedente: Un omu hè pusatu à u tramontu. Descrizzione nova: Bonfire nantu à a spiaggia.
Foto per gentile concessione di Getty Images. Descrizzione precedente: Un omu in una cammisa blu. Descrizzione nova: Parechje persone chì portanu maschere chirurgiche.
Foto per gentile concessione di Getty Images. Descrizzione precedente: Un omu nantu à un skateboard vola sopra u muru. Descrizzione nova: un ghjucatore di baseball piglia una bola.