La più recente tecnologia di Microsoft in Azure AI descrive le immagini così come le persone


I ricercatori Microsoft hanno creato un sistema di intelligenza artificiale in grado di generare didascalie di immagini che, in molti casi, risultano essere più accurate delle descrizioni fatte dagli esseri umani. Questa svolta ha segnato un'importante pietra miliare nell'impegno di Microsoft nel rendere i propri prodotti e servizi inclusivi e accessibili a tutti gli utenti.

"La descrizione delle immagini è una delle funzioni principali della visione artificiale, che rende possibile un'ampia gamma di servizi", ha affermato Xuedong Huang (Xuedong Huang), funzionario tecnico Microsoft e CTO di Azure AI Cognitive Services a Redmond, Washington.

Il nuovo modello è ora disponibile per i consumatori tramite Computer Vision all'indirizzo Servizi cognitivi di Azure, che fa parte di Azure AI e consente agli sviluppatori di utilizzare questa funzionalità per migliorare la disponibilità dei propri servizi. Verrà inoltre incluso nell'app Seeing AI e sarà disponibile entro la fine dell'anno in Microsoft Word e Outlook per Windows e Mac, nonché in PowerPoint per Windows, Mac e sul Web.

La descrizione automatica aiuta gli utenti ad accedere ai contenuti importanti di qualsiasi immagine, che si tratti di una foto restituita nei risultati di ricerca o di un'illustrazione per una presentazione.

"L'uso di didascalie che descrivono il contenuto delle immagini (il cosiddetto testo alternativo o alternativo) su pagine web e documenti è particolarmente importante per le persone non vedenti o ipovedenti", ha affermato Saqib Sheikh (Saqib Shaikh), Software Manager presso il gruppo AI Platform di Microsoft a Redmond.

Ad esempio, il suo team sta utilizzando una funzione di descrizione delle immagini migliorata nell'app per le persone non vedenti e ipovedenti. Vedere l'intelligenza artificiale, che riconosce ciò che la fotocamera sta riprendendo e lo racconta. L'app utilizza didascalie generate per descrivere le foto, anche sui social media.

“Idealmente, tutti dovrebbero aggiungere testo alternativo a tutte le immagini nei documenti, sul web, sui social network, poiché ciò consente alle persone non vedenti di accedere al contenuto e prendere parte alla conversazione. Ma, ahimè, le persone non lo fanno”, dice lo sceicco. "Tuttavia, ci sono alcune app che utilizzano la funzione di descrizione dell'immagine per aggiungere testo alternativo quando manca."
  
La più recente tecnologia di Microsoft in Azure AI descrive le immagini così come le persone

Liruan Wang, direttore generale della ricerca presso il Redmond Lab di Microsoft, ha guidato un gruppo di ricerca che ha raggiunto e superato i risultati umani. Foto: Dan DeLong.

Descrizione di nuovi oggetti

"Descrivere le immagini è uno dei compiti principali della visione artificiale, che richiede un sistema di intelligenza artificiale per comprendere e descrivere il contenuto principale o l'azione presentata nell'immagine", ha spiegato Liruan Wang (Lijuan Wang), direttore generale della ricerca presso il laboratorio Microsoft di Redmond.

"Devi capire cosa sta succedendo, capire quali sono le relazioni tra oggetti e azioni, quindi riassumere e descrivere il tutto in una frase in un linguaggio leggibile dall'uomo", ha detto.

Wang ha guidato il gruppo di ricerca, che ha effettuato il benchmarking nocaps (didascalia di nuovi oggetti su larga scala, una descrizione su larga scala di nuovi oggetti) ha raggiunto un risultato paragonabile a quello umano e lo ha superato. Questo test consente di valutare la capacità dei sistemi di intelligenza artificiale di generare descrizioni di oggetti raffigurati che non sono inclusi nel set di dati su cui è stato addestrato il modello.

Tipicamente, i sistemi di descrizione delle immagini vengono addestrati su insiemi di dati che contengono immagini accompagnate da una descrizione testuale di tali immagini, ovvero su insiemi di immagini firmate.

"Il test nocaps mostra quanto bene il sistema sia in grado di descrivere nuovi oggetti non trovati nei dati di addestramento", afferma Wang.

Per risolvere questo problema, il team Microsoft ha pre-addestrato un modello di intelligenza artificiale di grandi dimensioni su un set di dati di grandi dimensioni contenente immagini con tag di parole, ciascuna mappata su un oggetto specifico nell'immagine.

I set di immagini con tag di parole anziché didascalie complete sono più efficienti da creare, consentendo al team di Wang di inserire molti dati nel proprio modello. Questo approccio ha fornito al modello quello che il team chiama vocabolario visivo.

Come ha spiegato Huang, l'approccio pre-apprendimento utilizzando il vocabolario visivo è simile alla preparazione dei bambini alla lettura: in primo luogo, viene utilizzato un libro illustrato in cui le singole parole sono associate alle immagini, ad esempio sotto la foto di una mela è scritto "mela" e sotto la foto di un gatto c'è la parola "gatto".

“Questa pre-formazione con il vocabolario visivo è essenzialmente la formazione iniziale necessaria per addestrare il sistema. È così che cerchiamo di sviluppare una sorta di memoria motoria”, ha detto Huang.

Il modello pre-addestrato viene quindi perfezionato con un set di dati che include immagini etichettate. In questa fase dell'addestramento, il modello impara a creare frasi. Se appare un'immagine contenente nuovi oggetti, il sistema AI utilizza il dizionario visivo per creare descrizioni accurate.

"Per lavorare con nuovi oggetti durante i test, il sistema integra ciò che ha appreso durante il pre-addestramento e durante il successivo perfezionamento", afferma Wang.
Secondo i risultati ricerca, quando valutato sui test nocaps, il sistema AI ha prodotto descrizioni più significative e accurate di quanto abbiano fatto gli umani per le stesse immagini.

Transizione più rapida all'ambiente di lavoro 

Tra le altre cose, il nuovo sistema di descrizione delle immagini è due volte più efficace del modello utilizzato nei prodotti e servizi Microsoft dal 2015, se confrontato con un altro benchmark del settore.

Considerando i vantaggi che tutti gli utenti dei prodotti e servizi Microsoft trarranno da questo miglioramento, Huang ha accelerato l’integrazione del nuovo modello nell’ambiente di lavoro Azure.

“Stiamo portando questa tecnologia AI dirompente in Azure come piattaforma per servire una gamma più ampia di clienti”, ha affermato. “E questo non è solo un passo avanti nella ricerca. Anche il tempo impiegato per incorporare questa innovazione nell’ambiente di produzione di Azure è stato un passo avanti”.

Huang ha aggiunto che il raggiungimento di risultati simili a quelli umani continua una tendenza già consolidata nei sistemi di intelligenza cognitiva di Microsoft.

“Negli ultimi cinque anni, abbiamo ottenuto risultati simili a quelli umani in cinque aree principali: nel riconoscimento vocale, nella traduzione automatica, nella risposta alle domande, nella lettura automatica e nella comprensione del testo e, nel 2020, nonostante il COVID-19, nella descrizione delle immagini. "disse Juan.

Per argomento

Confronta i risultati della descrizione delle immagini che il sistema forniva prima e ora utilizzando l'intelligenza artificiale

La più recente tecnologia di Microsoft in Azure AI descrive le immagini così come le persone

Foto per gentile concessione di Getty Images. Descrizione precedente: Primo piano di un uomo che prepara un hot dog su un tagliere. Nuova descrizione: Un uomo fa il pane.

La più recente tecnologia di Microsoft in Azure AI descrive le immagini così come le persone

Foto per gentile concessione di Getty Images. Descrizione precedente: Un uomo è seduto al tramonto. Nuova descrizione: Falò sulla spiaggia.

La più recente tecnologia di Microsoft in Azure AI descrive le immagini così come le persone

Foto per gentile concessione di Getty Images. Descrizione precedente: Un uomo con una camicia blu. Nuova descrizione: Diverse persone che indossano maschere chirurgiche.

La più recente tecnologia di Microsoft in Azure AI descrive le immagini così come le persone

Foto per gentile concessione di Getty Images. Descrizione precedente: Un uomo su uno skateboard vola sul muro. Nuova descrizione: un giocatore di baseball prende una palla.

Fonte: habr.com

Aggiungi un commento