12 nuovi Servizi multimediali di Azure con intelligenza artificiale

La missione di Microsoft è consentire a ogni persona e organizzazione sul pianeta di ottenere di più. L’industria dei media è un ottimo esempio di come trasformare questa missione in realtà. Viviamo in un’era in cui vengono creati e consumati più contenuti, in più modi e su più dispositivi. All'IBC 2019 abbiamo condiviso le ultime innovazioni su cui stiamo lavorando e come possono aiutarti a trasformare la tua esperienza multimediale.
12 nuovi Servizi multimediali di Azure con intelligenza artificiale
Dettagli sotto il taglio!

Questa pagina è attiva il nostro sito web.

Video Indexer ora supporta animazioni e contenuto multilingue

L'anno scorso all'IBC abbiamo vinto il nostro premio Indicizzatore video di Servizi multimediali di Azure, e quest'anno è andata ancora meglio. Video Indexer estrae automaticamente informazioni e metadati dai file multimediali, come parole pronunciate, volti, emozioni, argomenti e marchi, e non è necessario essere un esperto di machine learning per utilizzarlo.

Le nostre ultime offerte includono anteprime di due funzionalità molto ricercate e differenziate, il riconoscimento animato dei caratteri e la trascrizione vocale multilingue, nonché diverse aggiunte ai modelli esistenti oggi disponibili in Video Indexer.

Riconoscimento dei personaggi animati

12 nuovi Servizi multimediali di Azure con intelligenza artificiale
Il contenuto animato è uno dei tipi di contenuto più popolari, ma i modelli standard di visione artificiale progettati per riconoscere i volti umani non funzionano bene con esso, soprattutto se il contenuto contiene personaggi senza caratteristiche facciali umane. La nuova versione di anteprima combina Video Indexer con il servizio Azure Custom Vision di Microsoft, offrendo una nuova serie di modelli che rilevano e raggruppano automaticamente i personaggi animati e li rendono facili da etichettare e riconoscere utilizzando modelli di visione personalizzati integrati.

I modelli sono integrati in un'unica pipeline, consentendo a chiunque di utilizzare il servizio senza alcuna conoscenza di machine learning. I risultati sono disponibili tramite un portale Video Indexer senza codice o tramite un'API REST per una rapida integrazione nelle tue applicazioni.

Abbiamo creato questi modelli per lavorare con i personaggi animati insieme ad alcuni consumatori che hanno fornito contenuti animati reali per la formazione e i test. Il valore della nuova funzionalità è stato ben riassunto da Andy Gutteridge, direttore senior della tecnologia di studio e della post-produzione presso Viacom International Media Networks, che è stato uno dei fornitori di dati: "L'aggiunta di una solida individuazione di contenuti animati basata sull'intelligenza artificiale consentirà aiutarci a trovare e catalogare in modo rapido ed efficiente i metadati dei personaggi dal contenuto della nostra libreria.

Ancora più importante, darà ai nostri team creativi la possibilità di trovare immediatamente i contenuti di cui hanno bisogno, riducendo al minimo il tempo dedicato alla gestione dei media e consentendo loro di concentrarsi sulla creatività”.

Puoi iniziare a familiarizzare con il riconoscimento dei personaggi animati con pagine di documentazione.

Individuazione e trascrizione di contenuti in più lingue

Alcune risorse multimediali, come notizie, cronache e interviste, contengono registrazioni di persone che parlano lingue diverse. La maggior parte delle funzionalità di sintesi vocale esistenti richiedono che la lingua di riconoscimento audio sia specificata in anticipo, rendendo difficile la trascrizione di video multilingue.

La nostra nuova funzionalità di identificazione automatica della lingua parlata per vari tipi di contenuti utilizza la tecnologia di apprendimento automatico per identificare le lingue presenti nelle risorse multimediali. Una volta rilevato, ciascun segmento linguistico passa automaticamente attraverso un processo di trascrizione nella lingua appropriata, quindi tutti i segmenti vengono combinati in un unico file di trascrizione multilingue.

12 nuovi Servizi multimediali di Azure con intelligenza artificiale

La trascrizione risultante è disponibile come parte dell'output JSON di Video Indexer e come file di sottotitoli. La trascrizione di output è inoltre integrata con Ricerca di Azure, consentendoti di cercare immediatamente segmenti linguistici diversi nei tuoi video. Inoltre, quando si lavora con il portale Video Indexer è disponibile la trascrizione multilingue, in modo da poter visualizzare la trascrizione e la lingua identificata nel tempo oppure passare a punti specifici del video per ciascuna lingua e visualizzare la trascrizione multilingue come didascalie durante la riproduzione del video. Puoi anche tradurre il testo ricevuto in una qualsiasi delle 54 lingue disponibili tramite il portale e l'API.

Scopri di più sulla nuova funzionalità di riconoscimento del contenuto multilingue e su come viene utilizzata in Video Indexer leggere la documentazione.

Ulteriori modelli aggiornati e migliorati

Stiamo inoltre aggiungendo nuovi modelli a Video Indexer e migliorando quelli esistenti, inclusi quelli descritti di seguito.

Estrazione di entità associate a persone e luoghi

Abbiamo ampliato le nostre capacità esistenti di scoperta del marchio per includere nomi e luoghi noti, come la Torre Eiffel a Parigi e il Big Ben a Londra. Quando compaiono nella trascrizione generata o sullo schermo utilizzando il riconoscimento ottico dei caratteri (OCR), vengono aggiunte le informazioni pertinenti. Con questa nuova funzionalità puoi cercare tutte le persone, i luoghi e i marchi apparsi in un video e visualizzare i dettagli su di essi, comprese fasce orarie, descrizioni e collegamenti al motore di ricerca Bing per ulteriori informazioni.

12 nuovi Servizi multimediali di Azure con intelligenza artificiale

Modello di rilevamento dei frame per l'editor

Questa nuova funzionalità aggiunge una serie di "tag" ai metadati allegati ai singoli fotogrammi nei dettagli JSON per rappresentare la loro tipologia editoriale (ad esempio, campo lungo, campo medio, primo piano, primo piano estremo, due scatti, più persone , all'aperto, al chiuso, ecc.). Queste caratteristiche del tipo di ripresa sono utili durante la modifica di video per clip e trailer o quando si cerca uno stile di ripresa specifico per scopi artistici.

12 nuovi Servizi multimediali di Azure con intelligenza artificiale
Saperne di più Rilevamento del tipo di frame in Video Indexer.

Granularità della mappatura IPTC migliorata

Il nostro modello di rilevamento degli argomenti determina l'argomento di un video in base alla trascrizione, al riconoscimento ottico dei caratteri (OCR) e alle celebrità rilevate, anche se l'argomento non è specificato esplicitamente. Mappiamo questi argomenti rilevati in quattro aree di classificazione: Wikipedia, Bing, IPTC e IAB. Questo miglioramento ci consente di includere la classificazione IPTC di secondo livello.
Sfruttare questi miglioramenti è facile come reindicizzare la libreria Video Indexer corrente.

Nuova funzionalità di streaming live

Nell'anteprima di Servizi multimediali di Azure offriamo anche due nuove funzionalità per lo streaming live.

La trascrizione in tempo reale basata sull'intelligenza artificiale porta lo streaming live a un livello superiore

Usando Servizi multimediali di Azure per lo streaming live, ora puoi ricevere un flusso di output che include una traccia di testo generata automaticamente oltre al contenuto audio e video. Il testo viene creato utilizzando la trascrizione audio in tempo reale basata sull'intelligenza artificiale. Vengono applicate tecniche personalizzate prima e dopo la conversione da voce a testo per migliorare i risultati. La traccia di testo è confezionata in IMSC1, TTML o WebVTT, a seconda che sia fornita in DASH, HLS CMAF o HLS TS.

Codifica della linea in tempo reale per canali OTT 24 ore su 7, XNUMX giorni su XNUMX

Usando le nostre API v3, puoi creare, gestire e trasmettere canali OTT (over-the-top) e usare tutte le altre funzionalità di Servizi multimediali di Azure come video on demand in diretta (VOD, video on demand), pacchetti e gestione dei diritti digitali ( DRM, gestione dei diritti digitali).
Per vedere le versioni di anteprima di queste funzionalità, visita Comunità di Servizi multimediali di Azure.

12 nuovi Servizi multimediali di Azure con intelligenza artificiale

Nuove funzionalità di generazione di pacchetti

Supporto per tracce di descrizione audio

I contenuti trasmessi sui canali di trasmissione hanno spesso, oltre al normale segnale audio, una traccia audio con spiegazioni verbali di ciò che sta accadendo sullo schermo. Ciò rende i programmi più accessibili agli spettatori non vedenti, soprattutto se il contenuto è principalmente visivo. Nuovo funzione di descrizione audio ti consente di annotare una delle tracce audio come traccia di descrizione audio (AD, descrizione audio), consentendo ai giocatori di rendere la traccia AD disponibile agli spettatori.

Inserimento metadati ID3

Per segnalare l'inserimento di pubblicità o eventi di metadati personalizzati al player del cliente, le emittenti utilizzano spesso metadati temporizzati incorporati nel video. Oltre alle modalità di segnalazione SCTE-35, ora supportiamo anche ID3v2 e altri schemi personalizzati, definito dallo sviluppatore dell'applicazione per l'utilizzo da parte dell'applicazione client.

I partner di Microsoft Azure dimostrano soluzioni end-to-end

Bitmovin presenta Bitmovin Video Encoding e Bitmovin Video Player per Microsoft Azure. I clienti possono ora sfruttare queste soluzioni di codifica e riproduzione in Azure e beneficiare di funzionalità avanzate come la codifica a tre fasi, il supporto del codec AV1/VC, i sottotitoli multilingue e l'analisi video preintegrata per QoS, pubblicità e tracciamento video.

Evergente dimostra la sua piattaforma di gestione del ciclo di vita degli utenti su Azure. In qualità di fornitore leader di soluzioni di gestione dei ricavi e del ciclo di vita dei clienti, Evergent utilizza l'intelligenza artificiale di Azure per aiutare i fornitori di intrattenimento premium a migliorare l'acquisizione e la fidelizzazione dei clienti creando pacchetti di servizi e offerte mirati nei punti critici del ciclo di vita del cliente.

Haivision presenterà il suo servizio di routing multimediale intelligente basato su cloud, SRT Hub, che aiuta i clienti a trasformare i flussi di lavoro end-to-end Bordo della casella di dati di Azure e trasformare i flussi di lavoro con Hublet di Avid, Telestream, Wowza, Cinegy e Make.tv.

SES ha sviluppato una suite di servizi multimediali di livello broadcast sulla piattaforma Azure per i suoi clienti di servizi multimediali gestiti e satellitari. SES dimostrerà soluzioni per servizi di playout completamente gestiti, tra cui master playout, playout localizzato, rilevamento e sostituzione di annunci e codifica multicanale 24 ore su 7, XNUMX giorni su XNUMX, in tempo reale di alta qualità su Azure.

Sincronizza parole rende disponibili in Azure pratici strumenti cloud e tecnologia di automazione delle firme. Queste offerte renderanno più semplice per le organizzazioni del settore multimediale aggiungere automaticamente i sottotitoli, inclusi quelli in lingua straniera, ai flussi di lavoro video live e offline su Azure.
compagnia internazionale Tata Elxsi, una società di servizi tecnologici, ha integrato la sua piattaforma SaaS OTT TEPlay in Servizi multimediali di Azure per fornire contenuti OTT dal cloud. Tata Elxsi ha anche portato la sua soluzione di monitoraggio della qualità dell'esperienza (QoE) Falcon Eye a Microsoft Azure, fornendo analisi e metriche per il processo decisionale.

Verizon Media sta rendendo la sua piattaforma di streaming disponibile su Azure come versione beta. Verizon Media Platform è una soluzione OTT gestita di livello aziendale che include DRM, inserimento di annunci, sessioni personalizzate one-to-one, sostituzione dinamica dei contenuti e distribuzione di video. L'integrazione semplifica i flussi di lavoro, il supporto globale e la scalabilità e sblocca alcune delle funzionalità uniche presenti in Azure.

Fonte: habr.com

Aggiungi un commento