12 nouveaux Azure Media Services avec intelligence artificielle

La mission de Microsoft est de donner à chaque personne et organisation de la planète les moyens d'accomplir davantage. L’industrie des médias est un excellent exemple de la façon dont cette mission devient réalité. Nous vivons à une époque où davantage de contenu est créé et consommé, de davantage de manières et sur davantage d’appareils. Lors de l'IBC 2019, nous avons partagé les dernières innovations sur lesquelles nous travaillons et comment elles peuvent vous aider à transformer votre expérience multimédia.
12 nouveaux Azure Media Services avec intelligence artificielle
Détails sous la coupe !

Cette page est sur notre site Web.

Video Indexer prend désormais en charge l'animation et le contenu multilingue

L'année dernière, à l'IBC, nous avons réalisé notre Indexeur vidéo Azure Media Services, et cette année, c'est encore mieux. Video Indexer extrait automatiquement les informations et les métadonnées des fichiers multimédias, tels que les mots prononcés, les visages, les émotions, les sujets et les marques, et vous n'avez pas besoin d'être un expert en apprentissage automatique pour l'utiliser.

Nos dernières offres incluent des aperçus de deux fonctionnalités très recherchées et différenciées : la reconnaissance de caractères animés et la transcription vocale multilingue, ainsi que plusieurs ajouts aux modèles existants disponibles aujourd'hui dans Video Indexer.

Reconnaissance de personnages animés

12 nouveaux Azure Media Services avec intelligence artificielle
Le contenu animé est l’un des types de contenu les plus populaires, mais les modèles de vision par ordinateur standard conçus pour reconnaître les visages humains ne fonctionnent pas bien avec lui, surtout si le contenu contient des personnages sans traits faciaux humains. La nouvelle version préliminaire combine Video Indexer avec le service Azure Custom Vision de Microsoft, offrant un nouvel ensemble de modèles qui détectent et regroupent automatiquement les personnages animés et les rendent faciles à étiqueter et à reconnaître à l'aide de modèles de vision personnalisés intégrés.

Les modèles sont intégrés dans un seul pipeline, permettant à quiconque d'utiliser le service sans aucune connaissance en apprentissage automatique. Les résultats sont disponibles via un portail Video Indexer sans code ou via une API REST pour une intégration rapide dans vos propres applications.

Nous avons construit ces modèles pour qu'ils fonctionnent avec des personnages animés ainsi qu'avec certains consommateurs qui ont fourni un véritable contenu animé pour la formation et les tests. La valeur de la nouvelle fonctionnalité a été bien résumée par Andy Gutteridge, directeur principal de la technologie de studio et de la post-production chez Viacom International Media Networks, qui était l'un des fournisseurs de données : « L'ajout d'une solide découverte de contenu animé basée sur l'IA permettra nous permettant de trouver et de cataloguer rapidement et efficacement les métadonnées des personnages du contenu de notre bibliothèque.

Plus important encore, cela donnera à nos équipes créatives la possibilité de trouver instantanément le contenu dont elles ont besoin, minimisant ainsi le temps passé à gérer les médias et leur permettant de se concentrer sur la créativité.

Vous pouvez commencer à vous familiariser avec la reconnaissance de personnages animés avec pages de documentation.

Identification et transcription de contenus en plusieurs langues

Certaines ressources médiatiques, comme les actualités, les chroniques et les interviews, contiennent des enregistrements de personnes parlant différentes langues. La plupart des fonctionnalités de synthèse vocale existantes nécessitent que la langue de reconnaissance audio soit spécifiée à l'avance, ce qui rend difficile la transcription de vidéos multilingues.

Notre nouvelle fonctionnalité d'identification automatique de la langue parlée pour différents types de contenu utilise la technologie d'apprentissage automatique pour identifier les langues trouvées dans les ressources multimédias. Une fois détecté, chaque segment de langue passe automatiquement par un processus de transcription dans la langue appropriée, puis tous les segments sont combinés en un seul fichier de transcription multilingue.

12 nouveaux Azure Media Services avec intelligence artificielle

La transcription résultante est disponible dans le cadre de la sortie JSON de Video Indexer et sous forme de fichiers de sous-titres. La transcription de sortie est également intégrée à Azure Search, vous permettant de rechercher immédiatement différents segments linguistiques dans vos vidéos. De plus, la transcription multilingue est disponible lorsque vous travaillez avec le portail Video Indexer, afin que vous puissiez visualiser la transcription et la langue identifiée au fil du temps, ou accéder à des endroits spécifiques de la vidéo pour chaque langue et voir la transcription multilingue sous forme de sous-titres pendant la lecture de la vidéo. Vous pouvez également traduire le texte reçu dans l'une des 54 langues disponibles via le portail et l'API.

Apprenez-en davantage sur la nouvelle fonctionnalité de reconnaissance de contenu multilingue et sur la manière dont elle est utilisée dans Video Indexer. lire la documentation.

Modèles supplémentaires mis à jour et améliorés

Nous ajoutons également de nouveaux modèles à Video Indexer et améliorons ceux existants, y compris ceux décrits ci-dessous.

Extraction d'entités associées à des personnes et à des lieux

Nous avons élargi nos capacités existantes de découverte de marques pour inclure des noms et des lieux bien connus, tels que la Tour Eiffel à Paris et Big Ben à Londres. Lorsqu'elles apparaissent dans la transcription générée ou sur l'écran grâce à la reconnaissance optique de caractères (OCR), les informations pertinentes sont ajoutées. Avec cette nouvelle fonctionnalité, vous pouvez rechercher toutes les personnes, lieux et marques apparus dans une vidéo et afficher des détails les concernant, y compris des plages horaires, des descriptions et des liens vers le moteur de recherche Bing pour plus d'informations.

12 nouveaux Azure Media Services avec intelligence artificielle

Modèle de détection de trame pour l'éditeur

Cette nouvelle fonctionnalité ajoute un ensemble de « balises » aux métadonnées attachées aux images individuelles dans les détails JSON pour représenter leur type éditorial (par exemple, plan large, plan moyen, gros plan, très gros plan, deux plans, plusieurs personnes). , extérieur, intérieur, etc.). Ces caractéristiques de type de plan sont utiles lors du montage vidéo pour des clips et des bandes-annonces, ou lors de la recherche d'un style de plan spécifique à des fins artistiques.

12 nouveaux Azure Media Services avec intelligence artificielle
Apprendre encore plus Détection du type d’image dans Video Indexer.

Granularité améliorée du mappage IPTC

Notre modèle de détection de sujet détermine le sujet d'une vidéo sur la base de la transcription, de la reconnaissance optique de caractères (OCR) et des célébrités détectées, même si le sujet n'est pas explicitement spécifié. Nous mappons ces sujets détectés à quatre zones de classification : Wikipedia, Bing, IPTC et IAB. Cette amélioration nous permet d'inclure une classification IPTC de deuxième niveau.
Tirer parti de ces améliorations est aussi simple que de réindexer votre bibliothèque Video Indexer actuelle.

Nouvelle fonctionnalité de diffusion en direct

Dans la version préliminaire d’Azure Media Services, nous proposons également deux nouvelles fonctionnalités pour la diffusion en direct.

La transcription en temps réel basée sur l'IA fait passer la diffusion en direct à un niveau supérieur

En utilisant Azure Media Services pour la diffusion en direct, vous pouvez désormais recevoir un flux de sortie comprenant une piste de texte générée automatiquement en plus du contenu audio et vidéo. Le texte est créé à l’aide d’une transcription audio en temps réel basée sur l’intelligence artificielle. Des techniques personnalisées sont appliquées avant et après la conversion parole-texte pour améliorer les résultats. La piste texte est packagée en IMSC1, TTML ou WebVTT, selon qu'elle est fournie en DASH, HLS CMAF ou HLS TS.

Encodage de ligne en temps réel pour les chaînes OTT 24h/7 et XNUMXj/XNUMX

Grâce à nos API v3, vous pouvez créer, gérer et diffuser des chaînes OTT (over-the-top), et utiliser toutes les autres fonctionnalités d'Azure Media Services telles que la vidéo à la demande en direct (VOD, vidéo à la demande), le packaging et la gestion des droits numériques ( DRM, gestion des droits numériques).
Pour voir les versions préliminaires de ces fonctionnalités, visitez Communauté Azure Media Services.

12 nouveaux Azure Media Services avec intelligence artificielle

Nouvelles capacités de génération de packages

Prise en charge des pistes de description audio

Le contenu diffusé sur les chaînes de diffusion comporte souvent une piste audio avec des explications verbales de ce qui se passe à l'écran en plus du signal audio habituel. Cela rend les programmes plus accessibles aux téléspectateurs malvoyants, surtout si le contenu est principalement visuel. Nouveau fonction d'audiodescription permet d'annoter l'une des pistes audio en tant que piste d'audiodescription (AD, audiodescription), permettant aux joueurs de mettre la piste AD à la disposition des téléspectateurs.

Insertion de métadonnées ID3

Pour signaler l'insertion de publicités ou d'événements de métadonnées personnalisés au lecteur du client, les diffuseurs utilisent souvent des métadonnées chronométrées intégrées dans la vidéo. En plus des modes de signalisation SCTE-35, nous prenons désormais également en charge ID3v2 et autres schémas personnalisés, défini par le développeur de l'application pour être utilisé par l'application client.

Les partenaires Microsoft Azure présentent des solutions de bout en bout

Bitmovin présente Bitmovin Video Encoding et Bitmovin Video Player pour Microsoft Azure. Les clients peuvent désormais exploiter ces solutions d'encodage et de diffusion dans Azure et bénéficier de fonctionnalités avancées telles que l'encodage en trois étapes, la prise en charge du codec AV1/VC, les sous-titres multilingues et l'analyse vidéo pré-intégrée pour la qualité de service, la publicité et le suivi vidéo.

Evergent présente sa plateforme de gestion du cycle de vie des utilisateurs sur Azure. En tant que fournisseur leader de solutions de gestion des revenus et du cycle de vie des clients, Evergent utilise Azure AI pour aider les fournisseurs de divertissement haut de gamme à améliorer l'acquisition et la fidélisation des clients en créant des packages de services et des offres ciblés à des points critiques du cycle de vie du client.

Haivision présentera son service intelligent de routage multimédia basé sur le cloud, SRT Hub, qui aide les clients à transformer les flux de travail de bout en bout en utilisant Bord Azure Data Box et transformer les flux de travail avec les Hublets d'Avid, Telestream, Wowza, Cinegy et Make.tv.

SES a développé une suite de services multimédias de qualité diffusion sur la plateforme Azure pour ses clients de services multimédias par satellite et gérés. SES présentera des solutions pour des services de diffusion entièrement gérés, notamment la diffusion principale, la diffusion localisée, la découverte et le remplacement des publicités, ainsi qu'un encodage multicanal en temps réel de haute qualité, 24h/7 et XNUMXj/XNUMX sur Azure.

Mots synchronisés met à disposition sur Azure des outils cloud pratiques et une technologie d’automatisation des signatures. Ces offres permettront aux organisations médiatiques d’ajouter automatiquement des sous-titres, y compris des sous-titres en langue étrangère, à leurs flux de travail vidéo en direct et hors ligne sur Azure.
Compagnie internationale Tata Elxsi, une société de services technologiques, a intégré sa plateforme SaaS OTT TEPlay dans Azure Media Services pour fournir du contenu OTT à partir du cloud. Tata Elxsi a également apporté sa solution de surveillance de la qualité d'expérience (QoE) Falcon Eye à Microsoft Azure, fournissant des analyses et des mesures pour la prise de décision.

Verizon Media rend sa plateforme de streaming disponible sur Azure en version bêta. Verizon Media Platform est une solution OTT gérée de niveau entreprise qui comprend DRM, l'insertion de publicités, des sessions personnalisées individuelles, le remplacement de contenu dynamique et la diffusion vidéo. L’intégration simplifie les flux de travail, la prise en charge et l’évolutivité mondiales, et débloque certaines des fonctionnalités uniques d’Azure.

Source: habr.com

Ajouter un commentaire