La mission de Microsoft est de donner à chaque personne et organisation de la planète les moyens d'accomplir davantage. L’industrie des médias est un excellent exemple de la façon dont cette mission devient réalité. Nous vivons à une époque où davantage de contenu est créé et consommé, de davantage de manières et sur davantage d’appareils. Lors de l'IBC 2019, nous avons partagé les dernières innovations sur lesquelles nous travaillons et comment elles peuvent vous aider à transformer votre expérience multimédia.
Détails sous la coupe !
Cette page est sur
Video Indexer prend désormais en charge l'animation et le contenu multilingue
L'année dernière, à l'IBC, nous avons réalisé notre
Nos dernières offres incluent des aperçus de deux fonctionnalités très recherchées et différenciées : la reconnaissance de caractères animés et la transcription vocale multilingue, ainsi que plusieurs ajouts aux modèles existants disponibles aujourd'hui dans Video Indexer.
Reconnaissance de personnages animés
Le contenu animé est l’un des types de contenu les plus populaires, mais les modèles de vision par ordinateur standard conçus pour reconnaître les visages humains ne fonctionnent pas bien avec lui, surtout si le contenu contient des personnages sans traits faciaux humains. La nouvelle version préliminaire combine Video Indexer avec le service Azure Custom Vision de Microsoft, offrant un nouvel ensemble de modèles qui détectent et regroupent automatiquement les personnages animés et les rendent faciles à étiqueter et à reconnaître à l'aide de modèles de vision personnalisés intégrés.
Les modèles sont intégrés dans un seul pipeline, permettant à quiconque d'utiliser le service sans aucune connaissance en apprentissage automatique. Les résultats sont disponibles via un portail Video Indexer sans code ou via une API REST pour une intégration rapide dans vos propres applications.
Nous avons construit ces modèles pour qu'ils fonctionnent avec des personnages animés ainsi qu'avec certains consommateurs qui ont fourni un véritable contenu animé pour la formation et les tests. La valeur de la nouvelle fonctionnalité a été bien résumée par Andy Gutteridge, directeur principal de la technologie de studio et de la post-production chez Viacom International Media Networks, qui était l'un des fournisseurs de données : « L'ajout d'une solide découverte de contenu animé basée sur l'IA permettra nous permettant de trouver et de cataloguer rapidement et efficacement les métadonnées des personnages du contenu de notre bibliothèque.
Plus important encore, cela donnera à nos équipes créatives la possibilité de trouver instantanément le contenu dont elles ont besoin, minimisant ainsi le temps passé à gérer les médias et leur permettant de se concentrer sur la créativité.
Vous pouvez commencer à vous familiariser avec la reconnaissance de personnages animés avec
Identification et transcription de contenus en plusieurs langues
Certaines ressources médiatiques, comme les actualités, les chroniques et les interviews, contiennent des enregistrements de personnes parlant différentes langues. La plupart des fonctionnalités de synthèse vocale existantes nécessitent que la langue de reconnaissance audio soit spécifiée à l'avance, ce qui rend difficile la transcription de vidéos multilingues.
Notre nouvelle fonctionnalité d'identification automatique de la langue parlée pour différents types de contenu utilise la technologie d'apprentissage automatique pour identifier les langues trouvées dans les ressources multimédias. Une fois détecté, chaque segment de langue passe automatiquement par un processus de transcription dans la langue appropriée, puis tous les segments sont combinés en un seul fichier de transcription multilingue.
La transcription résultante est disponible dans le cadre de la sortie JSON de Video Indexer et sous forme de fichiers de sous-titres. La transcription de sortie est également intégrée à Azure Search, vous permettant de rechercher immédiatement différents segments linguistiques dans vos vidéos. De plus, la transcription multilingue est disponible lorsque vous travaillez avec le portail Video Indexer, afin que vous puissiez visualiser la transcription et la langue identifiée au fil du temps, ou accéder à des endroits spécifiques de la vidéo pour chaque langue et voir la transcription multilingue sous forme de sous-titres pendant la lecture de la vidéo. Vous pouvez également traduire le texte reçu dans l'une des 54 langues disponibles via le portail et l'API.
Apprenez-en davantage sur la nouvelle fonctionnalité de reconnaissance de contenu multilingue et sur la manière dont elle est utilisée dans Video Indexer.
Modèles supplémentaires mis à jour et améliorés
Nous ajoutons également de nouveaux modèles à Video Indexer et améliorons ceux existants, y compris ceux décrits ci-dessous.
Extraction d'entités associées à des personnes et à des lieux
Nous avons élargi nos capacités existantes de découverte de marques pour inclure des noms et des lieux bien connus, tels que la Tour Eiffel à Paris et Big Ben à Londres. Lorsqu'elles apparaissent dans la transcription générée ou sur l'écran grâce à la reconnaissance optique de caractères (OCR), les informations pertinentes sont ajoutées. Avec cette nouvelle fonctionnalité, vous pouvez rechercher toutes les personnes, lieux et marques apparus dans une vidéo et afficher des détails les concernant, y compris des plages horaires, des descriptions et des liens vers le moteur de recherche Bing pour plus d'informations.
Modèle de détection de trame pour l'éditeur
Cette nouvelle fonctionnalité ajoute un ensemble de « balises » aux métadonnées attachées aux images individuelles dans les détails JSON pour représenter leur type éditorial (par exemple, plan large, plan moyen, gros plan, très gros plan, deux plans, plusieurs personnes). , extérieur, intérieur, etc.). Ces caractéristiques de type de plan sont utiles lors du montage vidéo pour des clips et des bandes-annonces, ou lors de la recherche d'un style de plan spécifique à des fins artistiques.
Granularité améliorée du mappage IPTC
Notre modèle de détection de sujet détermine le sujet d'une vidéo sur la base de la transcription, de la reconnaissance optique de caractères (OCR) et des célébrités détectées, même si le sujet n'est pas explicitement spécifié. Nous mappons ces sujets détectés à quatre zones de classification : Wikipedia, Bing, IPTC et IAB. Cette amélioration nous permet d'inclure une classification IPTC de deuxième niveau.
Tirer parti de ces améliorations est aussi simple que de réindexer votre bibliothèque Video Indexer actuelle.
Nouvelle fonctionnalité de diffusion en direct
Dans la version préliminaire d’Azure Media Services, nous proposons également deux nouvelles fonctionnalités pour la diffusion en direct.
La transcription en temps réel basée sur l'IA fait passer la diffusion en direct à un niveau supérieur
En utilisant Azure Media Services pour la diffusion en direct, vous pouvez désormais recevoir un flux de sortie comprenant une piste de texte générée automatiquement en plus du contenu audio et vidéo. Le texte est créé à l’aide d’une transcription audio en temps réel basée sur l’intelligence artificielle. Des techniques personnalisées sont appliquées avant et après la conversion parole-texte pour améliorer les résultats. La piste texte est packagée en IMSC1, TTML ou WebVTT, selon qu'elle est fournie en DASH, HLS CMAF ou HLS TS.
Encodage de ligne en temps réel pour les chaînes OTT 24h/7 et XNUMXj/XNUMX
Grâce à nos API v3, vous pouvez créer, gérer et diffuser des chaînes OTT (over-the-top), et utiliser toutes les autres fonctionnalités d'Azure Media Services telles que la vidéo à la demande en direct (VOD, vidéo à la demande), le packaging et la gestion des droits numériques ( DRM, gestion des droits numériques).
Pour voir les versions préliminaires de ces fonctionnalités, visitez
Nouvelles capacités de génération de packages
Prise en charge des pistes de description audio
Le contenu diffusé sur les chaînes de diffusion comporte souvent une piste audio avec des explications verbales de ce qui se passe à l'écran en plus du signal audio habituel. Cela rend les programmes plus accessibles aux téléspectateurs malvoyants, surtout si le contenu est principalement visuel. Nouveau
Insertion de métadonnées ID3
Pour signaler l'insertion de publicités ou d'événements de métadonnées personnalisés au lecteur du client, les diffuseurs utilisent souvent des métadonnées chronométrées intégrées dans la vidéo. En plus des modes de signalisation SCTE-35, nous prenons désormais également en charge
Les partenaires Microsoft Azure présentent des solutions de bout en bout
Compagnie internationale
Source: habr.com