12 neue Azure Media Services mit KI

Die Mission von Microsoft besteht darin, jede Person und Organisation auf der Welt zu befähigen, mehr zu erreichen. Die Medienbranche ist ein großartiges Beispiel für die Verwirklichung dieser Mission. Wir leben in einer Zeit, in der mehr Inhalte auf mehr Arten und auf mehr Geräten erstellt und konsumiert werden. Auf der IBC 2019 haben wir die neuesten Innovationen vorgestellt, an denen wir arbeiten, und wie sie dazu beitragen können, Ihr Medienerlebnis zu verändern.
12 neue Azure Media Services mit KI
Details unter dem Schnitt!

Diese Seite ist online unsere Internetseite.

Video Indexer unterstützt jetzt Animationen und mehrsprachige Inhalte

Letztes Jahr haben wir auf der IBC unseren Preis gewonnen Azure Media Services-Videoindexer, und dieses Jahr wurde es noch besser. Video Indexer extrahiert automatisch Informationen und Metadaten aus Mediendateien, wie gesprochene Wörter, Gesichter, Emotionen, Themen und Marken, und Sie müssen kein Experte für maschinelles Lernen sein, um ihn zu verwenden.

Zu unseren neuesten Angeboten gehören Vorschauen auf zwei sehr gefragte und differenzierte Funktionen – animierte Zeichenerkennung und mehrsprachige Sprachtranskription – sowie mehrere Ergänzungen zu den bestehenden Modellen, die heute in Video Indexer verfügbar sind.

Erkennung animierter Zeichen

12 neue Azure Media Services mit KI
Animierte Inhalte gehören zu den beliebtesten Arten von Inhalten, doch herkömmliche Computer-Vision-Modelle zur Erkennung menschlicher Gesichter funktionieren damit nicht gut, insbesondere wenn der Inhalt Charaktere ohne menschliche Gesichtszüge enthält. Die neue Vorschauversion kombiniert Video Indexer mit dem Azure Custom Vision-Dienst von Microsoft und stellt einen neuen Satz von Modellen bereit, die animierte Charaktere automatisch erkennen und gruppieren und sie mithilfe integrierter benutzerdefinierter Vision-Modelle einfach zu kennzeichnen und zu erkennen machen.

Die Modelle sind in einer einzigen Pipeline integriert, sodass jeder den Dienst ohne Kenntnisse im Bereich maschinelles Lernen nutzen kann. Die Ergebnisse sind über ein Video Indexer-Portal ohne Code oder über eine REST-API zur schnellen Integration in Ihre eigenen Anwendungen verfügbar.

Wir haben diese Modelle für die Arbeit mit animierten Charakteren zusammen mit einigen Verbrauchern entwickelt, die echte animierte Inhalte für Schulungen und Tests bereitgestellt haben. Der Wert der neuen Funktionalität wurde von Andy Gutteridge, Senior Director für Studiotechnik und Postproduktion bei Viacom International Media Networks, der einer der Datenlieferanten war, gut zusammengefasst: „Die Hinzufügung einer robusten KI-gestützten Erkennung animierter Inhalte wird dies ermöglichen.“ Es ermöglicht uns, Charaktermetadaten aus unseren Bibliotheksinhalten schnell und effizient zu finden und zu katalogisieren.

Am wichtigsten ist, dass es unseren Kreativteams die Möglichkeit gibt, die benötigten Inhalte sofort zu finden, wodurch der Zeitaufwand für die Medienverwaltung minimiert wird und sie sich auf die Kreativität konzentrieren können.“

Sie können beginnen, sich mit der Erkennung animierter Zeichen vertraut zu machen Dokumentationsseiten.

Identifizierung und Transkription von Inhalten in mehreren Sprachen

Einige Medienressourcen wie Nachrichten, Chroniken und Interviews enthalten Aufnahmen von Menschen, die verschiedene Sprachen sprechen. Bei den meisten existierenden Sprach-zu-Text-Funktionen muss die Audioerkennungssprache im Voraus festgelegt werden, was die Transkription mehrsprachiger Videos erschwert.

Unsere neue Funktion zur automatischen Identifizierung gesprochener Sprache für verschiedene Arten von Inhalten nutzt maschinelle Lerntechnologie, um in Medienressourcen vorkommende Sprachen zu identifizieren. Nach der Erkennung durchläuft jedes Sprachsegment automatisch einen Transkriptionsprozess in der entsprechenden Sprache. Anschließend werden alle Segmente in einer einzigen mehrsprachigen Transkriptionsdatei zusammengefasst.

12 neue Azure Media Services mit KI

Das resultierende Transkript ist als Teil der JSON-Ausgabe des Video Indexers und als Untertiteldateien verfügbar. Das Ausgabetranskript ist außerdem in Azure Search integriert, sodass Sie sofort nach verschiedenen Sprachsegmenten in Ihren Videos suchen können. Darüber hinaus ist bei der Arbeit mit dem Video Indexer-Portal eine mehrsprachige Transkription verfügbar, sodass Sie das Transkript und die identifizierte Sprache im Zeitverlauf anzeigen oder für jede Sprache zu bestimmten Stellen im Video springen und die mehrsprachige Transkription als Untertitel sehen können, während das Video abgespielt wird. Sie können den empfangenen Text auch über das Portal und die API in jede der 54 verfügbaren Sprachen übersetzen.

Erfahren Sie mehr über die neue Funktion zur Erkennung mehrsprachiger Inhalte und deren Verwendung im Video Indexer Lesen Sie die Dokumentation.

Zusätzliche aktualisierte und verbesserte Modelle

Wir fügen Video Indexer auch neue Modelle hinzu und verbessern bestehende Modelle, einschließlich der unten beschriebenen.

Extrahieren von Entitäten, die mit Personen und Orten verbunden sind

Wir haben unsere bestehenden Möglichkeiten zur Markenerkennung um bekannte Namen und Orte erweitert, beispielsweise den Eiffelturm in Paris und Big Ben in London. Wenn sie im generierten Transkript oder auf dem Bildschirm mittels optischer Zeichenerkennung (OCR) erscheinen, werden die relevanten Informationen hinzugefügt. Mit dieser neuen Funktion können Sie nach allen Personen, Orten und Marken suchen, die in einem Video aufgetreten sind, und Details zu ihnen anzeigen, einschließlich Zeitfenstern, Beschreibungen und Links zur Bing-Suchmaschine für weitere Informationen.

12 neue Azure Media Services mit KI

Frame-Erkennungsmodell für den Editor

Diese neue Funktion fügt eine Reihe von „Tags“ zu den Metadaten hinzu, die an einzelne Frames in den JSON-Details angehängt sind, um deren redaktionellen Typ darzustellen (z. B. Totale, mittlere Aufnahme, Nahaufnahme, extreme Nahaufnahme, zwei Aufnahmen, mehrere Personen). , draußen, drinnen usw.). Diese Eigenschaften des Aufnahmetyps sind nützlich, wenn Sie Videos für Clips und Trailer bearbeiten oder für künstlerische Zwecke nach einem bestimmten Aufnahmestil suchen.

12 neue Azure Media Services mit KI
Erfahren Sie mehr Erkennung des Bildtyps im Video Indexer.

Verbesserte IPTC-Mapping-Granularität

Unser Themenerkennungsmodell bestimmt das Thema eines Videos basierend auf Transkription, optischer Zeichenerkennung (OCR) und erkannten Prominenten, auch wenn das Thema nicht explizit angegeben ist. Wir ordnen diese erkannten Themen vier Klassifizierungsbereichen zu: Wikipedia, Bing, IPTC und IAB. Diese Erweiterung ermöglicht uns die Einbeziehung der IPTC-Klassifizierung der zweiten Ebene.
Die Nutzung dieser Verbesserungen ist so einfach wie die Neuindizierung Ihrer aktuellen Video Indexer-Bibliothek.

Neue Live-Streaming-Funktionalität

In der Azure Media Services-Vorschau bieten wir außerdem zwei neue Funktionen für Livestreaming an.

Die KI-gestützte Echtzeit-Transkription bringt Live-Streaming auf die nächste Stufe

Wenn Sie Azure Media Services für Live-Streaming verwenden, können Sie jetzt einen Ausgabestream empfangen, der neben Audio- und Videoinhalten auch eine automatisch generierte Textspur enthält. Der Text wird mittels Echtzeit-Audiotranskription auf Basis künstlicher Intelligenz erstellt. Zur Verbesserung der Ergebnisse werden vor und nach der Sprach-zu-Text-Konvertierung benutzerdefinierte Techniken angewendet. Die Textspur ist in IMSC1, TTML oder WebVTT verpackt, je nachdem, ob sie in DASH, HLS CMAF oder HLS TS geliefert wird.

Echtzeit-Leitungskodierung für OTT-Kanäle rund um die Uhr

Mit unseren v3-APIs können Sie OTT-Kanäle (Over-the-Top) erstellen, verwalten und übertragen sowie alle anderen Azure Media Services-Funktionen wie Live-Video-on-Demand (VOD, Video-on-Demand), Paketierung und Verwaltung digitaler Rechte nutzen ( DRM, digitale Rechteverwaltung).
Um Vorschauversionen dieser Funktionen anzuzeigen, besuchen Sie Azure Media Services-Community.

12 neue Azure Media Services mit KI

Neue Funktionen zur Paketgenerierung

Unterstützung für Audiodeskriptionsspuren

Inhalte, die über Sendekanäle ausgestrahlt werden, verfügen häufig zusätzlich zum regulären Audiosignal über eine Audiospur mit verbalen Erklärungen zu dem, was auf dem Bildschirm passiert. Dadurch werden Programme für sehbehinderte Zuschauer zugänglicher, insbesondere wenn der Inhalt hauptsächlich visueller Natur ist. Neu Audiodeskriptionsfunktion ermöglicht es Ihnen, eine der Audiospuren als Audiobeschreibungsspur (AD, Audiodeskription) zu kommentieren, sodass Spieler die AD-Spur den Zuschauern zur Verfügung stellen können.

Einfügen von ID3-Metadaten

Um dem Player des Kunden das Einfügen von Werbung oder benutzerdefinierten Metadatenereignissen zu signalisieren, verwenden Rundfunkveranstalter häufig in das Video eingebettete zeitgesteuerte Metadaten. Zusätzlich zu den SCTE-35-Signalisierungsmodi unterstützen wir jetzt auch ID3v2 und andere benutzerdefinierte Schemata, vom Anwendungsentwickler zur Verwendung durch die Clientanwendung definiert.

Microsoft Azure-Partner demonstrieren End-to-End-Lösungen

Bitmovin stellt Bitmovin Video Encoding und Bitmovin Video Player für Microsoft Azure vor. Kunden können diese Kodierungs- und Playout-Lösungen jetzt in Azure nutzen und von erweiterten Funktionen wie dreistufiger Kodierung, AV1/VC-Codec-Unterstützung, mehrsprachigen Untertiteln und vorintegrierter Videoanalyse für QoS, Werbung und Videoverfolgung profitieren.

Evergent demonstriert seine User Lifecycle Management Platform auf Azure. Als führender Anbieter von Umsatz- und Customer-Lifecycle-Management-Lösungen nutzt Evergent Azure AI, um Premium-Entertainment-Anbieter dabei zu unterstützen, die Kundenakquise und -bindung zu verbessern, indem gezielte Servicepakete und Angebote an kritischen Punkten im Kundenlebenszyklus erstellt werden.

Haivision wird seinen intelligenten cloudbasierten Medienrouting-Dienst SRT Hub vorstellen, der Kunden bei der Transformation von End-to-End-Workflows unterstützt Azure Data Box-Edge und Transformation von Arbeitsabläufen mit Hublets von Avid, Telestream, Wowza, Cinegy und Make.tv.

SES hat für seine Satelliten- und Managed-Media-Services-Kunden eine Reihe von Broadcast-Mediendiensten auf der Azure-Plattform entwickelt. SES wird Lösungen für vollständig verwaltete Playout-Dienste vorführen, darunter Master-Playout, lokalisiertes Playout, Anzeigenerkennung und -austausch sowie hochwertige Echtzeit-Mehrkanalkodierung rund um die Uhr auf Azure.

Synchronisieren Sie Wörter stellt praktische Cloud-Tools und Signaturautomatisierungstechnologie auf Azure zur Verfügung. Diese Angebote erleichtern Medienunternehmen das automatische Hinzufügen von Untertiteln, einschließlich fremdsprachiger Untertitel, zu ihren Live- und Offline-Video-Workflows auf Azure.
internationales Unternehmen Tata Elxsi, ein Technologiedienstleistungsunternehmen, hat seine OTT-SaaS-Plattform TEPlay in Azure Media Services integriert, um OTT-Inhalte aus der Cloud bereitzustellen. Tata Elxsi hat auch seine Falcon Eye-Lösung zur Überwachung der Erlebnisqualität (Quality of Experience, QoE) auf Microsoft Azure gebracht und bietet Analysen und Metriken für die Entscheidungsfindung.

Verizon Media stellt seine Streaming-Plattform als Beta-Version auf Azure zur Verfügung. Verizon Media Platform ist eine verwaltete OTT-Lösung der Enterprise-Klasse, die DRM, Anzeigeneinfügung, personalisierte Eins-zu-eins-Sitzungen, dynamische Inhaltsersetzung und Videobereitstellung umfasst. Die Integration vereinfacht Arbeitsabläufe, globale Unterstützung und Skalierung und erschließt einige der einzigartigen Funktionen von Azure.

Source: habr.com

Kommentar hinzufügen