Die Mission von Microsoft besteht darin, jede Person und Organisation auf der Welt zu befähigen, mehr zu erreichen. Die Medienbranche ist ein großartiges Beispiel für die Verwirklichung dieser Mission. Wir leben in einer Zeit, in der mehr Inhalte auf mehr Arten und auf mehr Geräten erstellt und konsumiert werden. Auf der IBC 2019 haben wir die neuesten Innovationen vorgestellt, an denen wir arbeiten, und wie sie dazu beitragen können, Ihr Medienerlebnis zu verändern.
Details unter dem Schnitt!
Diese Seite ist online
Video Indexer unterstützt jetzt Animationen und mehrsprachige Inhalte
Letztes Jahr haben wir auf der IBC unseren Preis gewonnen
Zu unseren neuesten Angeboten gehören Vorschauen auf zwei sehr gefragte und differenzierte Funktionen – animierte Zeichenerkennung und mehrsprachige Sprachtranskription – sowie mehrere Ergänzungen zu den bestehenden Modellen, die heute in Video Indexer verfügbar sind.
Erkennung animierter Zeichen
Animierte Inhalte gehören zu den beliebtesten Arten von Inhalten, doch herkömmliche Computer-Vision-Modelle zur Erkennung menschlicher Gesichter funktionieren damit nicht gut, insbesondere wenn der Inhalt Charaktere ohne menschliche Gesichtszüge enthält. Die neue Vorschauversion kombiniert Video Indexer mit dem Azure Custom Vision-Dienst von Microsoft und stellt einen neuen Satz von Modellen bereit, die animierte Charaktere automatisch erkennen und gruppieren und sie mithilfe integrierter benutzerdefinierter Vision-Modelle einfach zu kennzeichnen und zu erkennen machen.
Die Modelle sind in einer einzigen Pipeline integriert, sodass jeder den Dienst ohne Kenntnisse im Bereich maschinelles Lernen nutzen kann. Die Ergebnisse sind über ein Video Indexer-Portal ohne Code oder über eine REST-API zur schnellen Integration in Ihre eigenen Anwendungen verfügbar.
Wir haben diese Modelle für die Arbeit mit animierten Charakteren zusammen mit einigen Verbrauchern entwickelt, die echte animierte Inhalte für Schulungen und Tests bereitgestellt haben. Der Wert der neuen Funktionalität wurde von Andy Gutteridge, Senior Director für Studiotechnik und Postproduktion bei Viacom International Media Networks, der einer der Datenlieferanten war, gut zusammengefasst: „Die Hinzufügung einer robusten KI-gestützten Erkennung animierter Inhalte wird dies ermöglichen.“ Es ermöglicht uns, Charaktermetadaten aus unseren Bibliotheksinhalten schnell und effizient zu finden und zu katalogisieren.
Am wichtigsten ist, dass es unseren Kreativteams die Möglichkeit gibt, die benötigten Inhalte sofort zu finden, wodurch der Zeitaufwand für die Medienverwaltung minimiert wird und sie sich auf die Kreativität konzentrieren können.“
Sie können beginnen, sich mit der Erkennung animierter Zeichen vertraut zu machen
Identifizierung und Transkription von Inhalten in mehreren Sprachen
Einige Medienressourcen wie Nachrichten, Chroniken und Interviews enthalten Aufnahmen von Menschen, die verschiedene Sprachen sprechen. Bei den meisten existierenden Sprach-zu-Text-Funktionen muss die Audioerkennungssprache im Voraus festgelegt werden, was die Transkription mehrsprachiger Videos erschwert.
Unsere neue Funktion zur automatischen Identifizierung gesprochener Sprache für verschiedene Arten von Inhalten nutzt maschinelle Lerntechnologie, um in Medienressourcen vorkommende Sprachen zu identifizieren. Nach der Erkennung durchläuft jedes Sprachsegment automatisch einen Transkriptionsprozess in der entsprechenden Sprache. Anschließend werden alle Segmente in einer einzigen mehrsprachigen Transkriptionsdatei zusammengefasst.
Das resultierende Transkript ist als Teil der JSON-Ausgabe des Video Indexers und als Untertiteldateien verfügbar. Das Ausgabetranskript ist außerdem in Azure Search integriert, sodass Sie sofort nach verschiedenen Sprachsegmenten in Ihren Videos suchen können. Darüber hinaus ist bei der Arbeit mit dem Video Indexer-Portal eine mehrsprachige Transkription verfügbar, sodass Sie das Transkript und die identifizierte Sprache im Zeitverlauf anzeigen oder für jede Sprache zu bestimmten Stellen im Video springen und die mehrsprachige Transkription als Untertitel sehen können, während das Video abgespielt wird. Sie können den empfangenen Text auch über das Portal und die API in jede der 54 verfügbaren Sprachen übersetzen.
Erfahren Sie mehr über die neue Funktion zur Erkennung mehrsprachiger Inhalte und deren Verwendung im Video Indexer
Zusätzliche aktualisierte und verbesserte Modelle
Wir fügen Video Indexer auch neue Modelle hinzu und verbessern bestehende Modelle, einschließlich der unten beschriebenen.
Extrahieren von Entitäten, die mit Personen und Orten verbunden sind
Wir haben unsere bestehenden Möglichkeiten zur Markenerkennung um bekannte Namen und Orte erweitert, beispielsweise den Eiffelturm in Paris und Big Ben in London. Wenn sie im generierten Transkript oder auf dem Bildschirm mittels optischer Zeichenerkennung (OCR) erscheinen, werden die relevanten Informationen hinzugefügt. Mit dieser neuen Funktion können Sie nach allen Personen, Orten und Marken suchen, die in einem Video aufgetreten sind, und Details zu ihnen anzeigen, einschließlich Zeitfenstern, Beschreibungen und Links zur Bing-Suchmaschine für weitere Informationen.
Frame-Erkennungsmodell für den Editor
Diese neue Funktion fügt eine Reihe von „Tags“ zu den Metadaten hinzu, die an einzelne Frames in den JSON-Details angehängt sind, um deren redaktionellen Typ darzustellen (z. B. Totale, mittlere Aufnahme, Nahaufnahme, extreme Nahaufnahme, zwei Aufnahmen, mehrere Personen). , draußen, drinnen usw.). Diese Eigenschaften des Aufnahmetyps sind nützlich, wenn Sie Videos für Clips und Trailer bearbeiten oder für künstlerische Zwecke nach einem bestimmten Aufnahmestil suchen.
Verbesserte IPTC-Mapping-Granularität
Unser Themenerkennungsmodell bestimmt das Thema eines Videos basierend auf Transkription, optischer Zeichenerkennung (OCR) und erkannten Prominenten, auch wenn das Thema nicht explizit angegeben ist. Wir ordnen diese erkannten Themen vier Klassifizierungsbereichen zu: Wikipedia, Bing, IPTC und IAB. Diese Erweiterung ermöglicht uns die Einbeziehung der IPTC-Klassifizierung der zweiten Ebene.
Die Nutzung dieser Verbesserungen ist so einfach wie die Neuindizierung Ihrer aktuellen Video Indexer-Bibliothek.
Neue Live-Streaming-Funktionalität
In der Azure Media Services-Vorschau bieten wir außerdem zwei neue Funktionen für Livestreaming an.
Die KI-gestützte Echtzeit-Transkription bringt Live-Streaming auf die nächste Stufe
Wenn Sie Azure Media Services für Live-Streaming verwenden, können Sie jetzt einen Ausgabestream empfangen, der neben Audio- und Videoinhalten auch eine automatisch generierte Textspur enthält. Der Text wird mittels Echtzeit-Audiotranskription auf Basis künstlicher Intelligenz erstellt. Zur Verbesserung der Ergebnisse werden vor und nach der Sprach-zu-Text-Konvertierung benutzerdefinierte Techniken angewendet. Die Textspur ist in IMSC1, TTML oder WebVTT verpackt, je nachdem, ob sie in DASH, HLS CMAF oder HLS TS geliefert wird.
Echtzeit-Leitungskodierung für OTT-Kanäle rund um die Uhr
Mit unseren v3-APIs können Sie OTT-Kanäle (Over-the-Top) erstellen, verwalten und übertragen sowie alle anderen Azure Media Services-Funktionen wie Live-Video-on-Demand (VOD, Video-on-Demand), Paketierung und Verwaltung digitaler Rechte nutzen ( DRM, digitale Rechteverwaltung).
Um Vorschauversionen dieser Funktionen anzuzeigen, besuchen Sie
Neue Funktionen zur Paketgenerierung
Unterstützung für Audiodeskriptionsspuren
Inhalte, die über Sendekanäle ausgestrahlt werden, verfügen häufig zusätzlich zum regulären Audiosignal über eine Audiospur mit verbalen Erklärungen zu dem, was auf dem Bildschirm passiert. Dadurch werden Programme für sehbehinderte Zuschauer zugänglicher, insbesondere wenn der Inhalt hauptsächlich visueller Natur ist. Neu
Einfügen von ID3-Metadaten
Um dem Player des Kunden das Einfügen von Werbung oder benutzerdefinierten Metadatenereignissen zu signalisieren, verwenden Rundfunkveranstalter häufig in das Video eingebettete zeitgesteuerte Metadaten. Zusätzlich zu den SCTE-35-Signalisierungsmodi unterstützen wir jetzt auch
Microsoft Azure-Partner demonstrieren End-to-End-Lösungen
internationales Unternehmen
Source: habr.com