12 nowych usług Azure Media Services ze sztuczną inteligencją

Misją Microsoft jest umożliwienie każdej osobie i organizacji na świecie osiągnięcia więcej. Branża medialna jest doskonałym przykładem urzeczywistnienia tej misji. Żyjemy w epoce, w której tworzy się i konsumuje więcej treści, na więcej sposobów i na większej liczbie urządzeń. Na targach IBC 2019 podzieliliśmy się najnowszymi innowacjami, nad którymi pracujemy, i tym, jak mogą one pomóc w przekształceniu Twoich doświadczeń z mediami.
12 nowych usług Azure Media Services ze sztuczną inteligencją
Szczegóły pod wycięciem!

Ta strona jest włączona nasza strona internetowa.

Video Indexer obsługuje teraz animacje i zawartość wielojęzyczną

W ubiegłym roku w IBC zdobyliśmy wiele nagród Indeksator wideo Azure Media Servicesa w tym roku było jeszcze lepiej. Video Indexer automatycznie wyodrębnia informacje i metadane z plików multimedialnych, takie jak wypowiadane słowa, twarze, emocje, tematy i marki. Aby z niego korzystać, nie musisz być ekspertem w zakresie uczenia maszynowego.

Nasza najnowsza oferta obejmuje wersje zapoznawcze dwóch bardzo poszukiwanych i zróżnicowanych funkcji — rozpoznawania animowanych znaków i wielojęzycznej transkrypcji mowy — a także kilka dodatków do istniejących modeli dostępnych obecnie w programie Video Indexer.

Rozpoznawanie postaci animowanych

12 nowych usług Azure Media Services ze sztuczną inteligencją
Treści animowane to jeden z najpopularniejszych rodzajów treści, ale standardowe modele widzenia komputerowego zaprojektowane do rozpoznawania ludzkich twarzy nie sprawdzają się w nich dobrze, zwłaszcza jeśli treść zawiera postacie bez ludzkich rysów. Nowa wersja zapoznawcza łączy narzędzie Video Indexer z usługą Azure Custom Vision firmy Microsoft, udostępniając nowy zestaw modeli, które automatycznie wykrywają i grupują animowane postacie oraz ułatwiają ich oznaczanie i rozpoznawanie przy użyciu zintegrowanych niestandardowych modeli wizji.

Modele są zintegrowane w jeden potok, dzięki czemu każdy może korzystać z usługi bez znajomości uczenia maszynowego. Wyniki są dostępne za pośrednictwem portalu Video Indexer bez kodu lub za pośrednictwem interfejsu API REST w celu szybkiej integracji z własnymi aplikacjami.

Stworzyliśmy te modele do pracy z animowanymi postaciami oraz z niektórymi klientami, którzy dostarczyli prawdziwe animowane treści do celów szkoleniowych i testowych. Wartość nowej funkcjonalności dobrze podsumował Andy Gutteridge, starszy dyrektor ds. technologii studyjnej i postprodukcji w Viacom International Media Networks, który był jednym z dostawców danych: „Dodanie solidnego wykrywania treści animowanych wykorzystujących sztuczną inteligencję umożliwi nam szybko i skutecznie znajdować i katalogować metadane postaci z zawartości naszej biblioteki.

Co najważniejsze, zapewni naszym zespołom kreatywnym możliwość natychmiastowego znalezienia potrzebnych treści, minimalizując czas spędzony na zarządzaniu mediami i umożliwiając im skupienie się na kreatywności”.

Możesz zacząć zapoznawać się z animowanym rozpoznawaniem postaci strony dokumentacji.

Identyfikacja i transkrypcja treści w wielu językach

Niektóre zasoby medialne, takie jak wiadomości, kroniki i wywiady, zawierają nagrania osób mówiących różnymi językami. Większość istniejących funkcji zamiany mowy na tekst wymaga wcześniejszego określenia języka rozpoznawania dźwięku, co utrudnia transkrypcję wielojęzycznych filmów.

Nasza nowa funkcja automatycznej identyfikacji języka mówionego dla różnych typów treści wykorzystuje technologię uczenia maszynowego do identyfikowania języków występujących w zasobach medialnych. Po wykryciu każdy segment językowy automatycznie przechodzi proces transkrypcji na odpowiedni język, a następnie wszystkie segmenty są łączone w jeden wielojęzyczny plik transkrypcji.

12 nowych usług Azure Media Services ze sztuczną inteligencją

Wynikowy transkrypt jest dostępny jako część danych wyjściowych JSON narzędzia Video Indexer i jako pliki napisów. Transkrypcja wyjściowa jest również zintegrowana z usługą Azure Search, co pozwala na natychmiastowe wyszukiwanie różnych segmentów językowych w Twoich filmach. Ponadto podczas pracy z portalem Video Indexer dostępna jest wielojęzyczna transkrypcja, dzięki czemu można przeglądać transkrypcję i zidentyfikowany język w miarę upływu czasu lub przeskakiwać do określonych miejsc w klipie wideo dla każdego języka i wyświetlać wielojęzyczną transkrypcję jako podpisy podczas odtwarzania wideo. Otrzymany tekst możesz także przetłumaczyć na dowolny z 54 dostępnych języków poprzez portal i API.

Dowiedz się więcej o nowej funkcji rozpoznawania treści wielojęzycznej i sposobie jej używania w programie Video Indexer przeczytaj dokumentację.

Dodatkowe zaktualizowane i ulepszone modele

Dodajemy także nowe modele do Video Indexer i ulepszamy istniejące, w tym te opisane poniżej.

Wyodrębnianie obiektów powiązanych z ludźmi i miejscami

Rozszerzyliśmy nasze istniejące możliwości odkrywania marek o dobrze znane nazwy i lokalizacje, takie jak Wieża Eiffla w Paryżu i Big Ben w Londynie. Gdy pojawią się one w wygenerowanym transkrypcie lub na ekranie za pomocą optycznego rozpoznawania znaków (OCR), dodawana jest odpowiednia informacja. Dzięki tej nowej funkcji możesz wyszukiwać wszystkie osoby, miejsca i marki, które pojawiły się w filmie, a także wyświetlać szczegółowe informacje na ich temat, w tym przedziały czasowe, opisy i łącza do wyszukiwarki Bing, aby uzyskać więcej informacji.

12 nowych usług Azure Media Services ze sztuczną inteligencją

Model wykrywania ramek dla edytora

Ta nowa funkcja dodaje zestaw „tagów” ​​do metadanych dołączonych do poszczególnych klatek w szczegółach JSON w celu przedstawienia ich typu redakcyjnego (na przykład szerokie ujęcie, średnie ujęcie, zbliżenie, ekstremalne zbliżenie, dwa ujęcia, wiele osób na zewnątrz, w pomieszczeniu itp.). Te cechy typu ujęć są przydatne podczas edycji wideo do klipów i zwiastunów lub gdy szukasz określonego stylu ujęć do celów artystycznych.

12 nowych usług Azure Media Services ze sztuczną inteligencją
Ucz się więcej Wykrywanie typu ramki w Video Indexer.

Zwiększona szczegółowość mapowania IPTC

Nasz model wykrywania tematów określa temat filmu na podstawie transkrypcji, optycznego rozpoznawania znaków (OCR) i wykrytych gwiazd, nawet jeśli temat nie jest wyraźnie określony. Mapujemy te wykryte tematy do czterech obszarów klasyfikacji: Wikipedia, Bing, IPTC i IAB. To ulepszenie pozwala nam uwzględnić klasyfikację IPTC drugiego poziomu.
Korzystanie z tych ulepszeń jest tak proste, jak ponowne indeksowanie bieżącej biblioteki Video Indexer.

Nowa funkcja przesyłania strumieniowego na żywo

W wersji zapoznawczej Azure Media Services oferujemy także dwie nowe funkcje przesyłania strumieniowego na żywo.

Transkrypcja w czasie rzeczywistym oparta na sztucznej inteligencji przenosi transmisję na żywo na wyższy poziom

Korzystając z usługi Azure Media Services do przesyłania strumieniowego na żywo, możesz teraz otrzymać strumień wyjściowy zawierający automatycznie wygenerowaną ścieżkę tekstową oprócz zawartości audio i wideo. Tekst tworzony jest przy użyciu transkrypcji dźwięku w czasie rzeczywistym w oparciu o sztuczną inteligencję. Aby poprawić wyniki, przed i po konwersji mowy na tekst stosowane są niestandardowe techniki. Ścieżka tekstowa jest spakowana w formacie IMSC1, TTML lub WebVTT, w zależności od tego, czy jest dostarczana w formacie DASH, HLS CMAF czy HLS TS.

Kodowanie liniowe w czasie rzeczywistym dla kanałów OTT 24/7

Korzystając z naszych interfejsów API w wersji 3, możesz tworzyć, zarządzać i nadawać kanały OTT (over-the-top), a także korzystać ze wszystkich innych funkcji Azure Media Services, takich jak wideo na żądanie na żywo (VOD, wideo na żądanie), pakowanie i zarządzanie prawami cyfrowymi ( DRM, zarządzanie prawami cyfrowymi).
Aby zobaczyć wersje poglądowe tych funkcji, odwiedź stronę Społeczność Azure Media Services.

12 nowych usług Azure Media Services ze sztuczną inteligencją

Nowe możliwości generowania pakietów

Obsługa ścieżek audiodeskrypcji

Treści nadawane za pośrednictwem kanałów telewizyjnych często oprócz zwykłego sygnału audio zawierają także ścieżkę dźwiękową z słownymi wyjaśnieniami tego, co dzieje się na ekranie. Dzięki temu programy są bardziej dostępne dla widzów z wadą wzroku, zwłaszcza jeśli ich treść ma głównie charakter wizualny. Nowy funkcja audiodeskrypcji umożliwia oznaczenie jednej ze ścieżek audio jako ścieżki audiodeskrypcji (AD, audiodeskrypcja), dzięki czemu gracze mogą udostępnić widzom ścieżkę AD.

Wstawianie metadanych ID3

Aby zasygnalizować wstawienie reklam lub niestandardowych zdarzeń metadanych do odtwarzacza klienta, nadawcy często wykorzystują metadane czasowe osadzone w filmie. Oprócz trybów sygnalizacji SCTE-35 obsługujemy teraz także ID3v2 i inne niestandardowe schematy, zdefiniowany przez twórcę aplikacji do użytku przez aplikację kliencką.

Partnerzy Microsoft Azure demonstrują kompleksowe rozwiązania

Bitmovin wprowadza kodowanie wideo Bitmovin i odtwarzacz wideo Bitmovin dla Microsoft Azure. Klienci mogą teraz korzystać z tych rozwiązań w zakresie kodowania i odtwarzania na platformie Azure oraz korzystać z zaawansowanych funkcji, takich jak kodowanie trójetapowe, obsługa kodeków AV1/VC, wielojęzyczne napisy i wstępnie zintegrowana analityka wideo na potrzeby QoS, reklam i śledzenia wideo.

Evergent demonstruje platformę zarządzania cyklem życia użytkownika na platformie Azure. Jako wiodący dostawca rozwiązań do zarządzania przychodami i cyklem życia klienta, Evergent korzysta ze sztucznej inteligencji platformy Azure, aby pomóc dostawcom rozrywki premium w usprawnianiu pozyskiwania i utrzymywania klientów poprzez tworzenie ukierunkowanych pakietów usług i ofert w krytycznych momentach cyklu życia klienta.

Haivision zaprezentuje inteligentną usługę routingu multimediów opartą na chmurze, SRT Hub, która pomaga klientom przekształcać kompleksowe przepływy pracy Krawędź Azure Data Box i przekształcanie przepływów pracy za pomocą Hublets firm Avid, Telestream, Wowza, Cinegy i Make.tv.

SES opracowała pakiet usług multimedialnych klasy telewizyjnej na platformie Azure dla klientów satelitarnych i zarządzanych usług medialnych. SES zademonstruje rozwiązania w zakresie w pełni zarządzanych usług odtwarzania, w tym odtwarzania głównego, odtwarzania zlokalizowanego, wykrywania i zastępowania reklam oraz wysokiej jakości wielokanałowego kodowania w czasie rzeczywistym 24x7 na platformie Azure.

Synchronizuj słowa udostępnia wygodne narzędzia w chmurze i technologię automatyzacji podpisów na platformie Azure. Te oferty ułatwią organizacjom medialnym automatyczne dodawanie napisów, w tym napisów w językach obcych, do przepływów pracy wideo na żywo i offline na platformie Azure.
Firma międzynarodowa Tata Elxsi, firma świadcząca usługi technologiczne, zintegrowała platformę OTT SaaS TEPlay z usługą Azure Media Services, aby dostarczać treści OTT z chmury. Tata Elxsi wdrożyła także rozwiązanie do monitorowania jakości doświadczenia (QoE) Falcon Eye na Microsoft Azure, udostępniając analizy i wskaźniki potrzebne do podejmowania decyzji.

Verizon Media udostępnia swoją platformę przesyłania strumieniowego na platformie Azure w wersji beta. Verizon Media Platform to zarządzane rozwiązanie OTT klasy korporacyjnej, które obejmuje DRM, wstawianie reklam, spersonalizowane sesje jeden na jednego, dynamiczną wymianę treści i dostarczanie wideo. Integracja upraszcza przepływy pracy, globalną pomoc techniczną i skalowanie oraz odblokowuje niektóre unikalne możliwości dostępne na platformie Azure.

Źródło: www.habr.com

Dodaj komentarz