Misją Microsoft jest umożliwienie każdej osobie i organizacji na świecie osiągnięcia więcej. Branża medialna jest doskonałym przykładem urzeczywistnienia tej misji. Żyjemy w epoce, w której tworzy się i konsumuje więcej treści, na więcej sposobów i na większej liczbie urządzeń. Na targach IBC 2019 podzieliliśmy się najnowszymi innowacjami, nad którymi pracujemy, i tym, jak mogą one pomóc w przekształceniu Twoich doświadczeń z mediami.
Szczegóły pod wycięciem!
Ta strona jest włączona
Video Indexer obsługuje teraz animacje i zawartość wielojęzyczną
W ubiegłym roku w IBC zdobyliśmy wiele nagród
Nasza najnowsza oferta obejmuje wersje zapoznawcze dwóch bardzo poszukiwanych i zróżnicowanych funkcji — rozpoznawania animowanych znaków i wielojęzycznej transkrypcji mowy — a także kilka dodatków do istniejących modeli dostępnych obecnie w programie Video Indexer.
Rozpoznawanie postaci animowanych
Treści animowane to jeden z najpopularniejszych rodzajów treści, ale standardowe modele widzenia komputerowego zaprojektowane do rozpoznawania ludzkich twarzy nie sprawdzają się w nich dobrze, zwłaszcza jeśli treść zawiera postacie bez ludzkich rysów. Nowa wersja zapoznawcza łączy narzędzie Video Indexer z usługą Azure Custom Vision firmy Microsoft, udostępniając nowy zestaw modeli, które automatycznie wykrywają i grupują animowane postacie oraz ułatwiają ich oznaczanie i rozpoznawanie przy użyciu zintegrowanych niestandardowych modeli wizji.
Modele są zintegrowane w jeden potok, dzięki czemu każdy może korzystać z usługi bez znajomości uczenia maszynowego. Wyniki są dostępne za pośrednictwem portalu Video Indexer bez kodu lub za pośrednictwem interfejsu API REST w celu szybkiej integracji z własnymi aplikacjami.
Stworzyliśmy te modele do pracy z animowanymi postaciami oraz z niektórymi klientami, którzy dostarczyli prawdziwe animowane treści do celów szkoleniowych i testowych. Wartość nowej funkcjonalności dobrze podsumował Andy Gutteridge, starszy dyrektor ds. technologii studyjnej i postprodukcji w Viacom International Media Networks, który był jednym z dostawców danych: „Dodanie solidnego wykrywania treści animowanych wykorzystujących sztuczną inteligencję umożliwi nam szybko i skutecznie znajdować i katalogować metadane postaci z zawartości naszej biblioteki.
Co najważniejsze, zapewni naszym zespołom kreatywnym możliwość natychmiastowego znalezienia potrzebnych treści, minimalizując czas spędzony na zarządzaniu mediami i umożliwiając im skupienie się na kreatywności”.
Możesz zacząć zapoznawać się z animowanym rozpoznawaniem postaci
Identyfikacja i transkrypcja treści w wielu językach
Niektóre zasoby medialne, takie jak wiadomości, kroniki i wywiady, zawierają nagrania osób mówiących różnymi językami. Większość istniejących funkcji zamiany mowy na tekst wymaga wcześniejszego określenia języka rozpoznawania dźwięku, co utrudnia transkrypcję wielojęzycznych filmów.
Nasza nowa funkcja automatycznej identyfikacji języka mówionego dla różnych typów treści wykorzystuje technologię uczenia maszynowego do identyfikowania języków występujących w zasobach medialnych. Po wykryciu każdy segment językowy automatycznie przechodzi proces transkrypcji na odpowiedni język, a następnie wszystkie segmenty są łączone w jeden wielojęzyczny plik transkrypcji.
Wynikowy transkrypt jest dostępny jako część danych wyjściowych JSON narzędzia Video Indexer i jako pliki napisów. Transkrypcja wyjściowa jest również zintegrowana z usługą Azure Search, co pozwala na natychmiastowe wyszukiwanie różnych segmentów językowych w Twoich filmach. Ponadto podczas pracy z portalem Video Indexer dostępna jest wielojęzyczna transkrypcja, dzięki czemu można przeglądać transkrypcję i zidentyfikowany język w miarę upływu czasu lub przeskakiwać do określonych miejsc w klipie wideo dla każdego języka i wyświetlać wielojęzyczną transkrypcję jako podpisy podczas odtwarzania wideo. Otrzymany tekst możesz także przetłumaczyć na dowolny z 54 dostępnych języków poprzez portal i API.
Dowiedz się więcej o nowej funkcji rozpoznawania treści wielojęzycznej i sposobie jej używania w programie Video Indexer
Dodatkowe zaktualizowane i ulepszone modele
Dodajemy także nowe modele do Video Indexer i ulepszamy istniejące, w tym te opisane poniżej.
Wyodrębnianie obiektów powiązanych z ludźmi i miejscami
Rozszerzyliśmy nasze istniejące możliwości odkrywania marek o dobrze znane nazwy i lokalizacje, takie jak Wieża Eiffla w Paryżu i Big Ben w Londynie. Gdy pojawią się one w wygenerowanym transkrypcie lub na ekranie za pomocą optycznego rozpoznawania znaków (OCR), dodawana jest odpowiednia informacja. Dzięki tej nowej funkcji możesz wyszukiwać wszystkie osoby, miejsca i marki, które pojawiły się w filmie, a także wyświetlać szczegółowe informacje na ich temat, w tym przedziały czasowe, opisy i łącza do wyszukiwarki Bing, aby uzyskać więcej informacji.
Model wykrywania ramek dla edytora
Ta nowa funkcja dodaje zestaw „tagów” do metadanych dołączonych do poszczególnych klatek w szczegółach JSON w celu przedstawienia ich typu redakcyjnego (na przykład szerokie ujęcie, średnie ujęcie, zbliżenie, ekstremalne zbliżenie, dwa ujęcia, wiele osób na zewnątrz, w pomieszczeniu itp.). Te cechy typu ujęć są przydatne podczas edycji wideo do klipów i zwiastunów lub gdy szukasz określonego stylu ujęć do celów artystycznych.
Zwiększona szczegółowość mapowania IPTC
Nasz model wykrywania tematów określa temat filmu na podstawie transkrypcji, optycznego rozpoznawania znaków (OCR) i wykrytych gwiazd, nawet jeśli temat nie jest wyraźnie określony. Mapujemy te wykryte tematy do czterech obszarów klasyfikacji: Wikipedia, Bing, IPTC i IAB. To ulepszenie pozwala nam uwzględnić klasyfikację IPTC drugiego poziomu.
Korzystanie z tych ulepszeń jest tak proste, jak ponowne indeksowanie bieżącej biblioteki Video Indexer.
Nowa funkcja przesyłania strumieniowego na żywo
W wersji zapoznawczej Azure Media Services oferujemy także dwie nowe funkcje przesyłania strumieniowego na żywo.
Transkrypcja w czasie rzeczywistym oparta na sztucznej inteligencji przenosi transmisję na żywo na wyższy poziom
Korzystając z usługi Azure Media Services do przesyłania strumieniowego na żywo, możesz teraz otrzymać strumień wyjściowy zawierający automatycznie wygenerowaną ścieżkę tekstową oprócz zawartości audio i wideo. Tekst tworzony jest przy użyciu transkrypcji dźwięku w czasie rzeczywistym w oparciu o sztuczną inteligencję. Aby poprawić wyniki, przed i po konwersji mowy na tekst stosowane są niestandardowe techniki. Ścieżka tekstowa jest spakowana w formacie IMSC1, TTML lub WebVTT, w zależności od tego, czy jest dostarczana w formacie DASH, HLS CMAF czy HLS TS.
Kodowanie liniowe w czasie rzeczywistym dla kanałów OTT 24/7
Korzystając z naszych interfejsów API w wersji 3, możesz tworzyć, zarządzać i nadawać kanały OTT (over-the-top), a także korzystać ze wszystkich innych funkcji Azure Media Services, takich jak wideo na żądanie na żywo (VOD, wideo na żądanie), pakowanie i zarządzanie prawami cyfrowymi ( DRM, zarządzanie prawami cyfrowymi).
Aby zobaczyć wersje poglądowe tych funkcji, odwiedź stronę
Nowe możliwości generowania pakietów
Obsługa ścieżek audiodeskrypcji
Treści nadawane za pośrednictwem kanałów telewizyjnych często oprócz zwykłego sygnału audio zawierają także ścieżkę dźwiękową z słownymi wyjaśnieniami tego, co dzieje się na ekranie. Dzięki temu programy są bardziej dostępne dla widzów z wadą wzroku, zwłaszcza jeśli ich treść ma głównie charakter wizualny. Nowy
Wstawianie metadanych ID3
Aby zasygnalizować wstawienie reklam lub niestandardowych zdarzeń metadanych do odtwarzacza klienta, nadawcy często wykorzystują metadane czasowe osadzone w filmie. Oprócz trybów sygnalizacji SCTE-35 obsługujemy teraz także
Partnerzy Microsoft Azure demonstrują kompleksowe rozwiązania
Firma międzynarodowa
Źródło: www.habr.com