Posláním společnosti Microsoft je umožnit každému člověku a organizaci na planetě dosáhnout více. Mediální průmysl je skvělým příkladem toho, jak toto poslání uskutečnit. Žijeme v době, kdy se vytváří a spotřebovává více obsahu, více způsoby a na více zařízeních. Na IBC 2019 jsme se podělili o nejnovější inovace, na kterých pracujeme, a o tom, jak mohou pomoci změnit váš mediální zážitek.
Detaily pod střihem!
Tato stránka je zapnutá
Video Indexer nyní podporuje animace a vícejazyčný obsah
Minulý rok jsme na IBC získali naše ocenění
Naše nejnovější nabídky zahrnují náhledy dvou velmi vyhledávaných a odlišných funkcí – rozpoznávání animovaných znaků a vícejazyčný přepis řeči – a také několik doplňků ke stávajícím modelům, které jsou dnes dostupné ve Video Indexeru.
Rozpoznávání animovaných postav
Animovaný obsah je jedním z nejoblíbenějších typů obsahu, ale standardní modely počítačového vidění určené k rozpoznávání lidských tváří s ním nefungují dobře, zvláště pokud obsah obsahuje postavy bez rysů lidského obličeje. Nová preview verze kombinuje Video Indexer se službou Microsoft Azure Custom Vision a přináší novou sadu modelů, které automaticky detekují a seskupují animované postavy a usnadňují je označení a rozpoznání pomocí integrovaných vlastních modelů vidění.
Modely jsou integrovány do jednoho kanálu, což umožňuje komukoli používat službu bez znalosti strojového učení. Výsledky jsou dostupné prostřednictvím portálu Video Indexer bez kódu nebo prostřednictvím REST API pro rychlou integraci do vašich vlastních aplikací.
Tyto modely jsme postavili pro práci s animovanými postavami spolu s některými spotřebiteli, kteří poskytli skutečný animovaný obsah pro školení a testování. Hodnotu nové funkcionality dobře shrnul Andy Gutteridge, vrchní ředitel studiových technologií a postprodukce ve společnosti Viacom International Media Networks, který byl jedním z poskytovatelů dat: „Přidání robustního zjišťování animovaného obsahu založeného na umělé inteligenci umožní abychom rychle a efektivně našli a katalogizovali metadata znaků z obsahu naší knihovny.
A co je nejdůležitější, našim kreativním týmům to umožní okamžitě najít obsah, který potřebují, čímž se minimalizuje čas strávený správou médií a umožní jim soustředit se na kreativitu.“
Můžete se začít seznamovat s rozpoznáváním animovaných postav pomocí
Identifikace a přepis obsahu ve více jazycích
Některé mediální zdroje, jako jsou zprávy, kroniky a rozhovory, obsahují nahrávky lidí mluvících různými jazyky. Většina stávajících možností převodu řeči na text vyžaduje, aby byl jazyk rozpoznávání zvuku specifikován předem, což ztěžuje přepis vícejazyčných videí.
Naše nová funkce automatické identifikace mluveného jazyka pro různé typy obsahu využívá technologii strojového učení k identifikaci jazyků nalezených v mediálních materiálech. Jakmile je detekován, každý jazykový segment automaticky prochází procesem přepisu v příslušném jazyce a poté jsou všechny segmenty spojeny do jednoho vícejazyčného transkripčního souboru.
Výsledný přepis je k dispozici jako součást výstupu JSON z Video Indexer a jako soubory titulků. Výstupní přepis je také integrován s Azure Search, což vám umožňuje okamžitě vyhledávat segmenty různých jazyků ve vašich videích. Při práci s portálem Video Indexer je navíc k dispozici vícejazyčný přepis, takže si můžete zobrazit přepis a identifikovaný jazyk v průběhu času nebo přejít na konkrétní místa ve videu pro každý jazyk a vidět vícejazyčný přepis jako titulky při přehrávání videa. Prostřednictvím portálu a API můžete také přeložit přijatý text do kteréhokoli z 54 dostupných jazyků.
Přečtěte si další informace o nové funkci rozpoznávání vícejazyčného obsahu a o tom, jak se používá ve Video Indexeru
Další aktualizované a vylepšené modely
Do Video Indexeru také přidáváme nové modely a vylepšujeme ty stávající, včetně těch popsaných níže.
Získávání entit spojených s lidmi a místy
Rozšířili jsme naše stávající možnosti objevování značek tak, aby zahrnovaly známá jména a místa, jako je Eiffelova věž v Paříži a Big Ben v Londýně. Když se objeví ve vygenerovaném přepisu nebo na obrazovce pomocí optického rozpoznávání znaků (OCR), jsou přidány příslušné informace. S touto novou funkcí můžete vyhledávat všechny lidi, místa a značky, které se objevily ve videu, a zobrazit si o nich podrobnosti, včetně časových úseků, popisů a odkazů na vyhledávač Bing, kde najdete další informace.
Model detekce snímků pro editor
Tato nová funkce přidává k metadatům připojeným k jednotlivým snímkům v detailech JSON sadu „tagů“, které reprezentují jejich redakční typ (například široký záběr, střední záběr, detailní záběr, extrémní záběr, dva záběry, více lidí , venkovní, vnitřní atd.). Tyto charakteristiky typu záběru jsou užitečné při úpravách videa pro klipy a upoutávky nebo při hledání specifického stylu záběru pro umělecké účely.
Vylepšená granularita mapování IPTC
Náš model detekce témat určuje téma videa na základě přepisu, optického rozpoznávání znaků (OCR) a detekovaných celebrit, i když téma není výslovně uvedeno. Tato zjištěná témata mapujeme do čtyř klasifikačních oblastí: Wikipedie, Bing, IPTC a IAB. Toto vylepšení nám umožňuje zahrnout klasifikaci IPTC druhé úrovně.
Využití těchto vylepšení je stejně snadné jako opětovné indexování vaší aktuální knihovny Video Indexer.
Nová funkce živého vysílání
V Azure Media Services Preview také nabízíme dvě nové funkce pro živé vysílání.
Přepis v reálném čase poháněný umělou inteligencí posouvá živé vysílání na další úroveň
Pomocí Azure Media Services pro živé streamování teď můžete přijímat výstupní stream, který kromě zvukového a obrazového obsahu obsahuje automaticky generovanou textovou stopu. Text je vytvořen pomocí přepisu zvuku v reálném čase na základě umělé inteligence. Ke zlepšení výsledků se před a po převodu řeči na text používají vlastní techniky. Textová stopa je zabalena v IMSC1, TTML nebo WebVTT, podle toho, zda je dodávána v DASH, HLS CMAF nebo HLS TS.
Kódování řádků v reálném čase pro 24/7 OTT kanály
Pomocí našich rozhraní API v3 můžete vytvářet, spravovat a vysílat kanály OTT (over-the-top) a používat všechny ostatní funkce Azure Media Services, jako je živé video na vyžádání (VOD, video na vyžádání), balení a správa digitálních práv ( DRM, správa digitálních práv).
Chcete-li zobrazit náhledové verze těchto funkcí, navštivte
Nové možnosti generování balíčků
Podpora pro stopy zvukového popisu
Obsah vysílaný prostřednictvím vysílacích kanálů má často kromě běžného zvukového signálu také zvukovou stopu se slovním vysvětlením toho, co se děje na obrazovce. Díky tomu jsou programy přístupnější pro zrakově postižené diváky, zejména pokud je obsah primárně vizuální. Nový
Vkládání metadat ID3
K signalizaci vkládání reklam nebo vlastních metadatových událostí do přehrávače klienta používají vysílací společnosti často časovaná metadata vložená do videa. Kromě režimů signalizace SCTE-35 nyní také podporujeme
Partneři Microsoft Azure předvádějí komplexní řešení
mezinárodní společnost
Zdroj: www.habr.com