Poslaním spoločnosti Microsoft je umožniť každému človeku a organizácii na planéte dosiahnuť viac. Mediálny priemysel je skvelým príkladom toho, ako sa táto misia stáva realitou. Žijeme v dobe, kedy sa vytvára a konzumuje viac obsahu, viacerými spôsobmi a na viacerých zariadeniach. Na IBC 2019 sme sa podelili o najnovšie inovácie, na ktorých pracujeme, a o tom, ako môžu pomôcť zmeniť váš mediálny zážitok.
Detaily pod strihom!
Táto stránka je zapnutá
Video Indexer teraz podporuje animáciu a viacjazyčný obsah
Minulý rok sme na IBC získali ocenenie
Naša najnovšia ponuka zahŕňa ukážky dvoch veľmi žiadaných a diferencovaných funkcií – rozpoznávanie animovaných znakov a viacjazyčný prepis reči – ako aj niekoľko doplnkov k existujúcim modelom, ktoré sú dnes dostupné vo Video Indexer.
Rozpoznávanie animovaných postáv
Animovaný obsah je jedným z najpopulárnejších typov obsahu, ale štandardné modely počítačového videnia určené na rozpoznávanie ľudských tvárí s ním nefungujú dobre, najmä ak obsah obsahuje postavy bez čŕt ľudskej tváre. Nová ukážková verzia kombinuje Video Indexer so službou Azure Custom Vision od Microsoftu a prináša novú sadu modelov, ktoré automaticky zisťujú a zoskupujú animované postavy a uľahčujú ich označenie a rozpoznanie pomocou integrovaných vlastných modelov videnia.
Modely sú integrované do jedného potrubia, čo umožňuje komukoľvek používať službu bez akýchkoľvek znalostí strojového učenia. Výsledky sú dostupné prostredníctvom portálu Video Indexer bez kódu alebo prostredníctvom REST API pre rýchlu integráciu do vašich vlastných aplikácií.
Tieto modely sme vytvorili na prácu s animovanými postavami spolu s niektorými spotrebiteľmi, ktorí poskytli skutočný animovaný obsah na školenie a testovanie. Hodnotu novej funkcionality dobre zhrnul Andy Gutteridge, senior riaditeľ štúdiovej technológie a postprodukcie v Viacom International Media Networks, ktorý bol jedným z poskytovateľov dát: „Pridanie robustného objavovania animovaného obsahu poháňaného AI umožní rýchlo a efektívne nájsť a katalogizovať metadáta znakov z obsahu našej knižnice.
Najdôležitejšie je, že našim kreatívnym tímom umožní okamžite nájsť obsah, ktorý potrebujú, čím sa minimalizuje čas strávený správou médií a umožní sa im sústrediť sa na kreativitu.“
Môžete sa začať zoznamovať s rozpoznávaním animovaných postáv pomocou
Identifikácia a prepis obsahu vo viacerých jazykoch
Niektoré mediálne zdroje, ako sú správy, kroniky a rozhovory, obsahujú nahrávky ľudí hovoriacich rôznymi jazykmi. Väčšina existujúcich možností prevodu reči na text vyžaduje, aby bol jazyk rozpoznávania zvuku špecifikovaný vopred, čo sťažuje prepis viacjazyčných videí.
Naša nová funkcia automatickej identifikácie hovoreného jazyka pre rôzne typy obsahu využíva technológiu strojového učenia na identifikáciu jazykov, ktoré sa nachádzajú v mediálnych aktívach. Po zistení každý segment jazyka automaticky prejde procesom prepisu v príslušnom jazyku a potom sa všetky segmenty spoja do jedného viacjazyčného transkripčného súboru.
Výsledný prepis je dostupný ako súčasť výstupu JSON nástroja Video Indexer a ako súbory s titulkami. Výstupný prepis je tiež integrovaný s Azure Search, čo vám umožňuje okamžite vyhľadávať segmenty rôznych jazykov vo vašich videách. Okrem toho je pri práci s portálom Video Indexer k dispozícii viacjazyčný prepis, takže si môžete zobraziť prepis a identifikovaný jazyk v priebehu času alebo preskočiť na konkrétne miesta vo videu pre každý jazyk a zobraziť viacjazyčný prepis ako titulky počas prehrávania videa. Môžete tiež preložiť prijatý text do ktoréhokoľvek z 54 dostupných jazykov prostredníctvom portálu a API.
Získajte viac informácií o novej funkcii rozpoznávania viacjazyčného obsahu a o tom, ako sa používa v nástroji Video Indexer
Ďalšie aktualizované a vylepšené modely
Do Video Indexeru tiež pridávame nové modely a vylepšujeme tie existujúce vrátane tých, ktoré sú popísané nižšie.
Extrahovanie entít spojených s ľuďmi a miestami
Rozšírili sme naše existujúce možnosti objavovania značiek tak, aby zahŕňali známe mená a lokality, ako napríklad Eiffelovu vežu v Paríži a Big Ben v Londýne. Keď sa objavia vo vygenerovanom prepise alebo na obrazovke pomocou optického rozpoznávania znakov (OCR), pridajú sa príslušné informácie. Pomocou tejto novej funkcie môžete vyhľadať všetkých ľudí, miesta a značky, ktoré sa objavili vo videu, a zobraziť si o nich podrobnosti vrátane časových úsekov, popisov a odkazov na vyhľadávací nástroj Bing, kde nájdete ďalšie informácie.
Model detekcie snímok pre editor
Táto nová funkcia pridáva k metadátam pripojeným k jednotlivým snímkam v detailoch JSON sadu „tagov“, ktoré reprezentujú ich redakčný typ (napríklad široký záber, stredný záber, detail, extrémny detail, dva zábery, viacero ľudí , vonku, v interiéri atď.). Tieto charakteristiky typu záberu sú užitočné pri úprave videa pre klipy a upútavky alebo pri hľadaní špecifického štýlu záberu na umelecké účely.
Vylepšená granularita mapovania IPTC
Náš model detekcie tém určuje tému videa na základe prepisu, optického rozpoznávania znakov (OCR) a zistených celebrít, aj keď téma nie je explicitne špecifikovaná. Tieto zistené témy mapujeme do štyroch klasifikačných oblastí: Wikipedia, Bing, IPTC a IAB. Toto vylepšenie nám umožňuje zahrnúť klasifikáciu IPTC druhej úrovne.
Využitie týchto vylepšení je také jednoduché ako opätovné indexovanie vašej aktuálnej knižnice Video Indexer.
Nová funkcia živého vysielania
V ukážke služieb Azure Media Services ponúkame aj dve nové funkcie pre živé vysielanie.
Prepis v reálnom čase poháňaný AI posúva živé vysielanie na vyššiu úroveň
Pomocou Azure Media Services na živé vysielanie teraz môžete prijímať výstupný prúd, ktorý okrem zvukového a obrazového obsahu obsahuje aj automaticky vygenerovanú textovú stopu. Text je vytvorený pomocou prepisu zvuku v reálnom čase na základe umelej inteligencie. Vlastné techniky sa používajú pred a po prevode reči na text na zlepšenie výsledkov. Textová stopa je zabalená v IMSC1, TTML alebo WebVTT v závislosti od toho, či je dodávaná v DASH, HLS CMAF alebo HLS TS.
Kódovanie riadkov v reálnom čase pre 24/7 OTT kanály
Pomocou našich rozhraní API v3 môžete vytvárať, spravovať a vysielať kanály OTT (over-the-top) a využívať všetky ostatné funkcie služieb Azure Media Services, ako sú živé video na požiadanie (VOD, video na požiadanie), balenie a správa digitálnych práv ( DRM, správa digitálnych práv).
Ak chcete zobraziť ukážkové verzie týchto funkcií, navštívte
Nové možnosti generovania balíkov
Podpora pre stopy zvukového popisu
Obsah vysielaný cez vysielacie kanály má často okrem bežného zvukového signálu aj zvukovú stopu s verbálnym vysvetlením toho, čo sa deje na obrazovke. Vďaka tomu sú programy prístupnejšie pre zrakovo postihnutých divákov, najmä ak je obsah primárne vizuálny. Nový
Vkladanie metadát ID3
Na signalizáciu vloženia reklám alebo vlastných metadátových udalostí do prehrávača klienta vysielatelia často používajú časované metadáta vložené do videa. Okrem režimov signalizácie SCTE-35 teraz podporujeme aj režimy
Partneri Microsoft Azure predvádzajú komplexné riešenia
medzinárodná spoločnosť
Zdroj: hab.com