A Microsoft küldetése, hogy a bolygó minden emberét és szervezetét képessé tegye több elérésére. A médiaipar nagyszerű példa arra, hogy ez a küldetés valóra váljon. Olyan korszakban élünk, amikor több tartalmat hoznak létre és fogyasztanak el, több módon és több eszközön. A 2019-es IBC rendezvényen megosztottuk a legújabb innovációkat, amelyeken dolgozunk, és megosztottuk azokat, amelyek segíthetik átalakítani a médiaélményt.
Részletek a vágás alatt!
Ez az oldal elérhető
A Video Indexer mostantól támogatja az animációt és a többnyelvű tartalmat
Tavaly az IBC-nél megnyertük a díjat
Legújabb ajánlataink között szerepel két rendkívül keresett és megkülönböztetett funkció – az animált karakterfelismerés és a többnyelvű beszédátírás – előnézete, valamint a Video Indexerben ma elérhető modellek számos kiegészítése.
Animált karakterfelismerés
Az animált tartalom az egyik legnépszerűbb tartalomtípus, de az emberi arcok felismerésére tervezett szabványos számítógépes látásmodellek nem működnek vele jól, különösen akkor, ha a tartalom emberi arcvonások nélküli karaktereket tartalmaz. Az új előnézeti verzió a Video Indexert a Microsoft Azure Custom Vision szolgáltatásával kombinálja, új modellkészletet biztosítva, amely automatikusan észleli és csoportosítja az animált karaktereket, és egyszerűvé teszi azok címkézését és felismerését az integrált egyéni képmodellek segítségével.
A modellek egyetlen folyamatba vannak integrálva, így bárki használhatja a szolgáltatást gépi tanulási ismeretek nélkül. Az eredmények egy kód nélküli Video Indexer portálon vagy egy REST API-n keresztül érhetők el a saját alkalmazásaiba való gyors integráció érdekében.
Ezeket a modelleket úgy építettük meg, hogy animált karakterekkel működjenek együtt, valamint néhány fogyasztóval, akik valódi animált tartalmat biztosítottak a képzéshez és a teszteléshez. Az új funkciók értékét jól összefoglalta Andy Gutteridge, a Viacom International Media Networks stúdiótechnológiáért és utómunkáért felelős vezető igazgatója, aki az egyik adatszolgáltató volt: „A robusztus, mesterséges intelligencia által vezérelt animált tartalomfelderítés lehetővé teszi majd. hogy gyorsan és hatékonyan megtaláljuk és katalogizáljuk a karakterek metaadatait könyvtárunk tartalmából.
A legfontosabb, hogy kreatív csapataink azonnal megtalálják a szükséges tartalmat, minimálisra csökkentve a média kezelésével töltött időt, és lehetővé teszik számukra, hogy a kreativitásra összpontosítsanak.”
Elkezdheti ismerkedni az animált karakterfelismeréssel
A tartalom azonosítása és átírása több nyelven
Egyes médiaforrások, például hírek, krónikák és interjúk különböző nyelveket beszélő emberek felvételeit tartalmazzák. A legtöbb meglévő beszéd-szöveg funkció megköveteli a hangfelismerési nyelv előzetes megadását, ami megnehezíti a többnyelvű videók átírását.
A különféle típusú tartalmakhoz használható új automatikus beszélt nyelv-azonosító funkciónk gépi tanulási technológiát használ a médiaelemekben található nyelvek azonosítására. Az észlelés után minden nyelvi szegmens automatikusan átmegy egy átírási folyamaton a megfelelő nyelven, majd az összes szegmens egyetlen többnyelvű átírási fájlba kerül.
Az eredményül kapott átirat elérhető a Video Indexer JSON-kimenetének részeként és feliratfájlokként. A kimeneti átirat is integrálva van az Azure Search szolgáltatással, amely lehetővé teszi, hogy azonnal keressen különböző nyelvi szegmenseket a videókban. Ezenkívül többnyelvű átírás is elérhető, ha a Video Indexer portállal dolgozik, így megtekintheti az átiratot és az azonosított nyelvet az idő múlásával, vagy az egyes nyelvekhez ugorhat a videóban meghatározott helyekre, és láthatja a többnyelvű átírást feliratként a videó lejátszása közben. A kapott szöveget a portálon és az API-n keresztül az 54 elérhető nyelv bármelyikére lefordíthatja.
Tudjon meg többet az új többnyelvű tartalomfelismerő funkcióról és annak használatáról a Video Indexerben
További frissített és továbbfejlesztett modellek
Ezenkívül új modelleket adunk a Video Indexerhez, és fejlesztjük a meglévőket, beleértve az alábbiakban leírtakat.
Emberekhez és helyekhez társított entitások kinyerése
Meglévő márkafelfedezési képességeinket kiterjesztettük olyan jól ismert nevekre és helyszínekre, mint például a párizsi Eiffel-torony és a londoni Big Ben. Amikor megjelennek a generált átiratban vagy az optikai karakterfelismerés (OCR) segítségével a képernyőn, a rendszer hozzáadja a vonatkozó információkat. Ezzel az új funkcióval megkeresheti a videóban szereplő összes személyt, helyet és márkát, és megtekintheti a velük kapcsolatos részleteket, beleértve az idősávokat, leírásokat és a Bing keresőmotorra mutató hivatkozásokat további információkért.
Keretészlelési modell a szerkesztőhöz
Ez az új funkció egy sor „címkét” ad hozzá az egyes képkockákhoz csatolt metaadatokhoz a JSON-részletekben, hogy azok szerkesztői típusát (például széles felvétel, közepes felvétel, közeli felvétel, extrém közeli felvétel, két kép, több személy) jellemezze. , kültéri, beltéri stb.). Ezek a felvételtípus-jellemzők akkor hasznosak, ha klipekhez és előzetesekhez videót szerkesztenek, vagy ha egy adott felvételi stílust keresnek művészi célokra.
Továbbfejlesztett IPTC-leképezési részletesség
Témafelismerési modellünk az átírás, az optikai karakterfelismerés (OCR) és az észlelt hírességek alapján határozza meg a videó témáját, még akkor is, ha a téma nincs kifejezetten megadva. Ezeket az észlelt témákat négy osztályozási területre rendeljük: Wikipédia, Bing, IPTC és IAB. Ez a továbbfejlesztés lehetővé teszi számunkra a második szintű IPTC besorolást.
E fejlesztések előnyeinek kihasználása olyan egyszerű, mint a jelenlegi Video Indexer könyvtárának újraindexelése.
Új élő közvetítés funkció
Az Azure Media Services előzetes verziójában két új funkciót is kínálunk az élő közvetítéshez.
A mesterséges intelligencia által működtetett valós idejű átírás a következő szintre emeli az élő közvetítést
Az Azure Media Services élő közvetítéshez való használatával mostantól fogadhat egy kimeneti adatfolyamot, amely a hang- és videótartalom mellett egy automatikusan generált szövegsávot is tartalmaz. A szöveg mesterséges intelligencia alapú, valós idejű hangátírással készül. A beszédből szöveggé átalakítás előtt és után egyéni technikákat alkalmaznak az eredmények javítása érdekében. A szövegsáv IMSC1, TTML vagy WebVTT formátumba van csomagolva, attól függően, hogy DASH, HLS CMAF vagy HLS TS formátumban van-e szállítva.
Valós idejű vonalkódolás a 24 órás OTT csatornákhoz
A v3 API-jaink segítségével OTT (over-the-top) csatornákat hozhat létre, kezelhet és sugározhat, és használhatja az Azure Media Services összes többi funkcióját, mint például az igény szerinti élő videó (VOD, video on demand), a csomagolás és a digitális jogkezelés ( DRM, digitális jogkezelés).
A szolgáltatások előnézeti verzióinak megtekintéséhez látogasson el a webhelyre
Új csomaggenerálási lehetőségek
Hangos leírások támogatása
A sugárzott csatornákon sugárzott tartalom a szokásos hangjelen kívül gyakran tartalmaz egy hangsávot, amely szóbeli magyarázatot ad arról, hogy mi történik a képernyőn. Ezáltal a műsorok könnyebben elérhetőek a látássérült nézők számára, különösen, ha a tartalom elsősorban vizuális. Új
ID3 metaadatok beszúrása
A reklámok vagy egyéni metaadat-események beillesztésének jelzésére az ügyfél lejátszója felé a műsorszolgáltatók gyakran időzített metaadatokat használnak a videóba ágyazottan. Az SCTE-35 jelzési módokon kívül most már támogatjuk is
A Microsoft Azure partnerei teljes körű megoldásokat mutatnak be
nemzetközi vállalat
Forrás: will.com