12 új Azure Media Services mesterséges intelligenciával

A Microsoft küldetése, hogy a bolygó minden emberét és szervezetét képessé tegye több elérésére. A médiaipar nagyszerű példa arra, hogy ez a küldetés valóra váljon. Olyan korszakban élünk, amikor több tartalmat hoznak létre és fogyasztanak el, több módon és több eszközön. A 2019-es IBC rendezvényen megosztottuk a legújabb innovációkat, amelyeken dolgozunk, és megosztottuk azokat, amelyek segíthetik átalakítani a médiaélményt.
12 új Azure Media Services mesterséges intelligenciával
Részletek a vágás alatt!

Ez az oldal elérhető a honlapunk.

A Video Indexer mostantól támogatja az animációt és a többnyelvű tartalmat

Tavaly az IBC-nél megnyertük a díjat Azure Media Services Video Indexer, és idén még jobb lett. A Video Indexer automatikusan kinyeri az információkat és a metaadatokat a médiafájlokból, például kimondott szavakat, arcokat, érzelmeket, témákat és márkákat, és a használatához nem szükséges gépi tanulási szakértőnek lenni.

Legújabb ajánlataink között szerepel két rendkívül keresett és megkülönböztetett funkció – az animált karakterfelismerés és a többnyelvű beszédátírás – előnézete, valamint a Video Indexerben ma elérhető modellek számos kiegészítése.

Animált karakterfelismerés

12 új Azure Media Services mesterséges intelligenciával
Az animált tartalom az egyik legnépszerűbb tartalomtípus, de az emberi arcok felismerésére tervezett szabványos számítógépes látásmodellek nem működnek vele jól, különösen akkor, ha a tartalom emberi arcvonások nélküli karaktereket tartalmaz. Az új előnézeti verzió a Video Indexert a Microsoft Azure Custom Vision szolgáltatásával kombinálja, új modellkészletet biztosítva, amely automatikusan észleli és csoportosítja az animált karaktereket, és egyszerűvé teszi azok címkézését és felismerését az integrált egyéni képmodellek segítségével.

A modellek egyetlen folyamatba vannak integrálva, így bárki használhatja a szolgáltatást gépi tanulási ismeretek nélkül. Az eredmények egy kód nélküli Video Indexer portálon vagy egy REST API-n keresztül érhetők el a saját alkalmazásaiba való gyors integráció érdekében.

Ezeket a modelleket úgy építettük meg, hogy animált karakterekkel működjenek együtt, valamint néhány fogyasztóval, akik valódi animált tartalmat biztosítottak a képzéshez és a teszteléshez. Az új funkciók értékét jól összefoglalta Andy Gutteridge, a Viacom International Media Networks stúdiótechnológiáért és utómunkáért felelős vezető igazgatója, aki az egyik adatszolgáltató volt: „A robusztus, mesterséges intelligencia által vezérelt animált tartalomfelderítés lehetővé teszi majd. hogy gyorsan és hatékonyan megtaláljuk és katalogizáljuk a karakterek metaadatait könyvtárunk tartalmából.

A legfontosabb, hogy kreatív csapataink azonnal megtalálják a szükséges tartalmat, minimálisra csökkentve a média kezelésével töltött időt, és lehetővé teszik számukra, hogy a kreativitásra összpontosítsanak.”

Elkezdheti ismerkedni az animált karakterfelismeréssel dokumentációs oldalak.

A tartalom azonosítása és átírása több nyelven

Egyes médiaforrások, például hírek, krónikák és interjúk különböző nyelveket beszélő emberek felvételeit tartalmazzák. A legtöbb meglévő beszéd-szöveg funkció megköveteli a hangfelismerési nyelv előzetes megadását, ami megnehezíti a többnyelvű videók átírását.

A különféle típusú tartalmakhoz használható új automatikus beszélt nyelv-azonosító funkciónk gépi tanulási technológiát használ a médiaelemekben található nyelvek azonosítására. Az észlelés után minden nyelvi szegmens automatikusan átmegy egy átírási folyamaton a megfelelő nyelven, majd az összes szegmens egyetlen többnyelvű átírási fájlba kerül.

12 új Azure Media Services mesterséges intelligenciával

Az eredményül kapott átirat elérhető a Video Indexer JSON-kimenetének részeként és feliratfájlokként. A kimeneti átirat is integrálva van az Azure Search szolgáltatással, amely lehetővé teszi, hogy azonnal keressen különböző nyelvi szegmenseket a videókban. Ezenkívül többnyelvű átírás is elérhető, ha a Video Indexer portállal dolgozik, így megtekintheti az átiratot és az azonosított nyelvet az idő múlásával, vagy az egyes nyelvekhez ugorhat a videóban meghatározott helyekre, és láthatja a többnyelvű átírást feliratként a videó lejátszása közben. A kapott szöveget a portálon és az API-n keresztül az 54 elérhető nyelv bármelyikére lefordíthatja.

Tudjon meg többet az új többnyelvű tartalomfelismerő funkcióról és annak használatáról a Video Indexerben olvassa el a dokumentációt.

További frissített és továbbfejlesztett modellek

Ezenkívül új modelleket adunk a Video Indexerhez, és fejlesztjük a meglévőket, beleértve az alábbiakban leírtakat.

Emberekhez és helyekhez társított entitások kinyerése

Meglévő márkafelfedezési képességeinket kiterjesztettük olyan jól ismert nevekre és helyszínekre, mint például a párizsi Eiffel-torony és a londoni Big Ben. Amikor megjelennek a generált átiratban vagy az optikai karakterfelismerés (OCR) segítségével a képernyőn, a rendszer hozzáadja a vonatkozó információkat. Ezzel az új funkcióval megkeresheti a videóban szereplő összes személyt, helyet és márkát, és megtekintheti a velük kapcsolatos részleteket, beleértve az idősávokat, leírásokat és a Bing keresőmotorra mutató hivatkozásokat további információkért.

12 új Azure Media Services mesterséges intelligenciával

Keretészlelési modell a szerkesztőhöz

Ez az új funkció egy sor „címkét” ad hozzá az egyes képkockákhoz csatolt metaadatokhoz a JSON-részletekben, hogy azok szerkesztői típusát (például széles felvétel, közepes felvétel, közeli felvétel, extrém közeli felvétel, két kép, több személy) jellemezze. , kültéri, beltéri stb.). Ezek a felvételtípus-jellemzők akkor hasznosak, ha klipekhez és előzetesekhez videót szerkesztenek, vagy ha egy adott felvételi stílust keresnek művészi célokra.

12 új Azure Media Services mesterséges intelligenciával
Tudj meg többet Képkockatípus-észlelés a Video Indexerben.

Továbbfejlesztett IPTC-leképezési részletesség

Témafelismerési modellünk az átírás, az optikai karakterfelismerés (OCR) és az észlelt hírességek alapján határozza meg a videó témáját, még akkor is, ha a téma nincs kifejezetten megadva. Ezeket az észlelt témákat négy osztályozási területre rendeljük: Wikipédia, Bing, IPTC és IAB. Ez a továbbfejlesztés lehetővé teszi számunkra a második szintű IPTC besorolást.
E fejlesztések előnyeinek kihasználása olyan egyszerű, mint a jelenlegi Video Indexer könyvtárának újraindexelése.

Új élő közvetítés funkció

Az Azure Media Services előzetes verziójában két új funkciót is kínálunk az élő közvetítéshez.

A mesterséges intelligencia által működtetett valós idejű átírás a következő szintre emeli az élő közvetítést

Az Azure Media Services élő közvetítéshez való használatával mostantól fogadhat egy kimeneti adatfolyamot, amely a hang- és videótartalom mellett egy automatikusan generált szövegsávot is tartalmaz. A szöveg mesterséges intelligencia alapú, valós idejű hangátírással készül. A beszédből szöveggé átalakítás előtt és után egyéni technikákat alkalmaznak az eredmények javítása érdekében. A szövegsáv IMSC1, TTML vagy WebVTT formátumba van csomagolva, attól függően, hogy DASH, HLS CMAF vagy HLS TS formátumban van-e szállítva.

Valós idejű vonalkódolás a 24 órás OTT csatornákhoz

A v3 API-jaink segítségével OTT (over-the-top) csatornákat hozhat létre, kezelhet és sugározhat, és használhatja az Azure Media Services összes többi funkcióját, mint például az igény szerinti élő videó (VOD, video on demand), a csomagolás és a digitális jogkezelés ( DRM, digitális jogkezelés).
A szolgáltatások előnézeti verzióinak megtekintéséhez látogasson el a webhelyre Azure Media Services közösség.

12 új Azure Media Services mesterséges intelligenciával

Új csomaggenerálási lehetőségek

Hangos leírások támogatása

A sugárzott csatornákon sugárzott tartalom a szokásos hangjelen kívül gyakran tartalmaz egy hangsávot, amely szóbeli magyarázatot ad arról, hogy mi történik a képernyőn. Ezáltal a műsorok könnyebben elérhetőek a látássérült nézők számára, különösen, ha a tartalom elsősorban vizuális. Új hangos leírás funkció lehetővé teszi, hogy az egyik hangsávot hangleíró sávként (AD, hangleírás) jelölje meg, lehetővé téve a játékosoknak, hogy az AD sávot elérhetővé tegyék a nézők számára.

ID3 metaadatok beszúrása

A reklámok vagy egyéni metaadat-események beillesztésének jelzésére az ügyfél lejátszója felé a műsorszolgáltatók gyakran időzített metaadatokat használnak a videóba ágyazottan. Az SCTE-35 jelzési módokon kívül most már támogatjuk is ID3v2 és más egyéni sémák, amelyet az alkalmazás fejlesztője határoz meg az ügyfélalkalmazás általi használatra.

A Microsoft Azure partnerei teljes körű megoldásokat mutatnak be

Bitmovin bemutatja a Bitmovin Video Encodingot és a Bitmovin Video Playert a Microsoft Azure-hoz. Az ügyfelek most kihasználhatják ezeket a kódolási és lejátszási megoldásokat az Azure-ban, és olyan fejlett funkciók előnyeit élvezhetik, mint a háromlépcsős kódolás, az AV1/VC kodek támogatása, a többnyelvű feliratok és az előre integrált videoelemzés a QoS-hez, a hirdetésekhez és a videókövetéshez.

Örökkévaló bemutatja felhasználói életciklus-kezelési platformját az Azure-ban. A bevétel- és ügyféléletciklus-kezelési megoldások vezető szolgáltatójaként az Evergent az Azure AI segítségével segíti a prémium szórakoztató szolgáltatókat az ügyfelek megszerzésében és megtartásában azáltal, hogy célzott szolgáltatáscsomagokat és ajánlatokat hoz létre az ügyfelek életciklusának kritikus pontjain.

Haivision bemutatja intelligens felhő alapú médiaútválasztó szolgáltatását, az SRT Hub-ot, amely segít az ügyfeleknek a végpontok közötti munkafolyamatok átalakításával. Azure Data Box Edge és munkafolyamatok átalakítása az Avid, a Telestream, a Wowza, a Cinegy és a Make.tv Hubletjeivel.

SES műsorszórási szintű médiaszolgáltatások csomagját fejlesztette ki az Azure platformon műholdas és felügyelt médiaszolgáltatások ügyfelei számára. A SES bemutatja a teljes körűen felügyelt lejátszási szolgáltatások megoldásait, beleértve a fő lejátszást, a lokalizált lejátszást, a hirdetések felderítését és cseréjét, valamint a kiváló minőségű valós idejű, 24x7 többcsatornás kódolást az Azure-ban.

SyncWords kényelmes felhőeszközöket és aláírás-automatizálási technológiát tesz elérhetővé az Azure-ban. Ezek az ajánlatok megkönnyítik a médiaszervezetek számára, hogy automatikusan hozzáadjanak feliratokat, beleértve az idegen nyelvű feliratokat is, az Azure-beli élő és offline videó munkafolyamataikhoz.
nemzetközi vállalat Tata Elxsi, egy technológiai szolgáltató vállalat, integrálta OTT SaaS platformját, a TEPlay-t az Azure Media Services szolgáltatásba, hogy OTT-tartalmakat szállítson a felhőből. A Tata Elxsi a Falcon Eye Quality of experience (QoE) felügyeleti megoldását is behozta a Microsoft Azure-ba, amely elemzéseket és mérőszámokat biztosít a döntéshozatalhoz.

Verizon Media streaming platformját béta kiadásként teszi elérhetővé az Azure-ban. A Verizon Media Platform egy vállalati szintű felügyelt OTT-megoldás, amely magában foglalja a DRM-et, a hirdetésbeillesztést, az egytől egyig személyre szabott munkameneteket, a dinamikus tartalomcserét és a videószállítást. Az integráció leegyszerűsíti a munkafolyamatokat, a globális támogatást és a méretezést, valamint felszabadít néhány, az Azure-ban található egyedi képességet.

Forrás: will.com

Hozzászólás