Microsofts uppdrag är att ge varje person och organisation på planeten möjlighet att uppnå mer. Mediebranschen är ett bra exempel på att göra detta uppdrag till verklighet. Vi lever i en tid där mer innehåll skapas och konsumeras, på fler sätt och på fler enheter. På IBC 2019 delade vi de senaste innovationerna vi arbetar med och hur de kan hjälpa till att förändra din medieupplevelse.
Detaljer under snittet!
Den här sidan är på
Video Indexer stöder nu animering och flerspråkigt innehåll
Förra året på IBC gjorde vi vår prisbelönta
Våra senaste erbjudanden inkluderar förhandsvisningar av två mycket eftertraktade och differentierade funktioner – animerad karaktärsigenkänning och flerspråkig taltranskription – samt flera tillägg till de befintliga modellerna som är tillgängliga idag i Video Indexer.
Animerad karaktärsigenkänning
Animerat innehåll är en av de mest populära typerna av innehåll, men standardmodeller för datorseende som är utformade för att känna igen mänskliga ansikten fungerar inte bra med det, särskilt om innehållet innehåller karaktärer utan mänskliga ansiktsdrag. Den nya förhandsvisningsversionen kombinerar Video Indexer med Microsofts Azure Custom Vision-tjänst, och levererar en ny uppsättning modeller som automatiskt upptäcker och grupperar animerade karaktärer och gör dem lätta att märka och känna igen med hjälp av integrerade anpassade vision-modeller.
Modellerna är integrerade i en enda pipeline, vilket gör att vem som helst kan använda tjänsten utan maskininlärning. Resultaten är tillgängliga via en kodfri Video Indexer-portal eller via ett REST API för snabb integrering i dina egna applikationer.
Vi byggde dessa modeller för att fungera med animerade karaktärer tillsammans med några konsumenter som tillhandahållit riktigt animerat innehåll för träning och testning. Värdet av den nya funktionaliteten sammanfattades väl av Andy Gutteridge, senior chef för studioteknologi och efterproduktion på Viacom International Media Networks, som var en av dataleverantörerna: "Tillägget av robust AI-driven animerat innehållsupptäckt kommer att möjliggöra oss för att snabbt och effektivt hitta och katalogisera karaktärsmetadata från vårt biblioteksinnehåll.
Viktigast av allt kommer det att ge våra kreativa team möjligheten att omedelbart hitta det innehåll de behöver, vilket minimerar tiden för att hantera media och låter dem fokusera på kreativitet.”
Du kan börja bekanta dig med animerad karaktärsigenkänning med
Identifiering och transkription av innehåll på flera språk
Vissa medieresurser, som nyheter, krönikor och intervjuer, innehåller inspelningar av personer som talar olika språk. De flesta befintliga tal-till-text-funktioner kräver att ljudigenkänningsspråket anges i förväg, vilket gör det svårt att transkribera flerspråkiga videor.
Vår nya automatiska talade språkidentifieringsfunktion för olika typer av innehåll använder maskininlärningsteknik för att identifiera språk som finns i mediatillgångar. När det har upptäckts går varje språksegment automatiskt igenom en transkriptionsprocess på lämpligt språk, och sedan kombineras alla segment till en enda flerspråkig transkriptionsfil.
Den resulterande transkriptionen är tillgänglig som en del av JSON-utdata från Video Indexer och som undertextfiler. Utdatatranskriptet är också integrerat med Azure Search, så att du omedelbart kan söka efter olika språksegment i dina videor. Dessutom är flerspråkig transkription tillgänglig när du arbetar med Video Indexer-portalen, så att du kan se transkriptionen och det identifierade språket över tid, eller hoppa till specifika platser i videon för varje språk och se den flerspråkiga transkriptionen som bildtexter när videon spelas upp. Du kan också översätta den mottagna texten till något av de 54 tillgängliga språken via portalen och API.
Lär dig mer om den nya flerspråkiga funktionen för innehållsigenkänning och hur den används i Video Indexer
Ytterligare uppdaterade och förbättrade modeller
Vi lägger också till nya modeller till Video Indexer och förbättrar befintliga, inklusive de som beskrivs nedan.
Extrahera enheter associerade med människor och platser
Vi har utökat våra befintliga varumärkesupptäckarmöjligheter till att omfatta välkända namn och platser, som Eiffeltornet i Paris och Big Ben i London. När de visas i det genererade transkriptet eller på skärmen med optisk teckenigenkänning (OCR), läggs relevant information till. Med den här nya funktionen kan du söka efter alla personer, platser och varumärken som förekom i en video och se detaljer om dem, inklusive tidsluckor, beskrivningar och länkar till Bings sökmotor för mer information.
Ramdetekteringsmodell för redaktör
Den här nya funktionen lägger till en uppsättning "taggar" till metadata som är kopplade till enskilda bildrutor i JSON-detaljerna för att representera deras redaktionella typ (till exempel bredbild, mellanbild, närbild, extrem närbild, två bilder, flera personer , utomhus, inomhus, etc.). Dessa tagningsegenskaper är användbara när du redigerar video för klipp och trailers, eller när du letar efter en specifik tagningsstil för konstnärliga syften.
Förbättrad IPTC-mappningsgranularitet
Vår ämnesdetekteringsmodell bestämmer ämnet för en video baserat på transkription, optisk teckenigenkänning (OCR) och upptäckta kändisar, även om ämnet inte är explicit specificerat. Vi mappar dessa upptäckta ämnen till fyra klassificeringsområden: Wikipedia, Bing, IPTC och IAB. Denna förbättring tillåter oss att inkludera andra nivån IPTC-klassificering.
Att dra nytta av dessa förbättringar är lika enkelt som att återindexera ditt nuvarande Video Indexer-bibliotek.
Ny funktion för livestreaming
I förhandsvisningen av Azure Media Services erbjuder vi också två nya funktioner för livestreaming.
AI-driven transkription i realtid tar livestreaming till nästa nivå
Genom att använda Azure Media Services för livestreaming kan du nu ta emot en utdataström som inkluderar ett automatiskt genererat textspår utöver ljud- och videoinnehåll. Texten skapas med hjälp av ljudtranskription i realtid baserad på artificiell intelligens. Anpassade tekniker tillämpas före och efter tal-till-text-konvertering för att förbättra resultaten. Textspåret är paketerat i IMSC1, TTML eller WebVTT, beroende på om det levereras i DASH, HLS CMAF eller HLS TS.
Linjekodning i realtid för 24/7 OTT-kanaler
Med hjälp av våra v3 API:er kan du skapa, hantera och sända OTT-kanaler (over-the-top) och använda alla andra Azure Media Services-funktioner som live video on demand (VOD, video on demand), paketering och hantering av digitala rättigheter ( DRM, hantering av digitala rättigheter).
För att se förhandsversioner av dessa funktioner, besök
Nya paketgenereringsmöjligheter
Stöd för ljudbeskrivningsspår
Innehåll som sänds över sändningskanaler har ofta ett ljudspår med verbala förklaringar av vad som händer på skärmen utöver den vanliga ljudsignalen. Detta gör programmen mer tillgängliga för synskadade tittare, särskilt om innehållet i första hand är visuellt. Ny
Infogar ID3-metadata
För att signalera infogning av annonser eller anpassade metadatahändelser till kundens spelare använder sändningsföretag ofta tidsinställd metadata inbäddad i videon. Förutom SCTE-35-signaleringslägen stöder vi nu också
Microsoft Azure-partners demonstrerar end-to-end-lösningar
internationellt företag
Källa: will.com