De missie van Microsoft is om elke persoon en organisatie op de planeet in staat te stellen meer te bereiken. De media-industrie is een geweldig voorbeeld van het verwezenlijken van deze missie. We leven in een tijdperk waarin meer inhoud wordt gemaakt en geconsumeerd, op meer manieren en op meer apparaten. Op IBC 2019 deelden we de nieuwste innovaties waaraan we werken en hoe deze kunnen helpen uw media-ervaring te transformeren.
Details onder de snit!
Deze pagina staat aan
Video Indexer ondersteunt nu animatie en meertalige inhoud
Vorig jaar hebben we bij IBC onze prijswinnende gemaakt
Ons nieuwste aanbod omvat previews van twee zeer gewilde en gedifferentieerde functies (geanimeerde tekenherkenning en meertalige spraaktranscriptie), evenals verschillende toevoegingen aan de bestaande modellen die vandaag beschikbaar zijn in Video Indexer.
Geanimeerde karakterherkenning
Geanimeerde inhoud is een van de meest populaire soorten inhoud, maar standaard computer vision-modellen die zijn ontworpen om menselijke gezichten te herkennen, werken er niet goed mee, vooral als de inhoud karakters bevat zonder menselijke gelaatstrekken. De nieuwe preview-versie combineert Video Indexer met de Azure Custom Vision-service van Microsoft en levert een nieuwe reeks modellen op die automatisch geanimeerde karakters detecteren en groeperen, en deze gemakkelijk kunnen labelen en herkennen met behulp van geïntegreerde aangepaste vision-modellen.
De modellen zijn geïntegreerd in één pijplijn, waardoor iedereen de dienst kan gebruiken zonder enige kennis van machine learning. Resultaten zijn beschikbaar via een Video Indexer-portal zonder code of via een REST API voor snelle integratie in uw eigen applicaties.
We hebben deze modellen gebouwd om met geanimeerde karakters te werken, samen met enkele consumenten die echte geanimeerde inhoud leverden voor training en testen. De waarde van de nieuwe functionaliteit werd goed samengevat door Andy Gutteridge, senior director studiotechnologie en postproductie bij Viacom International Media Networks, een van de dataproviders: “De toevoeging van robuuste AI-aangedreven geanimeerde contentdetectie zal het mogelijk maken ons om snel en efficiënt metagegevens van karakters uit onze bibliotheekinhoud te vinden en te catalogiseren.
Het allerbelangrijkste is dat het onze creatieve teams de mogelijkheid geeft om direct de inhoud te vinden die ze nodig hebben, waardoor de tijd die ze besteden aan het beheren van media wordt geminimaliseerd en ze zich kunnen concentreren op creativiteit.”
U kunt beginnen met kennismaken met geanimeerde karakterherkenning met
Identificatie en transcriptie van inhoud in meerdere talen
Sommige mediabronnen, zoals nieuws, kronieken en interviews, bevatten opnames van mensen die verschillende talen spreken. Voor de meeste bestaande spraak-naar-tekstmogelijkheden moet de audioherkenningstaal vooraf worden gespecificeerd, waardoor het moeilijk wordt om meertalige video's te transcriberen.
Onze nieuwe functie Automatische gesproken taalidentificatie voor verschillende soorten inhoud maakt gebruik van machine learning-technologie om talen te identificeren die in media-items voorkomen. Eenmaal gedetecteerd, doorloopt elk taalsegment automatisch een transcriptieproces in de juiste taal, waarna alle segmenten worden gecombineerd tot één meertalig transcriptiebestand.
Het resulterende transcript is beschikbaar als onderdeel van de JSON-uitvoer van de Video Indexer en als ondertitelbestanden. Het uitvoertranscriptie is ook geïntegreerd met Azure Search, waardoor u direct naar verschillende taalsegmenten in uw video's kunt zoeken. Bovendien is meertalige transcriptie beschikbaar wanneer u met de Video Indexer-portal werkt, zodat u het transcript en de geïdentificeerde taal in de loop van de tijd kunt bekijken, of voor elke taal naar specifieke plaatsen in de video kunt gaan en de meertalige transcriptie als bijschriften kunt zien terwijl de video wordt afgespeeld. U kunt de ontvangen tekst ook vertalen naar een van de 54 beschikbare talen via de portal en API.
Meer informatie over de nieuwe functie voor meertalige inhoudherkenning en hoe deze wordt gebruikt in Video Indexer
Extra bijgewerkte en verbeterde modellen
We voegen ook nieuwe modellen toe aan Video Indexer en verbeteren bestaande modellen, waaronder de modellen die hieronder worden beschreven.
Entiteiten extraheren die verband houden met mensen en plaatsen
We hebben onze bestaande mogelijkheden voor merkontdekking uitgebreid met bekende namen en locaties, zoals de Eiffeltoren in Parijs en de Big Ben in Londen. Wanneer ze verschijnen in het gegenereerde transcript of op het scherm met behulp van optische tekenherkenning (OCR), wordt de relevante informatie toegevoegd. Met deze nieuwe functie kun je zoeken naar alle mensen, plaatsen en merken die in een video zijn verschenen en details over hen bekijken, inclusief tijdvakken, beschrijvingen en links naar de Bing-zoekmachine voor meer informatie.
Framedetectiemodel voor editor
Deze nieuwe functie voegt een set 'tags' toe aan de metagegevens die zijn gekoppeld aan individuele frames in de JSON-details om hun redactionele type weer te geven (bijvoorbeeld breedbeeld, middellange opname, close-up, extreme close-up, twee opnamen, meerdere mensen , buiten, binnen, enz.). Deze kenmerken van het opnametype zijn handig bij het bewerken van video voor clips en trailers, of bij het zoeken naar een specifieke opnamestijl voor artistieke doeleinden.
Verbeterde granulariteit van IPTC-kaarten
Ons onderwerpdetectiemodel bepaalt het onderwerp van een video op basis van transcriptie, optische tekenherkenning (OCR) en gedetecteerde beroemdheden, zelfs als het onderwerp niet expliciet is gespecificeerd. We brengen deze gedetecteerde onderwerpen in kaart in vier classificatiegebieden: Wikipedia, Bing, IPTC en IAB. Deze verbetering stelt ons in staat om IPTC-classificatie op het tweede niveau op te nemen.
Profiteren van deze verbeteringen is net zo eenvoudig als het opnieuw indexeren van uw huidige Video Indexer-bibliotheek.
Nieuwe livestreamfunctionaliteit
In de preview van Azure Media Services bieden we ook twee nieuwe functies voor livestreaming.
AI-aangedreven real-time transcriptie tilt livestreaming naar een hoger niveau
Als u Azure Media Services voor livestreaming gebruikt, kunt u nu een uitvoerstream ontvangen die naast audio- en video-inhoud een automatisch gegenereerde teksttrack bevat. De tekst wordt gemaakt met behulp van realtime audiotranscriptie op basis van kunstmatige intelligentie. Aangepaste technieken worden vóór en na de spraak-naar-tekstconversie toegepast om de resultaten te verbeteren. De teksttrack wordt verpakt in IMSC1, TTML of WebVTT, afhankelijk of deze wordt aangeleverd in DASH, HLS CMAF of HLS TS.
Realtime lijncodering voor 24/7 OTT-kanalen
Met behulp van onze v3 API's kunt u OTT-kanalen (over-the-top) creëren, beheren en uitzenden, en alle andere Azure Media Services-functies gebruiken, zoals live video on demand (VOD, video on demand), verpakkingen en digitaal rechtenbeheer ( DRM, digitaal rechtenbeheer).
Ga naar om voorbeeldversies van deze functies te bekijken
Nieuwe mogelijkheden voor het genereren van pakketten
Ondersteuning voor audiobeschrijvingstracks
Inhoud die via uitzendkanalen wordt uitgezonden, bevat naast het reguliere audiosignaal vaak ook een audiotrack met mondelinge uitleg over wat er op het scherm gebeurt. Dit maakt programma's toegankelijker voor visueel gehandicapte kijkers, vooral als de inhoud voornamelijk visueel is. Nieuw
ID3-metagegevens invoegen
Om de invoeging van advertenties of aangepaste metadata-gebeurtenissen aan de speler van de klant te signaleren, gebruiken omroepen vaak getimede metadata die in de video zijn ingebed. Naast SCTE-35-signaleringsmodi ondersteunen we nu ook
Microsoft Azure-partners demonstreren end-to-end-oplossingen
internationaal bedrijf
Bron: www.habr.com