Microsofts mission er at give enhver person og organisation på planeten mulighed for at opnå mere. Mediebranchen er et godt eksempel på at gøre denne mission til virkelighed. Vi lever i en æra, hvor mere indhold bliver skabt og forbrugt på flere måder og på flere enheder. På IBC 2019 delte vi de seneste innovationer, vi arbejder på, og hvordan de kan hjælpe med at transformere din medieoplevelse.
Detaljer under klippet!
Denne side er på
Video Indexer understøtter nu animation og flersproget indhold
Sidste år på IBC lavede vi vores prisvindende
Vores seneste tilbud inkluderer forhåndsvisninger af to meget eftertragtede og differentierede funktioner – animeret karaktergenkendelse og flersproget taletransskription – samt adskillige tilføjelser til de eksisterende modeller, der er tilgængelige i dag i Video Indexer.
Animeret tegngenkendelse
Animeret indhold er en af de mest populære typer indhold, men standard computervisionsmodeller designet til at genkende menneskelige ansigter fungerer ikke godt sammen med det, især hvis indholdet indeholder karakterer uden menneskelige ansigtstræk. Den nye preview-version kombinerer Video Indexer med Microsofts Azure Custom Vision-tjeneste og leverer et nyt sæt modeller, der automatisk registrerer og grupperer animerede karakterer og gør dem nemme at mærke og genkende ved hjælp af integrerede brugerdefinerede vision-modeller.
Modellerne er integreret i en enkelt pipeline, så alle kan bruge tjenesten uden maskinlæringsviden. Resultater er tilgængelige via en kodefri Video Indexer-portal eller via en REST API for hurtig integration i dine egne applikationer.
Vi byggede disse modeller til at arbejde med animerede figurer sammen med nogle forbrugere, som leverede ægte animeret indhold til træning og test. Værdien af den nye funktionalitet blev godt opsummeret af Andy Gutteridge, senior direktør for studieteknologi og post-produktion hos Viacom International Media Networks, som var en af dataleverandørerne: "Tilføjelsen af robust AI-drevet animeret indholdsopdagelse vil give mulighed for os til hurtigt og effektivt at finde og katalogisere karaktermetadata fra vores biblioteksindhold.
Vigtigst af alt vil det give vores kreative teams mulighed for øjeblikkeligt at finde det indhold, de har brug for, minimere tid brugt på at administrere medier og give dem mulighed for at fokusere på kreativitet."
Du kan begynde at stifte bekendtskab med animeret karaktergenkendelse med
Identifikation og transskription af indhold på flere sprog
Nogle medieressourcer, såsom nyheder, kronikker og interviews, indeholder optagelser af mennesker, der taler forskellige sprog. De fleste eksisterende tale-til-tekst-funktioner kræver, at lydgenkendelsessproget er specificeret på forhånd, hvilket gør det vanskeligt at transskribere flersprogede videoer.
Vores nye automatiske talte sprogidentifikationsfunktion til forskellige typer indhold bruger maskinlæringsteknologi til at identificere sprog, der findes i medieaktiver. Når det først er opdaget, gennemgår hvert sprogsegment automatisk en transskriptionsproces på det relevante sprog, og derefter kombineres alle segmenter til en enkelt flersproget transskriptionsfil.
Den resulterende transskription er tilgængelig som en del af JSON-outputtet fra Video Indexer og som undertekstfiler. Output-transskriptionen er også integreret med Azure Search, så du straks kan søge efter forskellige sprogsegmenter i dine videoer. Derudover er flersproget transskription tilgængelig, når du arbejder med Video Indexer-portalen, så du kan se transskriptionen og det identificerede sprog over tid eller hoppe til bestemte steder i videoen for hvert sprog og se den flersprogede transskription som billedtekster, mens videoen afspilles. Du kan også oversætte den modtagne tekst til et hvilket som helst af de 54 tilgængelige sprog gennem portalen og API.
Lær mere om den nye flersprogede indholdsgenkendelsesfunktion, og hvordan den bruges i Video Indexer
Yderligere opdaterede og forbedrede modeller
Vi tilføjer også nye modeller til Video Indexer og forbedrer eksisterende, inklusive dem, der er beskrevet nedenfor.
Udvinding af enheder forbundet med mennesker og steder
Vi har udvidet vores eksisterende brand-opdagelsesmuligheder til at omfatte velkendte navne og lokationer, såsom Eiffeltårnet i Paris og Big Ben i London. Når de vises i den genererede transskription eller på skærmen ved hjælp af optisk tegngenkendelse (OCR), tilføjes de relevante oplysninger. Med denne nye funktion kan du søge efter alle de personer, steder og mærker, der dukkede op i en video, og se detaljer om dem, herunder tidsintervaller, beskrivelser og links til Bing-søgemaskinen for at få flere oplysninger.
Rammedetekteringsmodel til editor
Denne nye funktion tilføjer et sæt "tags" til de metadata, der er knyttet til individuelle billeder i JSON-detaljerne for at repræsentere deres redaktionelle type (f.eks. bredbillede, medium skud, nærbillede, ekstrem nærbillede, to billeder, flere personer , udendørs, indendørs osv.). Disse skudtypeegenskaber er nyttige, når du redigerer video til klip og trailere, eller når du leder efter en specifik skudstil til kunstneriske formål.
Forbedret IPTC kortlægning granularitet
Vores emneregistreringsmodel bestemmer emnet for en video baseret på transskription, optisk tegngenkendelse (OCR) og detekterede berømtheder, selvom emnet ikke er eksplicit specificeret. Vi kortlægger disse opdagede emner til fire klassifikationsområder: Wikipedia, Bing, IPTC og IAB. Denne forbedring giver os mulighed for at inkludere IPTC-klassificering på andet niveau.
At drage fordel af disse forbedringer er lige så let som at genindeksere dit nuværende Video Indexer-bibliotek.
Ny live streaming funktionalitet
I Azure Media Services preview tilbyder vi også to nye funktioner til livestreaming.
AI-drevet transskription i realtid tager livestreaming til næste niveau
Ved at bruge Azure Media Services til livestreaming kan du nu modtage en outputstream, der omfatter et automatisk genereret tekstspor ud over lyd- og videoindhold. Teksten er lavet ved hjælp af real-time lydtransskription baseret på kunstig intelligens. Brugerdefinerede teknikker anvendes før og efter tale-til-tekst-konvertering for at forbedre resultaterne. Tekstsporet er pakket i IMSC1, TTML eller WebVTT, alt efter om det leveres i DASH, HLS CMAF eller HLS TS.
Linjekodning i realtid til 24/7 OTT-kanaler
Ved at bruge vores v3 API'er kan du oprette, administrere og udsende OTT-kanaler (over-the-top) og bruge alle andre Azure Media Services-funktioner, såsom live video on demand (VOD, video on demand), pakke og styring af digitale rettigheder ( DRM, digital rettighedsstyring).
For at se forhåndsvisningsversioner af disse funktioner, besøg
Nye muligheder for pakkegenerering
Understøttelse af lydbeskrivelsesspor
Indhold, der udsendes over broadcast-kanaler, har ofte et lydspor med verbale forklaringer på, hvad der sker på skærmen udover det almindelige lydsignal. Dette gør programmer mere tilgængelige for synshandicappede seere, især hvis indholdet primært er visuelt. Ny
Indsættelse af ID3-metadata
For at signalere indsættelse af reklamer eller tilpassede metadatahændelser til klientens afspiller, bruger broadcastere ofte tidsindstillede metadata, der er indlejret i videoen. Ud over SCTE-35 signaleringstilstande understøtter vi nu også
Microsoft Azure-partnere demonstrerer end-to-end-løsninger
international virksomhed
Kilde: www.habr.com