Microsofts oppgave er å styrke alle mennesker og organisasjoner på planeten til å oppnå mer. Mediebransjen er et godt eksempel på å gjøre dette oppdraget til virkelighet. Vi lever i en tid hvor mer innhold blir skapt og konsumert, på flere måter og på flere enheter. På IBC 2019 delte vi de siste innovasjonene vi jobber med og hvordan de kan bidra til å transformere medieopplevelsen din.
Detaljer under kuttet!
Denne siden er på
Video Indexer støtter nå animasjon og flerspråklig innhold
I fjor på IBC ble vi vår prisvinnende
Våre siste tilbud inkluderer forhåndsvisninger av to svært ettertraktede og differensierte funksjoner – animert karaktergjenkjenning og flerspråklig taletranskripsjon – samt flere tillegg til de eksisterende modellene som er tilgjengelige i dag i Video Indexer.
Animert karaktergjenkjenning
Animert innhold er en av de mest populære typene innhold, men standard datasynsmodeller designet for å gjenkjenne menneskelige ansikter fungerer ikke bra med det, spesielt hvis innholdet inneholder karakterer uten menneskelige ansiktstrekk. Den nye forhåndsversjonen kombinerer Video Indexer med Microsofts Azure Custom Vision-tjeneste, og leverer et nytt sett med modeller som automatisk oppdager og grupperer animerte karakterer og gjør dem enkle å merke og gjenkjenne ved hjelp av integrerte tilpassede vision-modeller.
Modellene er integrert i en enkelt pipeline, slik at alle kan bruke tjenesten uten maskinlæringskunnskap. Resultatene er tilgjengelige via en kodefri Video Indexer-portal eller via en REST API for rask integrering i dine egne applikasjoner.
Vi bygde disse modellene for å fungere med animerte karakterer sammen med noen forbrukere som ga ekte animert innhold for trening og testing. Verdien av den nye funksjonaliteten ble godt oppsummert av Andy Gutteridge, seniordirektør for studioteknologi og postproduksjon hos Viacom International Media Networks, som var en av dataleverandørene: «Tillegget av robust AI-drevet animert innholdsoppdagelse vil tillate oss for å raskt og effektivt finne og katalogisere karaktermetadata fra bibliotekets innhold.
Det viktigste er at det vil gi våre kreative team muligheten til å umiddelbart finne innholdet de trenger, minimere tiden brukt på å administrere media og la dem fokusere på kreativitet.»
Du kan begynne å bli kjent med animert karaktergjenkjenning med
Identifikasjon og transkripsjon av innhold på flere språk
Noen medieressurser, som nyheter, kronikker og intervjuer, inneholder opptak av personer som snakker forskjellige språk. De fleste eksisterende tale-til-tekst-funksjoner krever at lydgjenkjenningsspråket er spesifisert på forhånd, noe som gjør det vanskelig å transkribere flerspråklige videoer.
Vår nye funksjon for automatisk talespråkidentifikasjon for ulike typer innhold bruker maskinlæringsteknologi for å identifisere språk som finnes i medieressurser. Når det er oppdaget, går hvert språksegment automatisk gjennom en transkripsjonsprosess på det aktuelle språket, og deretter kombineres alle segmentene til en enkelt flerspråklig transkripsjonsfil.
Den resulterende transkripsjonen er tilgjengelig som en del av JSON-utgangen til Video Indexer og som undertekstfiler. Utgangstranskripsjonen er også integrert med Azure Search, slik at du umiddelbart kan søke etter forskjellige språksegmenter i videoene dine. I tillegg er flerspråklig transkripsjon tilgjengelig når du arbeider med Video Indexer-portalen, slik at du kan se transkripsjonen og det identifiserte språket over tid, eller hoppe til bestemte steder i videoen for hvert språk og se den flerspråklige transkripsjonen som bildetekster mens videoen spilles av. Du kan også oversette den mottatte teksten til hvilket som helst av de 54 tilgjengelige språkene gjennom portalen og API.
Lær mer om den nye flerspråklige innholdsgjenkjenningsfunksjonen og hvordan den brukes i Video Indexer
Ytterligere oppdaterte og forbedrede modeller
Vi legger også til nye modeller i Video Indexer og forbedrer eksisterende, inkludert de som er beskrevet nedenfor.
Å trekke ut enheter knyttet til mennesker og steder
Vi har utvidet våre eksisterende merkevareoppdagelsesmuligheter til å inkludere kjente navn og steder, som Eiffeltårnet i Paris og Big Ben i London. Når de vises i det genererte transkripsjonen eller på skjermen ved hjelp av optisk tegngjenkjenning (OCR), legges den relevante informasjonen til. Med denne nye funksjonen kan du søke etter alle personene, stedene og merkene som dukket opp i en video og se detaljer om dem, inkludert tidsluker, beskrivelser og lenker til Bing-søkemotoren for mer informasjon.
Rammedeteksjonsmodell for redaktør
Denne nye funksjonen legger til et sett med "tagger" til metadataene knyttet til individuelle bilder i JSON-detaljene for å representere deres redaksjonelle type (for eksempel bredbilde, middels bilde, nærbilde, ekstremt nærbilde, to bilder, flere personer , utendørs, innendørs, etc.). Disse opptakstypekarakteristikkene er nyttige når du redigerer video for klipp og trailere, eller når du ser etter en spesifikk opptaksstil for kunstneriske formål.
Forbedret IPTC kartlegging granularitet
Temadeteksjonsmodellen vår bestemmer emnet for en video basert på transkripsjon, optisk tegngjenkjenning (OCR) og oppdagede kjendiser, selv om emnet ikke er eksplisitt spesifisert. Vi kartlegger disse oppdagede emnene til fire klassifiseringsområder: Wikipedia, Bing, IPTC og IAB. Denne forbedringen lar oss inkludere andre nivå IPTC-klassifisering.
Å dra nytte av disse forbedringene er like enkelt som å re-indeksere ditt nåværende Video Indexer-bibliotek.
Ny funksjon for direktesending
I forhåndsvisningen av Azure Media Services tilbyr vi også to nye funksjoner for direktestrømming.
AI-drevet sanntidstranskripsjon tar livestreaming til neste nivå
Ved å bruke Azure Media Services for direktestrømming kan du nå motta en utdatastrøm som inkluderer et automatisk generert tekstspor i tillegg til lyd- og videoinnhold. Teksten er laget ved hjelp av sanntids lydtranskripsjon basert på kunstig intelligens. Egendefinerte teknikker brukes før og etter tale-til-tekst-konvertering for å forbedre resultatene. Tekstsporet er pakket i IMSC1, TTML eller WebVTT, avhengig av om det leveres i DASH, HLS CMAF eller HLS TS.
Sanntidslinjekoding for 24/7 OTT-kanaler
Ved å bruke v3-API-ene våre kan du opprette, administrere og kringkaste OTT-kanaler (over-the-top) og bruke alle andre Azure Media Services-funksjoner som live video on demand (VOD, video on demand), pakking og administrasjon av digitale rettigheter ( DRM, digital rettighetsforvaltning).
For å se forhåndsversjoner av disse funksjonene, besøk
Nye evner for pakkegenerering
Støtte for lydbeskrivelsesspor
Innhold som sendes over kringkastingskanaler har ofte et lydspor med verbale forklaringer på hva som skjer på skjermen i tillegg til det vanlige lydsignalet. Dette gjør programmene mer tilgjengelige for synshemmede seere, spesielt hvis innholdet primært er visuelt. Ny
Setter inn ID3-metadata
For å signalisere innsetting av annonser eller tilpassede metadatahendelser til klientens spiller, bruker kringkastere ofte tidsbestemt metadata som er innebygd i videoen. I tillegg til SCTE-35-signaleringsmoduser støtter vi nå også
Microsoft Azure-partnere demonstrerer ende-til-ende-løsninger
internasjonalt selskap
Kilde: www.habr.com