Microsoftovo poslanstvo je opolnomočiti vsako osebo in organizacijo na planetu, da doseže več. Medijska industrija je odličen primer uresničevanja te misije. Živimo v dobi, ko se ustvarja in porabi več vsebine na več načinov in na več napravah. Na IBC 2019 smo delili najnovejše inovacije, na katerih delamo, in kako lahko pomagajo spremeniti vašo medijsko izkušnjo.
Detajli pod krojem!
Ta stran je na
Video Indexer zdaj podpira animacijo in večjezično vsebino
Lansko leto smo na IBC osvojili nagrado
Naše najnovejše ponudbe vključujejo predogled dveh zelo iskanih in diferenciranih funkcij – prepoznavanje animiranih znakov in večjezično prepisovanje govora – kot tudi več dodatkov k obstoječim modelom, ki so danes na voljo v Video Indexerju.
Prepoznavanje animiranih likov
Animirana vsebina je ena najbolj priljubljenih vrst vsebine, vendar standardni modeli računalniškega vida, zasnovani za prepoznavanje človeških obrazov, z njo ne delujejo dobro, še posebej, če vsebina vsebuje like brez človeških obraznih potez. Nova predogledna različica združuje Video Indexer z Microsoftovo storitvijo Azure Custom Vision, ki zagotavlja nov nabor modelov, ki samodejno zaznavajo in združujejo animirane znake ter omogočajo enostavno označevanje in prepoznavanje z uporabo integriranih modelov vida po meri.
Modeli so integrirani v en sam cevovod, kar omogoča vsakomur, da uporablja storitev brez znanja strojnega učenja. Rezultati so na voljo prek portala Video Indexer brez kode ali prek API-ja REST za hitro integracijo v vaše lastne aplikacije.
Te modele smo zgradili za delo z animiranimi liki skupaj z nekaterimi potrošniki, ki so zagotovili pravo animirano vsebino za usposabljanje in testiranje. Vrednost nove funkcionalnosti je dobro povzel Andy Gutteridge, višji direktor studijske tehnologije in postprodukcije pri Viacom International Media Networks, ki je bil eden od ponudnikov podatkov: »Dodatek robustnega odkrivanja animiranih vsebin, ki ga poganja AI, bo omogočil za hitro in učinkovito iskanje in katalogiziranje metapodatkov znakov iz vsebine naše knjižnice.
Najpomembneje pa bo, da bo našim kreativnim ekipam omogočila, da takoj najdejo vsebino, ki jo potrebujejo, kar zmanjša čas, porabljen za upravljanje medijev, in jim omogoči, da se osredotočijo na ustvarjalnost.«
S prepoznavanjem animiranih likov se lahko začnete seznanjati z
Identifikacija in prepis vsebine v več jezikih
Nekateri medijski viri, kot so novice, kronike in intervjuji, vsebujejo posnetke ljudi, ki govorijo različne jezike. Večina obstoječih zmožnosti pretvorbe govora v besedilo zahteva, da je jezik za prepoznavanje zvoka določen vnaprej, kar otežuje prepisovanje večjezičnih videoposnetkov.
Naša nova funkcija samodejne identifikacije govorjenega jezika za različne vrste vsebin uporablja tehnologijo strojnega učenja za prepoznavanje jezikov v medijskih sredstvih. Ko je zaznan, gre vsak jezikovni segment samodejno skozi postopek transkripcije v ustreznem jeziku, nato pa so vsi segmenti združeni v eno samo večjezično transkripcijsko datoteko.
Nastali prepis je na voljo kot del JSON izhoda Video Indexerja in kot datoteke s podnapisi. Izhodni prepis je prav tako integriran z iskanjem Azure, kar vam omogoča takojšnje iskanje različnih jezikovnih segmentov v vaših videoposnetkih. Poleg tega je pri delu s portalom Video Indexer na voljo večjezični prepis, tako da si lahko ogledate prepis in prepoznani jezik skozi čas ali skočite na določena mesta v videoposnetku za vsak jezik in si med predvajanjem videa ogledate večjezični prepis kot napise. Prejeto besedilo lahko tudi prevedete v katerega koli od 54 razpoložljivih jezikov prek portala in API-ja.
Izvedite več o novi večjezični funkciji za prepoznavanje vsebine in o tem, kako se uporablja v Video Indexerju
Dodatni posodobljeni in izboljšani modeli
Prav tako dodajamo nove modele Video Indexerju in izboljšujemo obstoječe, vključno s tistimi, ki so opisani spodaj.
Ekstrahiranje entitet, povezanih z ljudmi in kraji
Naše obstoječe zmožnosti odkrivanja blagovnih znamk smo razširili na dobro znana imena in lokacije, kot sta Eifflov stolp v Parizu in Big Ben v Londonu. Ko se pojavijo v ustvarjenem prepisu ali na zaslonu z uporabo optičnega prepoznavanja znakov (OCR), se dodajo ustrezne informacije. S to novo funkcijo lahko iščete vse ljudi, kraje in blagovne znamke, ki so se pojavili v videu, in si ogledate podrobnosti o njih, vključno s časovnimi intervali, opisi in povezavami do iskalnika Bing za več informacij.
Model zaznavanja okvirjev za urejevalnik
Ta nova funkcija metapodatkom, ki so priloženi posameznim okvirjem v podrobnostih JSON, doda nabor »oznak«, ki predstavljajo njihovo uredniško vrsto (na primer širok posnetek, srednji posnetek, bližnji posnetek, ekstremen bližnji posnetek, dva posnetka, več oseb , na prostem, v zaprtih prostorih itd.). Te značilnosti vrste posnetka so uporabne pri urejanju videa za posnetke in napovednike ali pri iskanju posebnega sloga posnetka za umetniške namene.
Izboljšana razdrobljenost preslikave IPTC
Naš model zaznavanja tem določi temo videoposnetka na podlagi transkripcije, optičnega prepoznavanja znakov (OCR) in zaznanih znanih osebnosti, tudi če tema ni izrecno določena. Te odkrite teme preslikamo v štiri klasifikacijska področja: Wikipedia, Bing, IPTC in IAB. Ta izboljšava nam omogoča vključitev drugostopenjske klasifikacije IPTC.
Izkoriščanje prednosti teh izboljšav je tako preprosto kot ponovno indeksiranje vaše trenutne knjižnice Video Indexer.
Nova funkcija pretakanja v živo
V predogledu medijskih storitev Azure ponujamo tudi dve novi funkciji za pretakanje v živo.
Transkripcija v realnem času, ki jo poganja AI, dvigne pretakanje v živo na naslednjo raven
Z uporabo medijskih storitev Azure za pretakanje v živo lahko zdaj prejmete izhodni tok, ki poleg avdio in video vsebine vključuje samodejno ustvarjeno besedilno sled. Besedilo je ustvarjeno z zvočnim prepisom v realnem času, ki temelji na umetni inteligenci. Tehnike po meri se uporabljajo pred in po pretvorbi govora v besedilo za izboljšanje rezultatov. Besedilna sled je pakirana v IMSC1, TTML ali WebVTT, odvisno od tega, ali je dobavljena v DASH, HLS CMAF ali HLS TS.
Kodiranje linije v realnem času za kanale OTT 24/7
Z našimi API-ji v3 lahko ustvarjate, upravljate in oddajate kanale OTT (over-the-top) ter uporabljate vse druge funkcije medijskih storitev Azure, kot so videoposnetki v živo na zahtevo (VOD, video na zahtevo), pakiranje in upravljanje digitalnih pravic ( DRM, upravljanje digitalnih pravic).
Če si želite ogledati predogledne različice teh funkcij, obiščite
Nove zmožnosti generiranja paketov
Podpora za skladbe z zvočnim opisom
Vsebina, predvajana prek oddajnih kanalov, ima poleg običajnega zvočnega signala pogosto tudi zvočni posnetek z besednimi razlagami dogajanja na zaslonu. Zaradi tega so programi bolj dostopni gledalcem z okvarami vida, zlasti če je vsebina predvsem vizualna. Novo
Vstavljanje metapodatkov ID3
Za signaliziranje vstavljanja oglasov ali dogodkov metapodatkov po meri odjemalčevemu predvajalniku izdajatelji televizijskih programov pogosto uporabljajo metapodatke, vdelane v videoposnetek. Poleg načinov signalizacije SCTE-35 zdaj podpiramo tudi
Partnerji Microsoft Azure prikazujejo rešitve od konca do konca
mednarodno podjetje
Vir: www.habr.com