La misio de Microsoft estas povigi ĉiun homon kaj organizon sur la planedo atingi pli. La amaskomunikila industrio estas bonega ekzemplo de fari ĉi tiun mision realaĵon. Ni vivas en epoko kie pli da enhavo estas kreita kaj konsumita, en pli da manieroj kaj sur pli da aparatoj. Ĉe IBC 2019, ni konigis la plej novajn novigojn pri kiuj ni laboras kaj kiel ili povas helpi transformi vian amaskomunikilan sperton.
Detaloj sub la tranĉo!
Ĉi tiu paĝo estas aktiva
Video Indexer nun subtenas animacion kaj plurlingvan enhavon
Pasintjare ĉe IBC ni faris nian premiitan
Niaj plej novaj proponoj inkluzivas antaŭprezentojn de du tre serĉataj kaj diferencigitaj funkcioj—vigla signorekono kaj plurlingva paroltransskribo—kaj ankaŭ plurajn aldonojn al la ekzistantaj modeloj disponeblaj hodiaŭ en Video Indexer.
Vigla Karaktero-Rekono
Vigla enhavo estas unu el la plej popularaj specoj de enhavo, sed normaj komputilvidaj modeloj dizajnitaj por rekoni homajn vizaĝojn ne funkcias bone kun ĝi, precipe se la enhavo enhavas karakterojn sen homaj vizaĝaj trajtoj. La nova antaŭprezentversio kombinas Video Indexer kun la Azure Custom Vision-servo de Mikrosofto, liverante novan aron da modeloj, kiuj aŭtomate detektas kaj grupigas viglajn karakterojn kaj faciligas etikedi kaj rekoni ilin per integraj kutimaj vidaj modeloj.
La modeloj estas integritaj en ununuran dukton, permesante al iu ajn uzi la servon sen ajna maŝinlernada scio. Rezultoj haveblas per senkoda Video Indexer-portalo aŭ per REST-API por rapida integriĝo en viajn proprajn aplikojn.
Ni konstruis ĉi tiujn modelojn por labori kun viglaj gravuloj kune kun iuj konsumantoj, kiuj provizis veran viglan enhavon por trejnado kaj testado. La valoro de la nova funkcieco estis bone resumita fare de Andy Gutteridge, altranga direktoro pri studioteknologio kaj postproduktado ĉe Viacom International Media Networks, kiu estis unu el la datumprovizantoj: "La aldono de fortika AI-funkciigita vigla enhavo eltrovo permesos. nin por rapide kaj efike trovi kaj katalogi signajn metadatumojn el nia biblioteka enhavo.
Plej grave, ĝi donos al niaj kreivaj teamoj la kapablon tuj trovi la enhavon, kiun ili bezonas, minimumigante tempon pasigitan por administri amaskomunikilaron kaj permesante al ili koncentriĝi pri kreivo."
Vi povas komenci konatiĝi kun vigla karaktero-rekono kun
Identigo kaj transskribo de enhavo en multoblaj lingvoj
Kelkaj amaskomunikilaj rimedoj, kiel novaĵoj, kronikoj kaj intervjuoj, enhavas registradojn de homoj parolantaj malsamajn lingvojn. La plej multaj ekzistantaj parol-al-tekstaj kapabloj postulas la aŭdrekonan lingvon esti specifita anticipe, malfaciligante transskribi plurlingvajn filmetojn.
Nia nova funkcio de Aŭtomata Parola Lingvo Identigo por diversaj specoj de enhavo uzas maŝinlernantan teknologion por identigi lingvojn trovitajn en amaskomunikiloj. Post kiam detektita, ĉiu lingva segmento aŭtomate trapasas transskriban procezon en la taŭga lingvo, kaj tiam ĉiuj segmentoj estas kombinitaj en ununuran plurlingvan transskriban dosieron.
La rezulta transskribo estas havebla kiel parto de la JSON-produktaĵo de la Video Indexer kaj kiel subtitolaj dosieroj. La eliga transskribo ankaŭ estas integrita kun Azure Search, ebligante vin tuj serĉi malsamajn lingvajn segmentojn en viaj videoj. Aldone, plurlingva transskribo disponeblas kiam vi laboras kun la portalo Video Indexer, do vi povas vidi la transskribon kaj identigitan lingvon laŭlonge de la tempo, aŭ salti al specifaj lokoj en la video por ĉiu lingvo kaj vidi la multlingvan transskribon kiel subtitolojn dum la video ludas. Vi ankaŭ povas traduki la ricevitan tekston al iu ajn el la 54 disponeblaj lingvoj per la portalo kaj API.
Lernu pli pri la nova plurlingva enhavo-rekono kaj kiel ĝi estas uzata en Video Indexer
Pliaj ĝisdatigitaj kaj plibonigitaj modeloj
Ni ankaŭ aldonas novajn modelojn al Video Indexer kaj plibonigas ekzistantajn, inkluzive de tiuj priskribitaj sube.
Ekstraktado de estaĵoj asociitaj kun homoj kaj lokoj
Ni vastigis niajn ekzistantajn mark-malkovrajn kapablojn por inkluzivi konatajn nomojn kaj lokojn, kiel la Eiffel-Turo en Parizo kaj Big Ben en Londono. Kiam ili aperas en la generita transskribo aŭ sur la ekrano uzante optikan signorekonon (OCR), la koncernaj informoj estas aldonitaj. Kun ĉi tiu nova funkcio, vi povas serĉi ĉiujn homojn, lokojn kaj markojn kiuj aperis en video kaj vidi detalojn pri ili, inkluzive de tempoperiodoj, priskriboj kaj ligiloj al la serĉilo Bing por pliaj informoj.
Kadra detekta modelo por redaktilo
Ĉi tiu nova funkcio aldonas aron da "etikedoj" al la metadatenoj alkroĉitaj al individuaj kadroj en la JSON-detaloj por reprezenti ilian redakcian tipon (ekzemple, larĝa pafo, meza pafo, deproksima foto, ekstrema deproksima plano, du pafoj, pluraj homoj. , subĉiela, endome, ktp.). Ĉi tiuj paftipaj karakterizaĵoj estas utilaj dum redaktado de video por klipoj kaj antaŭfilmoj, aŭ kiam serĉas specifan pafstilon por artaj celoj.
Plibonigita IPTC-mapa granulareco
Nia temo-detekta modelo determinas la temon de video surbaze de transskribo, optika signorekono (OCR) kaj detektitaj famuloj, eĉ se la temo ne estas eksplicite specifita. Ni mapas ĉi tiujn detektitajn temojn al kvar klasifikaj areoj: Vikipedio, Bing, IPTC kaj IAB. Ĉi tiu plibonigo permesas al ni inkluzivi duannivelan IPTC-klasifikon.
Profiti ĉi tiujn plibonigojn estas tiel facila kiel reindeksi vian nunan Video Indexer-bibliotekon.
Nova vivflua funkcio
En la antaŭprezento de Azure Media Services, ni ankaŭ ofertas du novajn funkciojn por rekta streaming.
Realtempa transskribo funkciigita de AI portas vivan streamingon al la sekva nivelo
Uzante Azure Media Services por viva fluado, vi nun povas ricevi eligfluon, kiu inkluzivas aŭtomate generitan teksttrakon aldone al aŭda kaj video-enhavo. La teksto estas kreita uzante realtempan sontransskribon bazitan sur artefarita inteligenteco. Propraj teknikoj estas aplikataj antaŭ kaj post konvertiĝo de parolado al teksto por plibonigi rezultojn. La tekstotrako estas enpakita en IMSC1, TTML aŭ WebVTT, depende de ĉu ĝi estas liverita en DASH, HLS CMAF aŭ HLS TS.
Realtempa liniokodado por 24/7 OTT-kanaloj
Uzante niajn v3-APIojn, vi povas krei, administri kaj dissendi OTT (super-superajn) kanalojn, kaj uzi ĉiujn aliajn funkciojn de Azure Media Services kiel rekta video laŭ postulo (VOD, video laŭ postulo), pakado kaj administrado de ciferecaj rajtoj ( DRM, administrado de ciferecaj rajtoj).
Por vidi antaŭrigardajn versiojn de ĉi tiuj funkcioj, vizitu
Novaj pakaĵgeneraciaj kapabloj
Subteno por aŭdpriskribaj aŭtoveturejoj
Enhavo dissendita tra elsendaj kanaloj ofte havas sontrakon kun vortaj klarigoj pri kio okazas sur la ekrano krom la regula sonsignalo. Ĉi tio igas programojn pli alireblaj por viddifektitaj spektantoj, precipe se la enhavo estas ĉefe vida. Nova
Enmetante ID3-metadatenojn
Por signali la enmeton de reklamoj aŭ specialadaptitajn metadatenojn al la ludanto de la kliento, dissendantoj ofte uzas tempigitajn metadatenojn enigitajn en la vidbendo. Krom SCTE-35-signalaj reĝimoj, ni nun ankaŭ subtenas
Microsoft Azure-partneroj montras fin-al-finajn solvojn
internacia kompanio
fonto: www.habr.com