Ang misyon ng Microsoft ay bigyang kapangyarihan ang bawat tao at organisasyon sa planeta upang makamit ang higit pa. Ang industriya ng media ay isang magandang halimbawa ng paggawa ng misyon na ito na isang katotohanan. Nabubuhay tayo sa isang panahon kung saan mas maraming content ang ginagawa at ginagamit, sa mas maraming paraan at sa mas maraming device. Sa IBC 2019, ibinahagi namin ang pinakabagong mga inobasyon na ginagawa namin at kung paano sila makakatulong na baguhin ang iyong karanasan sa media.
Mga detalye sa ilalim ng hiwa!
Naka-on ang page na ito
Sinusuportahan na ngayon ng Video Indexer ang animation at multilinggwal na nilalaman
Noong nakaraang taon sa IBC ginawa namin ang aming award-winning
Kasama sa aming mga pinakabagong alok ang mga preview ng dalawang pinaka-hinahangad at magkakaibang mga featureβanimated character recognition at multilingual speech transcriptionβpati na rin ang ilang karagdagan sa mga kasalukuyang modelong available ngayon sa Video Indexer.
Animated Character Recognition
Ang animated na nilalaman ay isa sa mga pinakasikat na uri ng nilalaman, ngunit ang mga karaniwang modelo ng computer vision na idinisenyo upang makilala ang mga mukha ng tao ay hindi gumagana nang maayos dito, lalo na kung ang nilalaman ay naglalaman ng mga character na walang mga tampok na mukha ng tao. Pinagsasama ng bagong bersyon ng preview ang Video Indexer sa serbisyo ng Azure Custom Vision ng Microsoft, na naghahatid ng bagong hanay ng mga modelo na awtomatikong nagde-detect at nagpapangkat-pangkat ng mga animated na character at ginagawa itong madaling lagyan ng label at makilala gamit ang pinagsama-samang mga custom na modelo ng paningin.
Ang mga modelo ay isinama sa iisang pipeline, na nagpapahintulot sa sinuman na gamitin ang serbisyo nang walang anumang kaalaman sa machine learning. Available ang mga resulta sa pamamagitan ng portal na walang code na Video Indexer o sa pamamagitan ng REST API para sa mabilis na pagsasama sa sarili mong mga application.
Binuo namin ang mga modelong ito upang gumana sa mga animated na character kasama ang ilang mga consumer na nagbigay ng tunay na animated na nilalaman para sa pagsasanay at pagsubok. Ang halaga ng bagong functionality ay mahusay na buod ni Andy Gutteridge, senior director ng studio technology at post-production sa Viacom International Media Networks, na isa sa mga data provider: "Ang pagdaragdag ng matatag na AI-powered animated na pagtuklas ng nilalaman ay magbibigay-daan upang mabilis at mahusay na mahanap at i-catalog ang metadata ng character mula sa nilalaman ng aming library.
Ang pinakamahalaga, bibigyan nito ang aming mga creative team ng kakayahang mahanap agad ang nilalaman na kailangan nila, pinaliit ang oras na ginugol sa pamamahala ng media at pinapayagan silang tumuon sa pagkamalikhain."
Maaari kang magsimulang pamilyar sa animated character recognition gamit ang
Pagkilala at transkripsyon ng nilalaman sa maraming wika
Ang ilang mapagkukunan ng media, tulad ng mga balita, mga talaan at panayam, ay naglalaman ng mga pag-record ng mga taong nagsasalita ng iba't ibang wika. Karamihan sa mga kasalukuyang kakayahan sa speech-to-text ay nangangailangan ng wika sa pagkilala ng audio na tukuyin nang maaga, na nagpapahirap sa pag-transcribe ng mga multilingguwal na video.
Ang aming bagong feature na Automatic Spoken Language Identification para sa iba't ibang uri ng content ay gumagamit ng machine learning technology para matukoy ang mga wikang makikita sa media asset. Kapag natukoy na, awtomatikong dumaan ang bawat segment ng wika sa isang proseso ng transkripsyon sa naaangkop na wika, at pagkatapos ay pagsasamahin ang lahat ng mga segment sa isang solong multi-language transcription file.
Available ang resultang transcript bilang bahagi ng JSON output ng Video Indexer at bilang mga subtitle na file. Ang output transcript ay isinama din sa Azure Search, na nagbibigay-daan sa iyong maghanap kaagad ng iba't ibang mga segment ng wika sa iyong mga video. Bukod pa rito, available ang multilinggwal na transkripsyon kapag nagtatrabaho sa portal ng Video Indexer, upang matingnan mo ang transcript at natukoy na wika sa paglipas ng panahon, o tumalon sa mga partikular na lugar sa video para sa bawat wika at makita ang multilinggwal na transkripsyon bilang mga caption habang nagpe-play ang video. Maaari mo ring isalin ang natanggap na teksto sa alinman sa 54 na magagamit na mga wika sa pamamagitan ng portal at API.
Matuto nang higit pa tungkol sa bagong feature sa pagkilala ng nilalaman sa maraming wika at kung paano ito ginagamit sa Video Indexer
Karagdagang na-update at pinahusay na mga modelo
Nagdaragdag din kami ng mga bagong modelo sa Video Indexer at pinapahusay ang mga umiiral na, kabilang ang mga inilalarawan sa ibaba.
Pag-extract ng mga entity na nauugnay sa mga tao at lugar
Pinalawak namin ang aming umiiral na mga kakayahan sa pagtuklas ng brand upang isama ang mga kilalang pangalan at lokasyon, tulad ng Eiffel Tower sa Paris at Big Ben sa London. Kapag lumitaw ang mga ito sa nabuong transcript o sa screen gamit ang optical character recognition (OCR), idaragdag ang nauugnay na impormasyon. Gamit ang bagong feature na ito, maaari mong hanapin ang lahat ng tao, lugar, at brand na lumabas sa isang video at tingnan ang mga detalye tungkol sa kanila, kabilang ang mga time slot, paglalarawan, at mga link sa Bing search engine para sa higit pang impormasyon.
Frame detection model para sa editor
Ang bagong feature na ito ay nagdaragdag ng isang hanay ng mga "tag" sa metadata na naka-attach sa mga indibidwal na frame sa mga detalye ng JSON upang kumatawan sa kanilang uri ng editoryal (halimbawa, wide shot, medium shot, close-up, extreme close-up, dalawang shot, maraming tao , panlabas, panloob, atbp.). Ang mga katangian ng uri ng shot na ito ay kapaki-pakinabang kapag nag-e-edit ng video para sa mga clip at trailer, o kapag naghahanap ng isang partikular na istilo ng shot para sa mga layuning masining.
Pinahusay na IPTC mapping granularity
Tinutukoy ng aming modelo ng pagtuklas ng paksa ang paksa ng isang video batay sa transkripsyon, optical character recognition (OCR), at mga natukoy na celebrity, kahit na ang paksa ay hindi tahasang tinukoy. Mapa namin ang mga natukoy na paksang ito sa apat na bahagi ng pag-uuri: Wikipedia, Bing, IPTC, at IAB. Ang pagpapahusay na ito ay nagpapahintulot sa amin na isama ang pangalawang antas ng pag-uuri ng IPTC.
Ang pagsasamantala sa mga pagpapahusay na ito ay kasingdali ng muling pag-index ng iyong kasalukuyang library ng Video Indexer.
Bagong live streaming functionality
Sa preview ng Azure Media Services, nag-aalok din kami ng dalawang bagong feature para sa live streaming.
Ang real-time na transkripsyon na pinapagana ng AI ay tumatagal ng live streaming sa susunod na antas
Gamit ang Azure Media Services para sa live streaming, maaari ka na ngayong makatanggap ng output stream na may kasamang awtomatikong nabuong text track bilang karagdagan sa nilalamang audio at video. Ang teksto ay nilikha gamit ang real-time na audio transcription batay sa artificial intelligence. Inilapat ang mga custom na diskarte bago at pagkatapos ng speech-to-text na conversion upang mapabuti ang mga resulta. Ang text track ay naka-package sa IMSC1, TTML o WebVTT, depende sa kung ito ay ibinibigay sa DASH, HLS CMAF o HLS TS.
Real-time na line encoding para sa 24/7 OTT channel
Gamit ang aming mga v3 API, maaari kang lumikha, mamahala at mag-broadcast ng mga OTT (over-the-top) na channel, at gamitin ang lahat ng iba pang feature ng Azure Media Services gaya ng live na video on demand (VOD, video on demand), packaging at digital rights management ( DRM, pamamahala ng mga digital na karapatan).
Upang makita ang mga preview na bersyon ng mga feature na ito, bisitahin ang
Mga bagong kakayahan sa pagbuo ng package
Suporta para sa mga track ng paglalarawan ng audio
Ang pag-broadcast ng content sa mga channel ng broadcast ay kadalasang may audio track na may mga verbal na paliwanag kung ano ang nangyayari sa screen bilang karagdagan sa regular na audio signal. Ginagawa nitong mas madaling ma-access ang mga programa sa mga manonood na may kapansanan sa paningin, lalo na kung ang nilalaman ay pangunahing nakikita. Bago
Inilalagay ang metadata ng ID3
Upang hudyat ang paglalagay ng mga advertisement o custom na metadata na mga kaganapan sa player ng kliyente, kadalasang gumagamit ang mga broadcaster ng naka-time na metadata na naka-embed sa video. Bilang karagdagan sa mga SCTE-35 signaling mode, sinusuportahan din namin ngayon
Ang mga kasosyo sa Microsoft Azure ay nagpapakita ng mga end-to-end na solusyon
internasyonal na kumpanya
Pinagmulan: www.habr.com