Місія Microsoft заключаецца ў тым, каб даць кожнаму чалавеку і арганізацыі на планеце магчымасць дасягнуць большага. Медыяіндустрыя - выдатны прыклад ўвасаблення гэтай місіі ў рэальнасць. Мы жывем у эпоху, калі ствараецца і спажываецца ўсё больш кантэнту, усё большымі спосабамі і на большай колькасці прылад. На IBC 2019 мы падзяліліся апошнімі інавацыямі, над якімі зараз працуем, і распавялі пра тое, як яны могуць дапамагчы пераўтварыць ваш медыяпрацэс.
Падрабязнасці пад катом!
Гэтая старонка на
У Індэксатары відэа з'явілася падтрымка анімацыі і шматмоўнага кантэнту
У мінулым годзе на IBC мы зрабілі агульнадаступным наш ганараваны ўзнагарод
Нашы апошнія прапановы ўключаюць папярэднія версіі двух вельмі запатрабаваных і дыферэнцыраваных функцый - распазнання анімаваных персанажаў і транскрыбіравання шматмоўнай гаворкі, а таксама некалькі дадаткаў да існуючых мадэляў, даступным сёння ў Індэксатары відэа.
Распазнаванне анімаваных персанажаў
Аніміраваны кантэнт, мультфільмы - адзін з самых папулярных тыпаў кантэнту, але стандартныя мадэлі машыннага зроку, створаныя для распазнання чалавечых асоб, не вельмі добра з ім працуюць, асабліва калі ў кантэнце ёсць персанажы без чалавечых рыс асобы. У новай папярэдняй версіі Індэксатар відэа аб'яднаны са службай Azure Custom Vision кампаніі Microsoft, дзякуючы чаму з'явіўся новы набор мадэляў, якія аўтаматычна выяўляюць і групуюць аніміраваных персанажаў і дазваляюць лёгка пазначаць і распазнаваць іх з дапамогай інтэграваных карыстацкіх мадэляў машыннага зроку.
Мадэлі інтэграваныя ў адзіны канвеер, што дазваляе каму заўгодна выкарыстоўваць гэтую службу без якіх-небудзь ведаў у галіне машыннага навучання. Вынікі даступныя праз партал Індэксатара відэа, які не патрабуе напісання кода, або праз REST API для хуткай інтэграцыі ў вашыя ўласныя прыкладанні.
Мы стваралі гэтыя мадэлі для працы з аніміраванымі персанажамі разам з некаторымі спажыўцамі, якія давалі сапраўдны аніміраваны кантэнт для навучання і тэсціравання. Каштоўнасць новай функцыянальнасці добра апісаў Эндзі Гаттэрыдж, старшы дырэктар па студыйных тэхналогіях і постпрадакшэне Viacom International Media Networks, які быў адным з пастаўшчыкоў дадзеных: «Даданне надзейнай функцыі выяўлення аніміраванага кантэнту на аснове ІІ дазволіць нам хутка і эфектыўна знаходзіць і каталагізаваць метададзеныя персанажаў з нашай бібліятэкі кантэнту.
Самае галоўнае — гэта дасць нашым крэатыўным камандам магчымасць імгненна знаходзіць патрэбны кантэнт, звядзе да мінімуму час, які затрачваецца на кіраванне медыя, і дазволіць засяродзіцца на творчасці».
Пачаць знаёмства з распазнаннем анімаваных персанажаў можна са
Ідэнтыфікацыя і транскрыбаванне змесціва на некалькіх мовах
Некаторыя медыярэсурсы, такія як навіны, хронікі падзей і інтэрв'ю, змяшчаюць запісы прамовы людзей, якія размаўляюць на розных мовах. Большасць існуючых магчымасцяў перакладу прамовы ў тэкст патрабуе папярэдняга ўказання мовы распазнання гуку, што абцяжарвае транскрыбаванне шматмоўных відэаролікаў.
Наша новая функцыя аўтаматычнай ідэнтыфікацыі размоўнай мовы для розных відаў кантэнту выкарыстоўвае тэхналогію машыннага навучання для ідэнтыфікацыі моў, якія сустракаюцца ў медыярэсурсах. Пасля выяўлення кожны моўны сегмент аўтаматычна праходзіць працэс транскрыбіравання на адпаведнай мове, а затым усе сегменты аб'ядноўваюцца ў адзін файл транскрыпцыі, які складаецца з некалькіх моў.
Атрыманая расшыфроўка даступная ў складзе выходных дадзеных JSON Індэксатара відэа і ў выглядзе файлаў з субтытрамі. Выходная расшыфроўка таксама інтэграваная з Azure Search, што дазваляе адразу ж шукаць у відэазапісах розныя моўныя сегменты. Акрамя таго, шматмоўная транскрыпцыя даступная пры працы з парталам Індэксатара відэа, так што вы можаце праглядаць расшыфроўку і ідэнтыфікаваную мову па часе або пераходзіць да вызначаных месцаў у відэа для кожнай мовы і бачыць шматмоўную транскрыпцыю ў выглядзе подпісаў падчас прайгравання відэа. Можна таксама перакладаць атрыманы тэкст на любую з 54 даступных моў праз партал і API.
Падрабязней аб новай функцыі распазнання змесціва на некалькіх мовах і яе выкарыстанні ў Індэксатары відэа
Дадатковыя абноўленыя і палепшаныя мадэлі
Мы таксама дадаем у Індэксатар відэа новыя мадэлі і паляпшаем існуючыя, у тым ліку апісаныя ніжэй.
Выманне сутнасцяў, звязаных з людзьмі і месцамі
Мы пашырылі наяўныя магчымасці па выяўленні гандлёвых марак, уключыўшы ў іх вядомыя назвы і месцазнаходжання, такія як Эйфелева вежа ў Парыжы і Біг-Бэн у Лондане. Калі яны з'яўляюцца ў згенераванай расшыфроўцы або на экране пры выкарыстанні аптычнага распазнання сімвалаў (OCR), дадаюцца адпаведныя звесткі. З дапамогай гэтай новай функцыі можна выконваць пошук па ўсіх людзях, месцах і брэндах, якія з'яўляліся ў відэа, і праглядаць звесткі пра іх, у тым ліку часовыя інтэрвалы, апісанні і спасылкі на пошукавую сістэму Bing для атрымання дадатковай інфармацыі.
Мадэль выяўлення кадраў для рэдактара
Гэтая новая функцыя дадае набор "тэгаў" у метададзеныя, прымацаваныя да асобных кадраў у падрабязных звестках JSON, каб прадставіць іх рэдакцыйны тып (напрыклад, шырокі кадр, сярэдні кадр, буйны план, вельмі буйны план, два здымкі, некалькі чалавек, на вуліцы, у памяшканні і г.д.). Гэтыя характарыстыкі тыпу кадра зручныя пры рэдагаванні відэа для кліпаў і трэйлераў, а таксама пры пошуку вызначанага стылю кадраў для мастацкіх мэт.
Пашыраная дэталізацыя супастаўлення IPTC
Наша мадэль дэтэкцыі тэматыкі вызначае тэму відэа на аснове транскрыпцыі, аптычнага распазнання сімвалаў (OCR) і выяўленых знакамітасцяў, нават калі тэма не пазначана відавочна. Мы супастаўляем гэтыя выяўленыя тэмы з чатырма абласцямі класіфікацыі: Вікіпедыя, Bing, IPTC і IAB. Гэтае ўдасканаленне дазваляе нам уключаць класіфікацыю IPTC другога ўзроўню.
Скарыстацца перавагамі гэтых паляпшэнняў гэтак жа проста, як і пераіндэксаваць вашу бягучую бібліятэку Індэксатара відэа.
Новая функцыянальнасць струменевага вяшчання ў рэальным часе
У папярэдняй версіі Azure Media Services мы прапануем таксама дзве новыя функцыі для струменевага вяшчання ў рэальным часе.
Транскрыбаванне ў рэальным часе з дапамогай ІІ выводзіць прамыя трансляцыі на новы ўзровень
Выкарыстоўваючы Azure Media Services для струменевай трансляцыі ў рэальным часе, вы зараз можаце атрымліваць выходны струмень, які ўключае аўтаматычна генераваную тэкставую дарожку ў дадатак да гукавога і відэакантэнту. Тэкст ствараецца з дапамогай транскрыбіравання аўдыё ў рэальным часе на аснове штучнага інтэлекту. Карыстальніцкія метады прымяняюцца да і пасля пераўтварэння прамовы ў тэкст, каб палепшыць вынікі. Тэкставая дарожка пакуецца ў IMSC1, TTML або WebVTT, у залежнасці ад таго, ці пастаўляецца яна ў DASH, HLS CMAF або HLS TS.
Лінейнае кадаваньне ў рэальным часе для кругласутачных (24/7) каналаў OTT
Выкарыстоўваючы нашы API v3, вы можаце ствараць каналы з выкарыстаннем тэхналогіі OTT (over-the-top), кіраваць імі і весці па іх прамыя трансляцыі, а таксама выкарыстоўваць усе астатнія функцыі Azure Media Services, такія як прамыя трансляцыі відэа па запыце (VOD, video on demand), упакоўка і кіраванне лічбавымі правамі (DRM, digital rights management).
Каб пазнаёміцца з папярэднімі версіямі гэтых функцый, наведайце старонку
Новыя магчымасці фарміравання пакетаў
Падтрымка гукавых дарожак апісання
Кантэнт, які транслюецца па шырокавяшчальных каналах, часта мае гукавую дарожку з вуснымі тлумачэннямі адбывалага на экране ў дадатак да звычайнага аўдыёсігналу. Гэта робіць праграмы больш даступнымі для са слабым зрокам гледачоў, асабліва калі кантэнт у асноўным візуальны. Новая
Устаўка метададзеных ID3
Для перадачы сігналу аб устаўцы рэкламы або падзей карыстацкіх метададзеных на плэер кліента вяшчальныя кампаніі часта выкарыстоўваюць метададзеныя з разбіўкай па часе, убудаваныя ў відэа. У дадатак да рэжымаў сігналізацыі SCTE-35 мы зараз таксама падтрымліваем
Партнёры Microsoft Azure дэманструюць комплексныя рашэнні
Міжнародная кампанія
Крыніца: habr.com