12 навінак Azure Media Services са штучным інтэлектам

Місія Microsoft заключаецца ў тым, каб даць кожнаму чалавеку і арганізацыі на планеце магчымасць дасягнуць большага. Медыяіндустрыя - выдатны прыклад ўвасаблення гэтай місіі ў рэальнасць. Мы жывем у эпоху, калі ствараецца і спажываецца ўсё больш кантэнту, усё большымі спосабамі і на большай колькасці прылад. На IBC 2019 мы падзяліліся апошнімі інавацыямі, над якімі зараз працуем, і распавялі пра тое, як яны могуць дапамагчы пераўтварыць ваш медыяпрацэс.
12 навінак Azure Media Services са штучным інтэлектам
Падрабязнасці пад катом!

Гэтая старонка на нашым сайце.

У Індэксатары відэа з'явілася падтрымка анімацыі і шматмоўнага кантэнту

У мінулым годзе на IBC мы зрабілі агульнадаступным наш ганараваны ўзнагарод Індэксатар відэа Azure Media Services, і ў гэтым годзе ён стаў яшчэ лепш. Індэксатар відэа (Video Indexer) аўтаматычна здабывае з медыяфайлаў інфармацыю і метададзеныя, такія як вымаўленыя словы, твары, эмоцыі, тэмы і гандлёвыя маркі, і вам не трэба быць экспертам па машынным навучанні, каб карыстацца ім.

Нашы апошнія прапановы ўключаюць папярэднія версіі двух вельмі запатрабаваных і дыферэнцыраваных функцый - распазнання анімаваных персанажаў і транскрыбіравання шматмоўнай гаворкі, а таксама некалькі дадаткаў да існуючых мадэляў, даступным сёння ў Індэксатары відэа.

Распазнаванне анімаваных персанажаў

12 навінак Azure Media Services са штучным інтэлектам
Аніміраваны кантэнт, мультфільмы - адзін з самых папулярных тыпаў кантэнту, але стандартныя мадэлі машыннага зроку, створаныя для распазнання чалавечых асоб, не вельмі добра з ім працуюць, асабліва калі ў кантэнце ёсць персанажы без чалавечых рыс асобы. У новай папярэдняй версіі Індэксатар відэа аб'яднаны са службай Azure Custom Vision кампаніі Microsoft, дзякуючы чаму з'явіўся новы набор мадэляў, якія аўтаматычна выяўляюць і групуюць аніміраваных персанажаў і дазваляюць лёгка пазначаць і распазнаваць іх з дапамогай інтэграваных карыстацкіх мадэляў машыннага зроку.

Мадэлі інтэграваныя ў адзіны канвеер, што дазваляе каму заўгодна выкарыстоўваць гэтую службу без якіх-небудзь ведаў у галіне машыннага навучання. Вынікі даступныя праз партал Індэксатара відэа, які не патрабуе напісання кода, або праз REST API для хуткай інтэграцыі ў вашыя ўласныя прыкладанні.

Мы стваралі гэтыя мадэлі для працы з аніміраванымі персанажамі разам з некаторымі спажыўцамі, якія давалі сапраўдны аніміраваны кантэнт для навучання і тэсціравання. Каштоўнасць новай функцыянальнасці добра апісаў Эндзі Гаттэрыдж, старшы дырэктар па студыйных тэхналогіях і постпрадакшэне Viacom International Media Networks, які быў адным з пастаўшчыкоў дадзеных: «Даданне надзейнай функцыі выяўлення аніміраванага кантэнту на аснове ІІ дазволіць нам хутка і эфектыўна знаходзіць і каталагізаваць метададзеныя персанажаў з нашай бібліятэкі кантэнту.

Самае галоўнае — гэта дасць нашым крэатыўным камандам магчымасць імгненна знаходзіць патрэбны кантэнт, звядзе да мінімуму час, які затрачваецца на кіраванне медыя, і дазволіць засяродзіцца на творчасці».

Пачаць знаёмства з распазнаннем анімаваных персанажаў можна са старонкі дакументацыі.

Ідэнтыфікацыя і транскрыбаванне змесціва на некалькіх мовах

Некаторыя медыярэсурсы, такія як навіны, хронікі падзей і інтэрв'ю, змяшчаюць запісы прамовы людзей, якія размаўляюць на розных мовах. Большасць існуючых магчымасцяў перакладу прамовы ў тэкст патрабуе папярэдняга ўказання мовы распазнання гуку, што абцяжарвае транскрыбаванне шматмоўных відэаролікаў.

Наша новая функцыя аўтаматычнай ідэнтыфікацыі размоўнай мовы для розных відаў кантэнту выкарыстоўвае тэхналогію машыннага навучання для ідэнтыфікацыі моў, якія сустракаюцца ў медыярэсурсах. Пасля выяўлення кожны моўны сегмент аўтаматычна праходзіць працэс транскрыбіравання на адпаведнай мове, а затым усе сегменты аб'ядноўваюцца ў адзін файл транскрыпцыі, які складаецца з некалькіх моў.

12 навінак Azure Media Services са штучным інтэлектам

Атрыманая расшыфроўка даступная ў складзе выходных дадзеных JSON Індэксатара відэа і ў выглядзе файлаў з субтытрамі. Выходная расшыфроўка таксама інтэграваная з Azure Search, што дазваляе адразу ж шукаць у відэазапісах розныя моўныя сегменты. Акрамя таго, шматмоўная транскрыпцыя даступная пры працы з парталам Індэксатара відэа, так што вы можаце праглядаць расшыфроўку і ідэнтыфікаваную мову па часе або пераходзіць да вызначаных месцаў у відэа для кожнай мовы і бачыць шматмоўную транскрыпцыю ў выглядзе подпісаў падчас прайгравання відэа. Можна таксама перакладаць атрыманы тэкст на любую з 54 даступных моў праз партал і API.

Падрабязней аб новай функцыі распазнання змесціва на некалькіх мовах і яе выкарыстанні ў Індэксатары відэа чытайце ў дакументацыі.

Дадатковыя абноўленыя і палепшаныя мадэлі

Мы таксама дадаем у Індэксатар відэа новыя мадэлі і паляпшаем існуючыя, у тым ліку апісаныя ніжэй.

Выманне сутнасцяў, звязаных з людзьмі і месцамі

Мы пашырылі наяўныя магчымасці па выяўленні гандлёвых марак, уключыўшы ў іх вядомыя назвы і месцазнаходжання, такія як Эйфелева вежа ў Парыжы і Біг-Бэн у Лондане. Калі яны з'яўляюцца ў згенераванай расшыфроўцы або на экране пры выкарыстанні аптычнага распазнання сімвалаў (OCR), дадаюцца адпаведныя звесткі. З дапамогай гэтай новай функцыі можна выконваць пошук па ўсіх людзях, месцах і брэндах, якія з'яўляліся ў відэа, і праглядаць звесткі пра іх, у тым ліку часовыя інтэрвалы, апісанні і спасылкі на пошукавую сістэму Bing для атрымання дадатковай інфармацыі.

12 навінак Azure Media Services са штучным інтэлектам

Мадэль выяўлення кадраў для рэдактара

Гэтая новая функцыя дадае набор "тэгаў" у метададзеныя, прымацаваныя да асобных кадраў у падрабязных звестках JSON, каб прадставіць іх рэдакцыйны тып (напрыклад, шырокі кадр, сярэдні кадр, буйны план, вельмі буйны план, два здымкі, некалькі чалавек, на вуліцы, у памяшканні і г.д.). Гэтыя характарыстыкі тыпу кадра зручныя пры рэдагаванні відэа для кліпаў і трэйлераў, а таксама пры пошуку вызначанага стылю кадраў для мастацкіх мэт.

12 навінак Azure Media Services са штучным інтэлектам
Вывучыце падрабязней выяўленне тыпаў кадраў у Індэксатары відэа.

Пашыраная дэталізацыя супастаўлення IPTC

Наша мадэль дэтэкцыі тэматыкі вызначае тэму відэа на аснове транскрыпцыі, аптычнага распазнання сімвалаў (OCR) і выяўленых знакамітасцяў, нават калі тэма не пазначана відавочна. Мы супастаўляем гэтыя выяўленыя тэмы з чатырма абласцямі класіфікацыі: Вікіпедыя, Bing, IPTC і IAB. Гэтае ўдасканаленне дазваляе нам уключаць класіфікацыю IPTC другога ўзроўню.
Скарыстацца перавагамі гэтых паляпшэнняў гэтак жа проста, як і пераіндэксаваць вашу бягучую бібліятэку Індэксатара відэа.

Новая функцыянальнасць струменевага вяшчання ў рэальным часе

У папярэдняй версіі Azure Media Services мы прапануем таксама дзве новыя функцыі для струменевага вяшчання ў рэальным часе.

Транскрыбаванне ў рэальным часе з дапамогай ІІ выводзіць прамыя трансляцыі на новы ўзровень

Выкарыстоўваючы Azure Media Services для струменевай трансляцыі ў рэальным часе, вы зараз можаце атрымліваць выходны струмень, які ўключае аўтаматычна генераваную тэкставую дарожку ў дадатак да гукавога і відэакантэнту. Тэкст ствараецца з дапамогай транскрыбіравання аўдыё ў рэальным часе на аснове штучнага інтэлекту. Карыстальніцкія метады прымяняюцца да і пасля пераўтварэння прамовы ў тэкст, каб палепшыць вынікі. Тэкставая дарожка пакуецца ў IMSC1, TTML або WebVTT, у залежнасці ад таго, ці пастаўляецца яна ў DASH, HLS CMAF або HLS TS.

Лінейнае кадаваньне ў рэальным часе для кругласутачных (24/7) каналаў OTT

Выкарыстоўваючы нашы API v3, вы можаце ствараць каналы з выкарыстаннем тэхналогіі OTT (over-the-top), кіраваць імі і весці па іх прамыя трансляцыі, а таксама выкарыстоўваць усе астатнія функцыі Azure Media Services, такія як прамыя трансляцыі відэа па запыце (VOD, video on demand), упакоўка і кіраванне лічбавымі правамі (DRM, digital rights management).
Каб пазнаёміцца ​​з папярэднімі версіямі гэтых функцый, наведайце старонку супольнасці Azure Media Services.

12 навінак Azure Media Services са штучным інтэлектам

Новыя магчымасці фарміравання пакетаў

Падтрымка гукавых дарожак апісання

Кантэнт, які транслюецца па шырокавяшчальных каналах, часта мае гукавую дарожку з вуснымі тлумачэннямі адбывалага на экране ў дадатак да звычайнага аўдыёсігналу. Гэта робіць праграмы больш даступнымі для са слабым зрокам гледачоў, асабліва калі кантэнт у асноўным візуальны. Новая функцыя гукавога апісання дазваляе анатаваць адну з гукавых дарожак як дарожку аўдыёапісання (AD, audio description), дзякуючы чаму прайгравальнікі могуць рабіць AD-дарожку даступнай для гледачоў.

Устаўка метададзеных ID3

Для перадачы сігналу аб устаўцы рэкламы або падзей карыстацкіх метададзеных на плэер кліента вяшчальныя кампаніі часта выкарыстоўваюць метададзеныя з разбіўкай па часе, убудаваныя ў відэа. У дадатак да рэжымаў сігналізацыі SCTE-35 мы зараз таксама падтрымліваем ID3v2 і іншыя прыстасаваныя схемы, Пэўныя распрацоўшчыкам прыкладання для выкарыстання кліенцкім дадаткам.

Партнёры Microsoft Azure дэманструюць комплексныя рашэнні

Бітмавін прадстаўляе Bitmovin Video Encoding і Bitmovin Video Player для Microsoft Azure. Зараз кліенты могуць ужываць гэтыя рашэнні для кадавання і прайграванні ў Azure і выкарыстоўваць перадавыя функцыі, такія як трохэтапнае кадаваньне, падтрымка кодэкаў AV1/VC, шматмоўныя субтытры і папярэдне інтэграваная аналітыка відэа для QoS, рэкламы і адсочванні відэа.

Эвергент дэманструе сваю платформу кіравання жыццёвым цыклам карыстальніка (User Lifecycle Management Platform) на Azure. З'яўляючыся вядучым пастаўшчыком рашэнняў для кіравання даходамі і жыццёвым цыклам кліентаў, кампанія Evergent выкарыстоўвае Azure AI, каб дапамагчы пастаўшчыкам забаўляльных паслуг прэміум-класа палепшыць працэс прыцягнення і ўтрымання кліентаў шляхам стварэння мэтавых пакетаў паслуг і прапаноў у крытычныя моманты іх жыццёвага цыклу.

Haivision пакажа сваю інтэлектуальную хмарную службу маршрутызацыі мультымедыя, SRT Hub, якая дапамагае кліентам трансфармаваць працоўныя працэсы ад пачатку да канца, выкарыстоўваючы Azure Data Box Edge і пераўтварэнне працоўных працэсаў з дапамогай Hublets ад Avid, Telestream, Wowza, Cinegy і Make.tv.

SES распрацавала пакет медыяпаслуг вяшчальнага класа на платформе Azure для сваіх кліентаў, якія карыстаюцца спадарожнікавай сувяззю і кіраванымі медыяпаслугамі. SES прадэманструе рашэнні для цалкам кіраваных паслуг прайгравання, у тым ліку майстар-прайграванне, лакалізаванае прайграванне, выяўленне і замену рэкламы, а таксама высакаякаснае шматканальнае кадаваньне ў рэальным часе 24×7 на Azure.

SyncWords робіць даступнымі на Azure зручныя хмарныя прылады і тэхналогію аўтаматызацыі стварэння подпісаў. Гэтыя прапановы аблегчаць медыйным арганізацыям аўтаматычнае даданне субтытраў, у тым ліку на замежнай мове, у працоўныя працэсы апрацоўкі відэа ў рэжыме рэальнага часу і афлайн на Azure.
Міжнародная кампанія Тата Эльсі, якая займаецца праектаваннем і прадастаўленнем тэхналагічных паслуг, інтэгравала сваю платформу OTT SaaS TEPlay у Azure Media Services для прадастаўлення OTT-кантэнту з аблокі. Tata Elxsi таксама перанесла ў Microsoft Azure рашэнне для маніторынгу якасці ўзаемадзеяння (QoE) Falcon Eye, якое прадстаўляе аналітыку і метрыкі для прыняцця рашэнняў.

Verizon Media робіць сваю платформу струменевага вяшчання даступнай на Azure у якасці бэта-версіі. Verizon Media Platform - кіраванае OTT-рашэнне карпаратыўнага ўзроўню, якое ўключае DRM, устаўку рэкламы, індывідуальныя персаналізаваныя сеансы, дынамічную замену кантэнту і дастаўку відэа. Інтэграцыя спрашчае працоўныя працэсы, глабальную падтрымку і маштабаванне і адчыняе доступ да шэрагу ўнікальных магчымасцяў, наяўных у Azure.

Крыніца: habr.com

Дадаць каментар