🥇12 новинок Azure Media Services зі штучним інтелектом

Місія Microsoft полягає в тому, щоб дати кожній людині та організації на планеті можливість досягти більшого. Медіаіндустрія – чудовий приклад втілення цієї місії в реальність. Ми живемо в епоху, коли створюється та споживається все більше контенту, все більшими способами та на більшій кількості пристроїв. На IBC 2019 ми поділилися останніми інноваціями, над якими зараз працюємо, та розповіли про те, як вони можуть допомогти перетворити ваш медіапроцес.

Подробиці під катом!

Ця сторінка на нашому сайті.

В Індексаторі відео з'явилася підтримка анімації та багатомовного контенту

Минулого року на IBC ми зробили загальнодоступним наш удостоєний нагород Індексатор відео Azure Media Services, і цього року він став ще кращим. Індексатор відео (Video Indexer) автоматично витягує з медіафайлів інформацію та метадані, такі як вимовлені слова, особи, емоції, теми та торгові марки, і вам не потрібно бути експертом з машинного навчання, щоб користуватися ним.

Наші останні пропозиції включають попередні версії двох дуже затребуваних та диференційованих функцій – розпізнавання анімованих персонажів та транскрибування багатомовного мовлення, а також кілька доповнень до існуючих моделей, доступних сьогодні в Індексаторі відео.

Розпізнавання анімованих персонажів

Анімований контент, мультфільми — один із найпопулярніших типів контенту, але стандартні моделі машинного зору, створені для розпізнавання людських осіб, не дуже добре з ним працюють, особливо якщо контент має персонажів без людських рис обличчя. У новій попередній версії Індексатор відео об'єднаний зі службою Azure Custom Vision компанії Microsoft, завдяки чому з'явився новий набір моделей, які автоматично виявляють і групують анімованих персонажів і дозволяють легко розмічати і розпізнавати їх за допомогою інтегрованих моделей машинного зору.

Моделі інтегровані в єдиний конвеєр, що дозволяє будь-кому використовувати цю службу без будь-яких знань у галузі машинного навчання. Результати доступні через портал Індексатора відео, що не вимагає написання коду, або через API REST для швидкої інтеграції у ваші власні додатки.

Ми створювали ці моделі для роботи з анімованими персонажами разом із деякими споживачами, які надавали справжній анімований контент для навчання та тестування. Цінність нової функціональності добре описав Енді Гаттерідж, старший директор зі студійних технологій та постпродакшену Viacom International Media Networks, який був одним із постачальників даних: «Додавання надійної функції виявлення анімованого контенту на основі ІІ дозволить нам швидко та ефективно знаходити та каталогізувати метадані персонажів з нашої бібліотеки контенту.

Найголовніше — це дасть нашим креативним командам можливість миттєво знаходити потрібний контент, зведе до мінімуму час, який витрачається на управління медіа, і дозволить зосередитися на творчості».

Почати знайомство з розпізнаванням анімованих персонажів можна зі сторінки документації.

Ідентифікація та транскрибування вмісту кількома мовами

Деякі медіаресурси, такі як новини, хроніки подій та інтерв'ю, містять записи промови людей, які розмовляють різними мовами. Більшість існуючих можливостей перекладу мови до тексту вимагає попередньої вказівки мови розпізнавання звуку, що ускладнює транскрибування багатомовних відеороликів.

Наша нова функція автоматичної ідентифікації розмовної мови для різних видів контенту використовує технологію машинного навчання для ідентифікації мов, які трапляються в медіаресурсах. Після виявлення кожен мовний сегмент автоматично проходить процес транскрибування відповідною мовою, а потім всі сегменти об'єднуються в один файл транскрипції, що складається з кількох мов.

Отримана розшифровка доступна у складі вихідних даних JSON Індексатора відео та у вигляді файлів із субтитрами. Вихідна розшифровка також інтегрована з Azure Search, що дозволяє відразу шукати у відеозаписах різні мовні сегменти. Крім того, багатомовна транскрипція доступна при роботі з порталом Індексатора відео, тому ви можете переглядати розшифровку та ідентифіковану мову за часом або переходити до певних місць у відео для кожної мови та бачити багатомовну транскрипцію у вигляді підписів під час відтворення відео. Можна також перекладати отриманий текст будь-якою з 54 доступних мов через портал та API.

Докладніше про нову функцію розпізнавання вмісту кількома мовами та її використання в Індексаторі відео читайте у документації.

Додаткові оновлені та покращені моделі

Ми також додаємо в Індексатор відео нові моделі та покращуємо існуючі, включаючи описані нижче.

Вилучення сутностей, пов'язаних з людьми та місцями

Ми розширили наявні можливості з виявлення торгових марок, включивши в них відомі назви та розташування, такі як Ейфелева вежа в Парижі та Біг-Бен у Лондоні. Коли вони з'являються в розшифровці, що згенеровано, або на екрані при використанні оптичного розпізнавання символів (OCR), додаються відповідні відомості. За допомогою цієї нової функції можна здійснювати пошук за всіма людьми, місцями та брендами, які з'являлися у відео, та переглядати відомості про них, включаючи часові інтервали, описи та посилання на пошукову систему Bing для отримання додаткової інформації.

Модель виявлення кадрів для редактора

Ця нова функція додає набір тегів у метадані, прикріплені до окремих кадрів у докладних відомостях JSON, щоб представити їх редакційний тип (наприклад, широкий кадр, середній кадр, крупний план, дуже крупний план, два знімки, кілька людей, на вулиці, у приміщенні і т.д.). Ці характеристики типу кадру зручні при редагуванні відео для кліпів та трейлерів, а також при пошуку певного стилю кадрів для художніх цілей.

Вивчіть докладніше виявлення типів кадрів в Індексатор відео.

Розширена деталізація зіставлення IPTC

Наша модель детекції тематики визначає тему відео на основі транскрипції, оптичного розпізнавання символів (OCR) та виявлених знаменитостей навіть якщо тема не вказана явно. Ми зіставляємо ці виявлені теми із чотирма областями класифікації: Вікіпедія, Bing, IPTC та IAB. Це вдосконалення дозволяє включати класифікацію IPTC другого рівня.
Скористайтеся перевагами цих покращень так само просто, як і переіндексувати вашу поточну бібліотеку Індексатора відео.

Нова функціональність потокового мовлення у реальному часі

У попередній версії Azure Media Services ми пропонуємо дві нові функції для потокового мовлення в реальному часі.

Транскрибування в реальному часі за допомогою ІІ виводить прямі трансляції на новий рівень

Використовуючи Azure Media Services для потокової трансляції в реальному часі, ви тепер можете отримувати вихідний потік, який включає текстову доріжку, що автоматично генерується, на додаток до звукового та відеоконтенту. Текст створюється за допомогою транскрибування аудіо у реальному часі на основі штучного інтелекту. Користувацькі методи застосовуються до і після перетворення мови на текст, щоб поліпшити результати. Текстова доріжка упаковується в IMSC1, TTML або WebVTT, залежно від того, чи вона поставляється в DASH, HLS CMAF або HLS TS.

Лінійне кодування у реальному часі для цілодобових (24/7) каналів OTT

Використовуючи наші API v3, ви можете створювати канали з використанням технології OTT (over-the-top), керувати ними та вести по них прямі трансляції, а також використовувати всі інші функції Azure Media Services, такі як прямі трансляції відео на запит (VOD, video on demand), упаковка та управління цифровими правами (DRM, digital rights management).
Щоб ознайомитися з попередніми версіями цих функцій, відвідайте сторінку спільноти Azure Media Services.

Нові можливості формування пакетів

Підтримка звукових доріжок опису

Контент, що транслюється широкомовними каналами, часто має звукову доріжку з усними поясненнями того, що відбувається на екрані на додаток до звичайного аудіосигналу. Це робить програми більш доступними для людей з вадами зору глядачів, особливо якщо контент в основному візуальний. Нова функція звукового опису дозволяє анотувати одну із звукових доріжок як доріжку аудіоопису (AD, audio description), завдяки чому програвачі можуть робити доріжку AD доступною для глядачів.

Вставка метаданих ID3

Для передачі сигналу про вставку реклами або подій користувальницьких метаданих на плеєр клієнта компанії мовлення часто використовують метадані з розбивкою за часом, вбудовані у відео. На додаток до режимів сигналізації SCTE-35 ми також підтримуємо ID3v2 та інші схеми користувача, визначені розробником програми для використання клієнтським додатком.

Партнери Microsoft Azure демонструють комплексні рішення

Бітмовін представляє Bitmovin Video Encoding та Bitmovin Video Player для Microsoft Azure. Тепер клієнти можуть застосовувати ці рішення для кодування та відтворення в Azure та використовувати передові функції, такі як триетапне кодування, підтримка кодеків AV1/VC, багатомовні субтитри та попередньо інтегрована аналітика відео для QoS, реклами та відстеження відео.

Евергентний демонструє свою платформу управління життєвим циклом користувача (User Lifecycle Management Platform) на Azure. Будучи провідним постачальником рішень для управління доходами та життєвим циклом клієнтів, компанія Evergent використовує Azure AI, щоб допомогти постачальникам розважальних послуг преміум-класу покращити процес залучення та утримання клієнтів шляхом створення цільових пакетів послуг та пропозицій у критичні моменти їхнього життєвого циклу.

Havision покаже свою інтелектуальну хмарну службу маршрутизації мультимедіа SRT Hub, яка допомагає клієнтам трансформувати робочі процеси від початку до кінця, використовуючи Azure Data Box Edge та перетворення робочих процесів за допомогою Hublets від Avid, Telestream, Wowza, Cinegy та Make.tv.

СЕС розробила пакет медіапослуг мовного класу на платформі Azure для своїх клієнтів, які користуються супутниковим зв'язком та керованими медіапослугами. SES продемонструватиме рішення для повністю керованих послуг відтворення, включаючи майстер-відтворення, локалізоване відтворення, виявлення та заміну реклами, а також високоякісне багатоканальне кодування в реальному часі 24×7 на Azure.

SyncWords робить доступними на Azure зручні хмарні інструменти та технологію автоматизації створення підписів. Ці пропозиції полегшать медійним організаціям автоматичне додавання субтитрів, зокрема іноземною мовою, в робочі процеси обробки відео в режимі реального часу та офлайн на Azure.
Міжнародна компанія Тата Елкссі, що займається проектуванням та наданням технологічних послуг, інтегрувала свою платформу OTT SaaS TEPlay у Azure Media Services для надання OTT-контенту з хмари. Tata Elxsi також перенесла до Microsoft Azure рішення для моніторингу якості взаємодії (QoE) Falcon Eye, що надає аналітику та метрики для прийняття рішень.

Verizon Media робить свою платформу потокового мовлення доступною на Azure як бета-версію. Verizon Media Platform - кероване OTT-рішення корпоративного рівня, що включає DRM, вставку реклами, індивідуальні персоналізовані сеанси, динамічну заміну контенту та доставку відео. Інтеграція спрощує робочі процеси, глобальну підтримку та масштабування та відкриває доступ до ряду унікальних можливостей, наявних у Azure.

Джерело: habr.com