Місія Microsoft полягає в тому, щоб дати кожній людині та організації на планеті можливість досягти більшого. Медіаіндустрія – чудовий приклад втілення цієї місії в реальність. Ми живемо в епоху, коли створюється та споживається все більше контенту, все більшими способами та на більшій кількості пристроїв. На IBC 2019 ми поділилися останніми інноваціями, над якими зараз працюємо, та розповіли про те, як вони можуть допомогти перетворити ваш медіапроцес.
Подробиці під катом!
Ця сторінка на
В Індексаторі відео з'явилася підтримка анімації та багатомовного контенту
Минулого року на IBC ми зробили загальнодоступним наш удостоєний нагород
Наші останні пропозиції включають попередні версії двох дуже затребуваних та диференційованих функцій – розпізнавання анімованих персонажів та транскрибування багатомовного мовлення, а також кілька доповнень до існуючих моделей, доступних сьогодні в Індексаторі відео.
Розпізнавання анімованих персонажів
Анімований контент, мультфільми — один із найпопулярніших типів контенту, але стандартні моделі машинного зору, створені для розпізнавання людських осіб, не дуже добре з ним працюють, особливо якщо контент має персонажів без людських рис обличчя. У новій попередній версії Індексатор відео об'єднаний зі службою Azure Custom Vision компанії Microsoft, завдяки чому з'явився новий набір моделей, які автоматично виявляють і групують анімованих персонажів і дозволяють легко розмічати і розпізнавати їх за допомогою інтегрованих моделей машинного зору.
Моделі інтегровані в єдиний конвеєр, що дозволяє будь-кому використовувати цю службу без будь-яких знань у галузі машинного навчання. Результати доступні через портал Індексатора відео, що не вимагає написання коду, або через API REST для швидкої інтеграції у ваші власні додатки.
Ми створювали ці моделі для роботи з анімованими персонажами разом із деякими споживачами, які надавали справжній анімований контент для навчання та тестування. Цінність нової функціональності добре описав Енді Гаттерідж, старший директор зі студійних технологій та постпродакшену Viacom International Media Networks, який був одним із постачальників даних: «Додавання надійної функції виявлення анімованого контенту на основі ІІ дозволить нам швидко та ефективно знаходити та каталогізувати метадані персонажів з нашої бібліотеки контенту.
Найголовніше — це дасть нашим креативним командам можливість миттєво знаходити потрібний контент, зведе до мінімуму час, який витрачається на управління медіа, і дозволить зосередитися на творчості».
Почати знайомство з розпізнаванням анімованих персонажів можна зі
Ідентифікація та транскрибування вмісту кількома мовами
Деякі медіаресурси, такі як новини, хроніки подій та інтерв'ю, містять записи промови людей, які розмовляють різними мовами. Більшість існуючих можливостей перекладу мови до тексту вимагає попередньої вказівки мови розпізнавання звуку, що ускладнює транскрибування багатомовних відеороликів.
Наша нова функція автоматичної ідентифікації розмовної мови для різних видів контенту використовує технологію машинного навчання для ідентифікації мов, які трапляються в медіаресурсах. Після виявлення кожен мовний сегмент автоматично проходить процес транскрибування відповідною мовою, а потім всі сегменти об'єднуються в один файл транскрипції, що складається з кількох мов.
Отримана розшифровка доступна у складі вихідних даних JSON Індексатора відео та у вигляді файлів із субтитрами. Вихідна розшифровка також інтегрована з Azure Search, що дозволяє відразу шукати у відеозаписах різні мовні сегменти. Крім того, багатомовна транскрипція доступна при роботі з порталом Індексатора відео, тому ви можете переглядати розшифровку та ідентифіковану мову за часом або переходити до певних місць у відео для кожної мови та бачити багатомовну транскрипцію у вигляді підписів під час відтворення відео. Можна також перекладати отриманий текст будь-якою з 54 доступних мов через портал та API.
Докладніше про нову функцію розпізнавання вмісту кількома мовами та її використання в Індексаторі відео
Додаткові оновлені та покращені моделі
Ми також додаємо в Індексатор відео нові моделі та покращуємо існуючі, включаючи описані нижче.
Вилучення сутностей, пов'язаних з людьми та місцями
Ми розширили наявні можливості з виявлення торгових марок, включивши в них відомі назви та розташування, такі як Ейфелева вежа в Парижі та Біг-Бен у Лондоні. Коли вони з'являються в розшифровці, що згенеровано, або на екрані при використанні оптичного розпізнавання символів (OCR), додаються відповідні відомості. За допомогою цієї нової функції можна здійснювати пошук за всіма людьми, місцями та брендами, які з'являлися у відео, та переглядати відомості про них, включаючи часові інтервали, описи та посилання на пошукову систему Bing для отримання додаткової інформації.
Модель виявлення кадрів для редактора
Ця нова функція додає набір тегів у метадані, прикріплені до окремих кадрів у докладних відомостях JSON, щоб представити їх редакційний тип (наприклад, широкий кадр, середній кадр, крупний план, дуже крупний план, два знімки, кілька людей, на вулиці, у приміщенні і т.д.). Ці характеристики типу кадру зручні при редагуванні відео для кліпів та трейлерів, а також при пошуку певного стилю кадрів для художніх цілей.
Розширена деталізація зіставлення IPTC
Наша модель детекції тематики визначає тему відео на основі транскрипції, оптичного розпізнавання символів (OCR) та виявлених знаменитостей навіть якщо тема не вказана явно. Ми зіставляємо ці виявлені теми із чотирма областями класифікації: Вікіпедія, Bing, IPTC та IAB. Це вдосконалення дозволяє включати класифікацію IPTC другого рівня.
Скористайтеся перевагами цих покращень так само просто, як і переіндексувати вашу поточну бібліотеку Індексатора відео.
Нова функціональність потокового мовлення у реальному часі
У попередній версії Azure Media Services ми пропонуємо дві нові функції для потокового мовлення в реальному часі.
Транскрибування в реальному часі за допомогою ІІ виводить прямі трансляції на новий рівень
Використовуючи Azure Media Services для потокової трансляції в реальному часі, ви тепер можете отримувати вихідний потік, який включає текстову доріжку, що автоматично генерується, на додаток до звукового та відеоконтенту. Текст створюється за допомогою транскрибування аудіо у реальному часі на основі штучного інтелекту. Користувацькі методи застосовуються до і після перетворення мови на текст, щоб поліпшити результати. Текстова доріжка упаковується в IMSC1, TTML або WebVTT, залежно від того, чи вона поставляється в DASH, HLS CMAF або HLS TS.
Лінійне кодування у реальному часі для цілодобових (24/7) каналів OTT
Використовуючи наші API v3, ви можете створювати канали з використанням технології OTT (over-the-top), керувати ними та вести по них прямі трансляції, а також використовувати всі інші функції Azure Media Services, такі як прямі трансляції відео на запит (VOD, video on demand), упаковка та управління цифровими правами (DRM, digital rights management).
Щоб ознайомитися з попередніми версіями цих функцій, відвідайте сторінку
Нові можливості формування пакетів
Підтримка звукових доріжок опису
Контент, що транслюється широкомовними каналами, часто має звукову доріжку з усними поясненнями того, що відбувається на екрані на додаток до звичайного аудіосигналу. Це робить програми більш доступними для людей з вадами зору глядачів, особливо якщо контент в основному візуальний. Нова
Вставка метаданих ID3
Для передачі сигналу про вставку реклами або подій користувальницьких метаданих на плеєр клієнта компанії мовлення часто використовують метадані з розбивкою за часом, вбудовані у відео. На додаток до режимів сигналізації SCTE-35 ми також підтримуємо
Партнери Microsoft Azure демонструють комплексні рішення
Міжнародна компанія
Джерело: habr.com