12 nuevos servicios multimedia de Azure con IA

La misión de Microsoft es capacitar a todas las personas y organizaciones del planeta para que logren más. La industria de los medios es un gran ejemplo de cómo hacer realidad esta misión. Vivimos en una era en la que se crea y consume más contenido, de más formas y en más dispositivos. En IBC 2019, compartimos las últimas innovaciones en las que estamos trabajando y cómo pueden ayudar a transformar su experiencia mediática.
12 nuevos servicios multimedia de Azure con IA
¡Detalles bajo el corte!

Esta página está en nuestra página web.

Video Indexer ahora admite animación y contenido multilingüe

El año pasado en IBC hicimos nuestro premiado Indexador de vídeo de Azure Media Services, y este año fue aún mejor. Video Indexer extrae automáticamente información y metadatos de archivos multimedia, como palabras habladas, rostros, emociones, temas y marcas, y no es necesario ser un experto en aprendizaje automático para usarlo.

Nuestras últimas ofertas incluyen vistas previas de dos características diferenciadas y muy buscadas: reconocimiento de caracteres animados y transcripción de voz multilingüe, así como varias adiciones a los modelos existentes disponibles hoy en Video Indexer.

Reconocimiento de personajes animados

12 nuevos servicios multimedia de Azure con IA
El contenido animado es uno de los tipos de contenido más populares, pero los modelos estándar de visión por computadora diseñados para reconocer rostros humanos no funcionan bien con él, especialmente si el contenido contiene personajes sin rasgos faciales humanos. La nueva versión preliminar combina Video Indexer con el servicio Azure Custom Vision de Microsoft, ofreciendo un nuevo conjunto de modelos que detectan y agrupan automáticamente personajes animados y los hacen fáciles de etiquetar y reconocer utilizando modelos de visión personalizados integrados.

Los modelos están integrados en un único canal, lo que permite que cualquiera pueda utilizar el servicio sin ningún conocimiento de aprendizaje automático. Los resultados están disponibles a través de un portal Video Indexer sin código o mediante una API REST para una rápida integración en sus propias aplicaciones.

Construimos estos modelos para trabajar con personajes animados junto con algunos consumidores que proporcionaron contenido animado real para capacitación y prueba. Andy Gutteridge, director senior de tecnología de estudio y postproducción de Viacom International Media Networks, quien fue uno de los proveedores de datos, resumió bien el valor de la nueva funcionalidad: “La incorporación de un sólido descubrimiento de contenido animado impulsado por IA permitirá permitirnos encontrar y catalogar de manera rápida y eficiente metadatos de caracteres del contenido de nuestra biblioteca.

Lo más importante es que brindará a nuestros equipos creativos la capacidad de encontrar instantáneamente el contenido que necesitan, minimizando el tiempo dedicado a administrar los medios y permitiéndoles concentrarse en la creatividad”.

Puedes empezar a familiarizarte con el reconocimiento de personajes animados con páginas de documentación.

Identificación y transcripción de contenidos en múltiples idiomas.

Algunos recursos mediáticos, como noticias, crónicas y entrevistas, contienen grabaciones de personas que hablan diferentes idiomas. La mayoría de las capacidades de conversión de voz a texto existentes requieren que el idioma de reconocimiento de audio se especifique de antemano, lo que dificulta la transcripción de vídeos multilingües.

Nuestra nueva función de identificación automática del idioma hablado para varios tipos de contenido utiliza tecnología de aprendizaje automático para identificar los idiomas que se encuentran en los recursos multimedia. Una vez detectado, cada segmento de idioma pasa automáticamente por un proceso de transcripción en el idioma apropiado y luego todos los segmentos se combinan en un único archivo de transcripción en varios idiomas.

12 nuevos servicios multimedia de Azure con IA

La transcripción resultante está disponible como parte de la salida JSON del Video Indexer y como archivos de subtítulos. La transcripción de salida también está integrada con Azure Search, lo que le permite buscar inmediatamente segmentos de diferentes idiomas en sus videos. Además, la transcripción multilingüe está disponible cuando se trabaja con el portal Video Indexer, por lo que puede ver la transcripción y el idioma identificado a lo largo del tiempo, o saltar a lugares específicos del video para cada idioma y ver la transcripción multilingüe como subtítulos a medida que se reproduce el video. También podrás traducir el texto recibido a cualquiera de los 54 idiomas disponibles a través del portal y API.

Obtenga más información sobre la nueva función de reconocimiento de contenido multilingüe y cómo se utiliza en Video Indexer. lee la documentación.

Modelos adicionales actualizados y mejorados.

También estamos agregando nuevos modelos a Video Indexer y mejorando los existentes, incluidos los que se describen a continuación.

Extracción de entidades asociadas a personas y lugares.

Hemos ampliado nuestras capacidades de descubrimiento de marcas existentes para incluir nombres y ubicaciones conocidos, como la Torre Eiffel en París y el Big Ben en Londres. Cuando aparecen en la transcripción generada o en la pantalla mediante reconocimiento óptico de caracteres (OCR), se agrega la información relevante. Con esta nueva característica, puedes buscar todas las personas, lugares y marcas que aparecieron en un video y ver detalles sobre ellos, incluyendo franjas horarias, descripciones y enlaces al motor de búsqueda Bing para obtener más información.

12 nuevos servicios multimedia de Azure con IA

Modelo de detección de fotogramas para editor.

Esta nueva característica agrega un conjunto de "etiquetas" a los metadatos adjuntos a fotogramas individuales en los detalles JSON para representar su tipo editorial (por ejemplo, plano amplio, plano medio, primer plano, primer plano extremo, dos planos, varias personas). , exterior, interior, etc.). Estas características de tipo de toma son útiles al editar videos para clips y avances, o cuando se busca un estilo de toma específico con fines artísticos.

12 nuevos servicios multimedia de Azure con IA
Aprende más Detección de tipo de fotograma en Video Indexer.

Granularidad de mapeo IPTC mejorada

Nuestro modelo de detección de temas determina el tema de un vídeo basándose en la transcripción, el reconocimiento óptico de caracteres (OCR) y las celebridades detectadas, incluso si el tema no se especifica explícitamente. Asignamos estos temas detectados a cuatro áreas de clasificación: Wikipedia, Bing, IPTC e IAB. Esta mejora nos permite incluir la clasificación IPTC de segundo nivel.
Aprovechar estas mejoras es tan fácil como volver a indexar su biblioteca actual de Video Indexer.

Nueva funcionalidad de transmisión en vivo

En la versión preliminar de Azure Media Services, también ofrecemos dos características nuevas para la transmisión en vivo.

La transcripción en tiempo real impulsada por IA lleva la transmisión en vivo al siguiente nivel

Al utilizar Azure Media Services para la transmisión en vivo, ahora puede recibir una secuencia de salida que incluye una pista de texto generada automáticamente además de contenido de audio y video. El texto se crea mediante transcripción de audio en tiempo real basada en inteligencia artificial. Se aplican técnicas personalizadas antes y después de la conversión de voz a texto para mejorar los resultados. La pista de texto está empaquetada en IMSC1, TTML o WebVTT, dependiendo de si se suministra en DASH, HLS CMAF o HLS TS.

Codificación de línea en tiempo real para canales OTT 24 horas al día, 7 días a la semana

Con nuestras API v3, puede crear, administrar y transmitir canales OTT (over-the-top) y usar todas las demás funciones de Azure Media Services, como video en vivo a pedido (VOD, video a pedido), empaquetado y administración de derechos digitales ( DRM, gestión de derechos digitales).
Para ver versiones preliminares de estas funciones, visite Comunidad de servicios multimedia de Azure.

12 nuevos servicios multimedia de Azure con IA

Nuevas capacidades de generación de paquetes.

Soporte para pistas de descripción de audio.

El contenido transmitido a través de canales de transmisión suele tener una pista de audio con explicaciones verbales de lo que sucede en la pantalla, además de la señal de audio habitual. Esto hace que los programas sean más accesibles para los espectadores con discapacidad visual, especialmente si el contenido es principalmente visual. Nuevo función de descripción de audio le permite anotar una de las pistas de audio como una pista de descripción de audio (AD, descripción de audio), lo que permite a los reproductores poner la pista AD a disposición de los espectadores.

Insertar metadatos ID3

Para señalar la inserción de anuncios o eventos de metadatos personalizados al reproductor del cliente, las emisoras suelen utilizar metadatos cronometrados incrustados en el vídeo. Además de los modos de señalización SCTE-35, ahora también admitimos ID3v2 y otros esquemas personalizados, definido por el desarrollador de la aplicación para su uso por la aplicación cliente.

Los socios de Microsoft Azure demuestran soluciones de un extremo a otro

Bitmovin presenta Bitmovin Video Encoding y Bitmovin Video Player para Microsoft Azure. Los clientes ahora pueden aprovechar estas soluciones de codificación y reproducción en Azure y beneficiarse de funciones avanzadas como codificación de tres etapas, compatibilidad con códec AV1/VC, subtítulos multilingües y análisis de video preintegrados para QoS, publicidad y seguimiento de video.

Evergente demuestra su plataforma de gestión del ciclo de vida del usuario en Azure. Como proveedor líder de soluciones de administración del ciclo de vida del cliente y de ingresos, Evergent utiliza Azure AI para ayudar a los proveedores de entretenimiento premium a mejorar la adquisición y retención de clientes mediante la creación de paquetes de servicios y ofertas específicos en puntos críticos del ciclo de vida del cliente.

Haivision mostrará su servicio inteligente de enrutamiento de medios basado en la nube, SRT Hub, que ayuda a los clientes a transformar los flujos de trabajo de un extremo a otro utilizando Borde del cuadro de datos de Azure y transformar flujos de trabajo con Hublets de Avid, Telestream, Wowza, Cinegy y Make.tv.

SES ha desarrollado un conjunto de servicios de medios de transmisión en la plataforma Azure para sus clientes de servicios de medios administrados y satelitales. SES demostrará soluciones para servicios de reproducción totalmente administrados, incluida la reproducción maestra, la reproducción localizada, el descubrimiento y reemplazo de anuncios y la codificación multicanal de alta calidad en tiempo real 24 horas al día, 7 días a la semana en Azure.

Sincronizar palabras pone a disposición en Azure herramientas prácticas en la nube y tecnología de automatización de firmas. Estas ofertas facilitarán a las organizaciones de medios agregar automáticamente subtítulos, incluidos subtítulos en idiomas extranjeros, a sus flujos de trabajo de video en vivo y sin conexión en Azure.
Compañia internacional Tata Elxsi, una empresa de servicios tecnológicos, ha integrado su plataforma OTT SaaS TEPlay en Azure Media Services para ofrecer contenido OTT desde la nube. Tata Elxsi también ha llevado su solución de monitorización de calidad de experiencia (QoE) Falcon Eye a Microsoft Azure, proporcionando análisis y métricas para la toma de decisiones.

Verizon Media está haciendo que su plataforma de transmisión esté disponible en Azure como una versión beta. Verizon Media Platform es una solución OTT administrada de nivel empresarial que incluye DRM, inserción de anuncios, sesiones personalizadas uno a uno, reemplazo dinámico de contenido y entrega de video. La integración simplifica los flujos de trabajo, el soporte global y la escala, y desbloquea algunas de las capacidades únicas que se encuentran en Azure.

Fuente: habr.com

Añadir un comentario