12 novos Azure Media Services con intelixencia artificial

A misión de Microsoft é capacitar a cada persoa e organización do planeta para lograr máis. A industria dos medios é un gran exemplo de facer realidade esta misión. Vivimos nunha época na que se crean e consumen máis contidos, de máis formas e en máis dispositivos. No IBC 2019, compartimos as últimas innovacións nas que estamos traballando e como poden axudar a transformar a túa experiencia multimedia.
12 novos Azure Media Services con intelixencia artificial
Detalles baixo o corte!

Esta páxina está activada o noso sitio web.

Video Indexer agora admite animación e contido multilingüe

O ano pasado no IBC fixemos o noso galardonado Azure Media Services Video Indexer, e este ano foi aínda mellor. Video Indexer extrae automaticamente información e metadatos de ficheiros multimedia, como palabras faladas, rostros, emocións, temas e marcas, e non é necesario ser un experto en aprendizaxe automática para usalo.

As nosas ofertas máis recentes inclúen vista previa de dúas funcións moi demandadas e diferenciadas: recoñecemento de personaxes animados e transcrición de voz multilingüe, así como varias incorporacións aos modelos existentes dispoñibles hoxe en Video Indexer.

Recoñecemento de personaxes animados

12 novos Azure Media Services con intelixencia artificial
O contido animado é un dos tipos de contido máis populares, pero os modelos estándar de visión por ordenador deseñados para recoñecer rostros humanos non funcionan ben con el, especialmente se o contido contén personaxes sen características faciais humanas. A nova versión de vista previa combina Video Indexer co servizo Azure Custom Vision de Microsoft, ofrecendo un novo conxunto de modelos que detectan e agrupan automaticamente personaxes animados e facilitan etiquetalos e recoñecelos mediante modelos de visión personalizados integrados.

Os modelos están integrados nunha única canalización, o que permite que calquera persoa utilice o servizo sen ningún coñecemento de aprendizaxe automática. Os resultados están dispoñibles a través dun portal Video Indexer sen código ou a través dunha API REST para unha rápida integración nas súas propias aplicacións.

Creamos estes modelos para traballar con personaxes animados xunto con algúns consumidores que proporcionaron contido animado real para adestrar e probar. O valor da nova funcionalidade foi ben resumido por Andy Gutteridge, director sénior de tecnoloxía de estudo e posprodución de Viacom International Media Networks, quen foi un dos provedores de datos: "A adición de un sólido descubrimento de contido animado impulsado pola intelixencia artificial permitirá para atopar e catalogar de forma rápida e eficiente metadatos de caracteres do contido da nosa biblioteca.

O máis importante é que dará aos nosos equipos creativos a capacidade de atopar ao instante o contido que necesitan, minimizando o tempo dedicado á xestión dos medios e permitíndolles centrarse na creatividade".

Podes comezar a familiarizarte co recoñecemento de personaxes animados páxinas de documentación.

Identificación e transcrición de contidos en múltiples linguas

Algúns recursos mediáticos, como noticias, crónicas e entrevistas, conteñen gravacións de persoas que falan diferentes idiomas. A maioría das capacidades de conversión de voz a texto existentes requiren que se especifique previamente o idioma de recoñecemento de audio, o que dificulta a transcrición de vídeos multilingües.

A nosa nova función de identificación automática da lingua falada para varios tipos de contido utiliza tecnoloxía de aprendizaxe automática para identificar as linguas que se atopan nos recursos multimedia. Unha vez detectado, cada segmento de idioma pasa automaticamente por un proceso de transcrición no idioma apropiado e, a continuación, todos os segmentos combínanse nun único ficheiro de transcrición multilingüe.

12 novos Azure Media Services con intelixencia artificial

A transcrición resultante está dispoñible como parte da saída JSON do Video Indexer e como ficheiros de subtítulos. A transcrición de saída tamén está integrada con Azure Search, o que lle permite buscar inmediatamente diferentes segmentos de idioma nos seus vídeos. Ademais, a transcrición multilingüe está dispoñible cando se traballa co portal Video Indexer, polo que pode ver a transcrición e o idioma identificado ao longo do tempo, ou ir a lugares específicos do vídeo para cada idioma e ver a transcrición multilingüe como subtítulos mentres se reproduce o vídeo. Tamén podes traducir o texto recibido a calquera dos 54 idiomas dispoñibles a través do portal e da API.

Obtén máis información sobre a nova función de recoñecemento de contido multilingüe e como se usa en Video Indexer ler a documentación.

Modelos adicionais actualizados e mellorados

Tamén estamos engadindo novos modelos ao Video Indexer e mellorando os existentes, incluídos os que se describen a continuación.

Extraer entidades asociadas a persoas e lugares

Ampliamos as nosas capacidades de descubrimento de marca existentes para incluír nomes e localizacións coñecidos, como a Torre Eiffel en París e o Big Ben en Londres. Cando aparecen na transcrición xerada ou na pantalla mediante o recoñecemento óptico de caracteres (OCR), engádese a información relevante. Con esta nova función, podes buscar todas as persoas, lugares e marcas que apareceron nun vídeo e ver detalles sobre eles, incluíndo franxas horarias, descricións e ligazóns ao buscador de Bing para obter máis información.

12 novos Azure Media Services con intelixencia artificial

Modelo de detección de fotogramas para editor

Esta nova función engade un conxunto de "etiquetas" aos metadatos adxuntos a fotogramas individuais nos detalles JSON para representar o seu tipo editorial (por exemplo, plano ancho, plano medio, primeiro plano, primeiro plano extremo, dúas tomas, varias persoas). exterior, interior, etc.). Estas características do tipo de plano son útiles cando se edita vídeo para clips e tráilers, ou cando se busca un estilo de toma específico con fins artísticos.

12 novos Azure Media Services con intelixencia artificial
Aprender máis Detección de tipo de fotograma en Video Indexer.

Granularidade de mapeo IPTC mellorada

O noso modelo de detección de temas determina o tema dun vídeo baseándose na transcrición, o recoñecemento óptico de caracteres (OCR) e as celebridades detectadas, aínda que o tema non estea especificado explícitamente. Mapeamos estes temas detectados a catro áreas de clasificación: Wikipedia, Bing, IPTC e IAB. Esta mellora permítenos incluír clasificación IPTC de segundo nivel.
Aproveitar estas melloras é tan sinxelo como volver a indexar a túa biblioteca de indexadores de vídeo actual.

Nova funcionalidade de transmisión en directo

Na vista previa de Azure Media Services, tamén ofrecemos dúas novas funcións para a transmisión en directo.

A transcrición en tempo real impulsada pola IA leva a transmisión en directo ao seguinte nivel

Usando Azure Media Services para a transmisión en directo, agora pode recibir un fluxo de saída que inclúe unha pista de texto xerada automaticamente ademais do contido de audio e vídeo. O texto créase mediante a transcrición de audio en tempo real baseada na intelixencia artificial. Aplícanse técnicas personalizadas antes e despois da conversión de voz a texto para mellorar os resultados. A pista de texto está empaquetada en IMSC1, TTML ou WebVTT, dependendo de se se ofrece en DASH, HLS CMAF ou HLS TS.

Codificación de liña en tempo real para canles OTT 24/7

Usando as nosas API v3, pode crear, xestionar e transmitir canles OTT (over-the-top) e utilizar todas as outras funcións de Azure Media Services, como vídeo en directo baixo demanda (VOD, vídeo baixo demanda), embalaxe e xestión de dereitos dixitais ( DRM, xestión de dereitos dixitais).
Para ver versións previas destas funcións, visita Comunidade Azure Media Services.

12 novos Azure Media Services con intelixencia artificial

Novas capacidades de xeración de paquetes

Soporte para pistas de descrición de audio

O contido emitido por canles de emisión adoita ter unha pista de audio con explicacións verbais do que está a suceder na pantalla ademais do sinal de audio normal. Isto fai que os programas sexan máis accesibles para os espectadores con discapacidade visual, especialmente se o contido é principalmente visual. Novo función de descrición de audio permítelle anotar unha das pistas de audio como unha pista de descrición de audio (AD, descrición de audio), permitindo aos xogadores poñer a pista de AD dispoñible para os espectadores.

Insirendo metadatos ID3

Para sinalar a inserción de anuncios ou eventos de metadatos personalizados ao reprodutor do cliente, as emisoras adoitan usar metadatos cronometrados incrustados no vídeo. Ademais dos modos de sinalización SCTE-35, agora tamén admitimos ID3v2 e outros esquemas personalizados, definido polo desenvolvedor da aplicación para o seu uso pola aplicación cliente.

Os socios de Microsoft Azure demostran solucións de extremo a extremo

Bitmovin presenta Bitmovin Video Encoding e Bitmovin Video Player para Microsoft Azure. Os clientes agora poden aproveitar estas solucións de codificación e reprodución en Azure e beneficiarse de funcións avanzadas como a codificación en tres etapas, compatibilidade con códec AV1/VC, subtítulos multilingües e análise de vídeo preintegrada para QoS, publicidade e seguimento de vídeo.

Everxente demostra a súa plataforma de xestión do ciclo de vida do usuario en Azure. Como provedor líder de solucións de xestión de ingresos e ciclo de vida dos clientes, Evergent usa Azure AI para axudar aos provedores de entretemento premium a mellorar a captación e retención de clientes creando paquetes de servizos e ofertas en puntos críticos do ciclo de vida do cliente.

Haivision mostrará o seu servizo de enrutamento de medios intelixente baseado na nube, SRT Hub, que axuda aos clientes a transformar os fluxos de traballo de extremo a extremo usando Azure Data Box Edge e transformando os fluxos de traballo con Hublets de Avid, Telestream, Wowza, Cinegy e Make.tv.

SES desenvolveu un conxunto de servizos multimedia de calidade broadcast na plataforma Azure para os seus clientes de servizos multimedia por satélite e xestionados. SES mostrará solucións para servizos de reprodución totalmente xestionados, incluíndo reprodución principal, reprodución localizada, descubrimento e substitución de anuncios e codificación multicanle en tempo real 24x7 de alta calidade en Azure.

SyncWords fai dispoñibles ferramentas na nube convenientes e tecnoloxía de automatización de sinaturas en Azure. Estas ofertas facilitarán ás organizacións de medios engadir automaticamente subtítulos, incluídos os subtítulos en linguas estranxeiras, aos seus fluxos de traballo de vídeo en directo e fóra de liña en Azure.
empresa internacional Tata Elxsi, unha empresa de servizos tecnolóxicos, integrou a súa plataforma OTT SaaS TEPlay en Azure Media Services para ofrecer contido OTT desde a nube. Tata Elxsi tamén trouxo a súa solución de monitorización de calidade de experiencia (QoE) Falcon Eye a Microsoft Azure, proporcionando análises e métricas para a toma de decisións.

Verizon Media está a facer que a súa plataforma de streaming estea dispoñible en Azure como versión beta. Verizon Media Platform é unha solución OTT xestionada de nivel empresarial que inclúe DRM, inserción de anuncios, sesións personalizadas un a un, substitución dinámica de contido e entrega de vídeo. A integración simplifica os fluxos de traballo, o soporte global e a escala, e desbloquea algunhas das capacidades únicas que se atopan en Azure.

Fonte: www.habr.com

Engadir un comentario