A misión de Microsoft é capacitar a cada persoa e organización do planeta para lograr máis. A industria dos medios é un gran exemplo de facer realidade esta misión. Vivimos nunha época na que se crean e consumen máis contidos, de máis formas e en máis dispositivos. No IBC 2019, compartimos as últimas innovacións nas que estamos traballando e como poden axudar a transformar a túa experiencia multimedia.
Detalles baixo o corte!
Esta páxina está activada
Video Indexer agora admite animación e contido multilingüe
O ano pasado no IBC fixemos o noso galardonado
As nosas ofertas máis recentes inclúen vista previa de dúas funcións moi demandadas e diferenciadas: recoñecemento de personaxes animados e transcrición de voz multilingüe, así como varias incorporacións aos modelos existentes dispoñibles hoxe en Video Indexer.
Recoñecemento de personaxes animados
O contido animado é un dos tipos de contido máis populares, pero os modelos estándar de visión por ordenador deseñados para recoñecer rostros humanos non funcionan ben con el, especialmente se o contido contén personaxes sen características faciais humanas. A nova versión de vista previa combina Video Indexer co servizo Azure Custom Vision de Microsoft, ofrecendo un novo conxunto de modelos que detectan e agrupan automaticamente personaxes animados e facilitan etiquetalos e recoñecelos mediante modelos de visión personalizados integrados.
Os modelos están integrados nunha única canalización, o que permite que calquera persoa utilice o servizo sen ningún coñecemento de aprendizaxe automática. Os resultados están dispoñibles a través dun portal Video Indexer sen código ou a través dunha API REST para unha rápida integración nas súas propias aplicacións.
Creamos estes modelos para traballar con personaxes animados xunto con algúns consumidores que proporcionaron contido animado real para adestrar e probar. O valor da nova funcionalidade foi ben resumido por Andy Gutteridge, director sénior de tecnoloxía de estudo e posprodución de Viacom International Media Networks, quen foi un dos provedores de datos: "A adición de un sólido descubrimento de contido animado impulsado pola intelixencia artificial permitirá para atopar e catalogar de forma rápida e eficiente metadatos de caracteres do contido da nosa biblioteca.
O máis importante é que dará aos nosos equipos creativos a capacidade de atopar ao instante o contido que necesitan, minimizando o tempo dedicado á xestión dos medios e permitíndolles centrarse na creatividade".
Podes comezar a familiarizarte co recoñecemento de personaxes animados
Identificación e transcrición de contidos en múltiples linguas
Algúns recursos mediáticos, como noticias, crónicas e entrevistas, conteñen gravacións de persoas que falan diferentes idiomas. A maioría das capacidades de conversión de voz a texto existentes requiren que se especifique previamente o idioma de recoñecemento de audio, o que dificulta a transcrición de vídeos multilingües.
A nosa nova función de identificación automática da lingua falada para varios tipos de contido utiliza tecnoloxía de aprendizaxe automática para identificar as linguas que se atopan nos recursos multimedia. Unha vez detectado, cada segmento de idioma pasa automaticamente por un proceso de transcrición no idioma apropiado e, a continuación, todos os segmentos combínanse nun único ficheiro de transcrición multilingüe.
A transcrición resultante está dispoñible como parte da saída JSON do Video Indexer e como ficheiros de subtítulos. A transcrición de saída tamén está integrada con Azure Search, o que lle permite buscar inmediatamente diferentes segmentos de idioma nos seus vídeos. Ademais, a transcrición multilingüe está dispoñible cando se traballa co portal Video Indexer, polo que pode ver a transcrición e o idioma identificado ao longo do tempo, ou ir a lugares específicos do vídeo para cada idioma e ver a transcrición multilingüe como subtítulos mentres se reproduce o vídeo. Tamén podes traducir o texto recibido a calquera dos 54 idiomas dispoñibles a través do portal e da API.
Obtén máis información sobre a nova función de recoñecemento de contido multilingüe e como se usa en Video Indexer
Modelos adicionais actualizados e mellorados
Tamén estamos engadindo novos modelos ao Video Indexer e mellorando os existentes, incluídos os que se describen a continuación.
Extraer entidades asociadas a persoas e lugares
Ampliamos as nosas capacidades de descubrimento de marca existentes para incluír nomes e localizacións coñecidos, como a Torre Eiffel en París e o Big Ben en Londres. Cando aparecen na transcrición xerada ou na pantalla mediante o recoñecemento óptico de caracteres (OCR), engádese a información relevante. Con esta nova función, podes buscar todas as persoas, lugares e marcas que apareceron nun vídeo e ver detalles sobre eles, incluíndo franxas horarias, descricións e ligazóns ao buscador de Bing para obter máis información.
Modelo de detección de fotogramas para editor
Esta nova función engade un conxunto de "etiquetas" aos metadatos adxuntos a fotogramas individuais nos detalles JSON para representar o seu tipo editorial (por exemplo, plano ancho, plano medio, primeiro plano, primeiro plano extremo, dúas tomas, varias persoas). exterior, interior, etc.). Estas características do tipo de plano son útiles cando se edita vídeo para clips e tráilers, ou cando se busca un estilo de toma específico con fins artísticos.
Granularidade de mapeo IPTC mellorada
O noso modelo de detección de temas determina o tema dun vídeo baseándose na transcrición, o recoñecemento óptico de caracteres (OCR) e as celebridades detectadas, aínda que o tema non estea especificado explícitamente. Mapeamos estes temas detectados a catro áreas de clasificación: Wikipedia, Bing, IPTC e IAB. Esta mellora permítenos incluír clasificación IPTC de segundo nivel.
Aproveitar estas melloras é tan sinxelo como volver a indexar a túa biblioteca de indexadores de vídeo actual.
Nova funcionalidade de transmisión en directo
Na vista previa de Azure Media Services, tamén ofrecemos dúas novas funcións para a transmisión en directo.
A transcrición en tempo real impulsada pola IA leva a transmisión en directo ao seguinte nivel
Usando Azure Media Services para a transmisión en directo, agora pode recibir un fluxo de saída que inclúe unha pista de texto xerada automaticamente ademais do contido de audio e vídeo. O texto créase mediante a transcrición de audio en tempo real baseada na intelixencia artificial. Aplícanse técnicas personalizadas antes e despois da conversión de voz a texto para mellorar os resultados. A pista de texto está empaquetada en IMSC1, TTML ou WebVTT, dependendo de se se ofrece en DASH, HLS CMAF ou HLS TS.
Codificación de liña en tempo real para canles OTT 24/7
Usando as nosas API v3, pode crear, xestionar e transmitir canles OTT (over-the-top) e utilizar todas as outras funcións de Azure Media Services, como vídeo en directo baixo demanda (VOD, vídeo baixo demanda), embalaxe e xestión de dereitos dixitais ( DRM, xestión de dereitos dixitais).
Para ver versións previas destas funcións, visita
Novas capacidades de xeración de paquetes
Soporte para pistas de descrición de audio
O contido emitido por canles de emisión adoita ter unha pista de audio con explicacións verbais do que está a suceder na pantalla ademais do sinal de audio normal. Isto fai que os programas sexan máis accesibles para os espectadores con discapacidade visual, especialmente se o contido é principalmente visual. Novo
Insirendo metadatos ID3
Para sinalar a inserción de anuncios ou eventos de metadatos personalizados ao reprodutor do cliente, as emisoras adoitan usar metadatos cronometrados incrustados no vídeo. Ademais dos modos de sinalización SCTE-35, agora tamén admitimos
Os socios de Microsoft Azure demostran solucións de extremo a extremo
empresa internacional
Fonte: www.habr.com