A missão da Microsoft é capacitar todas as pessoas e organizações do planeta para alcançarem mais. A indústria da mídia é um grande exemplo de como tornar esta missão uma realidade. Vivemos numa era em que cada vez mais conteúdo é criado e consumido, de mais formas e em mais dispositivos. Na IBC 2019, compartilhamos as inovações mais recentes nas quais estamos trabalhando e como elas podem ajudar a transformar sua experiência de mídia.
Detalhes sob o corte!
Esta página está em
Video Indexer agora oferece suporte a animação e conteúdo multilíngue
No ano passado, no IBC, fizemos nosso premiado
Nossas ofertas mais recentes incluem visualizações de dois recursos diferenciados e muito procurados – reconhecimento de caracteres animados e transcrição de fala multilíngue – bem como diversas adições aos modelos existentes disponíveis hoje no Video Indexer.
Reconhecimento de personagens animados
O conteúdo animado é um dos tipos de conteúdo mais populares, mas os modelos padrão de visão computacional projetados para reconhecer rostos humanos não funcionam bem com ele, especialmente se o conteúdo contiver personagens sem características faciais humanas. A nova versão de visualização combina o Video Indexer com o serviço Azure Custom Vision da Microsoft, oferecendo um novo conjunto de modelos que detectam e agrupam automaticamente personagens animados e os tornam fáceis de rotular e reconhecer usando modelos de visão personalizados integrados.
Os modelos são integrados em um único pipeline, permitindo que qualquer pessoa utilize o serviço sem nenhum conhecimento de aprendizado de máquina. Os resultados estão disponíveis por meio de um portal Video Indexer sem código ou por meio de uma API REST para integração rápida em seus próprios aplicativos.
Construímos esses modelos para trabalhar com personagens animados junto com alguns consumidores que forneceram conteúdo animado real para treinamento e teste. O valor da nova funcionalidade foi bem resumido por Andy Gutteridge, diretor sênior de tecnologia de estúdio e pós-produção da Viacom International Media Networks, que foi um dos fornecedores de dados: “A adição de descoberta robusta de conteúdo animado com tecnologia de IA permitirá permite-nos encontrar e catalogar de forma rápida e eficiente metadados de caracteres do conteúdo de nossa biblioteca.
Mais importante ainda, dará às nossas equipes criativas a capacidade de encontrar instantaneamente o conteúdo de que precisam, minimizando o tempo gasto no gerenciamento de mídia e permitindo que se concentrem na criatividade.”
Você pode começar a se familiarizar com o reconhecimento de personagens animados com
Identificação e transcrição de conteúdo em vários idiomas
Alguns recursos mediáticos, como notícias, crónicas e entrevistas, contêm gravações de pessoas que falam línguas diferentes. A maioria dos recursos existentes de conversão de fala em texto exige que o idioma de reconhecimento de áudio seja especificado antecipadamente, dificultando a transcrição de vídeos multilíngues.
Nosso novo recurso de identificação automática de idioma falado para vários tipos de conteúdo usa tecnologia de aprendizado de máquina para identificar idiomas encontrados em ativos de mídia. Uma vez detectado, cada segmento de idioma passa automaticamente por um processo de transcrição no idioma apropriado e, em seguida, todos os segmentos são combinados em um único arquivo de transcrição multilíngue.
A transcrição resultante está disponível como parte da saída JSON do Video Indexer e como arquivos de legenda. A transcrição de saída também está integrada ao Azure Search, permitindo que você pesquise imediatamente diferentes segmentos de idioma em seus vídeos. Além disso, a transcrição multilíngue está disponível ao trabalhar com o portal Video Indexer, para que você possa visualizar a transcrição e o idioma identificado ao longo do tempo ou pular para locais específicos do vídeo para cada idioma e ver a transcrição multilíngue como legendas à medida que o vídeo é reproduzido. Você também pode traduzir o texto recebido para qualquer um dos 54 idiomas disponíveis através do portal e API.
Saiba mais sobre o novo recurso de reconhecimento de conteúdo multilíngue e como ele é usado no Video Indexer
Modelos adicionais atualizados e aprimorados
Também estamos adicionando novos modelos ao Video Indexer e melhorando os existentes, incluindo os descritos abaixo.
Extraindo entidades associadas a pessoas e lugares
Expandimos nossos recursos existentes de descoberta de marcas para incluir nomes e locais conhecidos, como a Torre Eiffel em Paris e o Big Ben em Londres. Quando aparecem na transcrição gerada ou na tela por meio de reconhecimento óptico de caracteres (OCR), as informações relevantes são adicionadas. Com esse novo recurso, você pode pesquisar todas as pessoas, lugares e marcas que apareceram em um vídeo e visualizar detalhes sobre eles, incluindo horários, descrições e links para o mecanismo de busca Bing para obter mais informações.
Modelo de detecção de quadros para editor
Este novo recurso adiciona um conjunto de "tags" aos metadados anexados a quadros individuais nos detalhes JSON para representar seu tipo editorial (por exemplo, plano geral, plano médio, close-up, close-up extremo, duas fotos, várias pessoas , ao ar livre, dentro de casa, etc.). Essas características de tipo de tomada são úteis ao editar vídeos para clipes e trailers ou ao procurar um estilo de tomada específico para fins artísticos.
Granularidade aprimorada de mapeamento IPTC
Nosso modelo de detecção de tópicos determina o tópico de um vídeo com base na transcrição, no reconhecimento óptico de caracteres (OCR) e nas celebridades detectadas, mesmo que o tópico não seja especificado explicitamente. Mapeamos esses tópicos detectados em quatro áreas de classificação: Wikipedia, Bing, IPTC e IAB. Esta melhoria permite-nos incluir a classificação IPTC de segundo nível.
Aproveitar essas melhorias é tão fácil quanto reindexar sua biblioteca atual do Video Indexer.
Nova funcionalidade de transmissão ao vivo
Na versão prévia dos Serviços de Mídia do Azure, também oferecemos dois novos recursos para transmissão ao vivo.
A transcrição em tempo real com tecnologia de IA leva a transmissão ao vivo para o próximo nível
Utilizando os Serviços de Multimédia do Azure para transmissão em direto, agora pode receber um fluxo de saída que inclui uma faixa de texto gerada automaticamente, além de conteúdo de áudio e vídeo. O texto é criado por meio de transcrição de áudio em tempo real baseada em inteligência artificial. Técnicas personalizadas são aplicadas antes e depois da conversão de fala em texto para melhorar os resultados. A trilha de texto é empacotada em IMSC1, TTML ou WebVTT, dependendo se é fornecida em DASH, HLS CMAF ou HLS TS.
Codificação de linha em tempo real para canais OTT 24 horas por dia, 7 dias por semana
Usando nossas APIs v3, você pode criar, gerenciar e transmitir canais OTT (over-the-top) e usar todos os outros recursos dos Serviços de Mídia do Azure, como vídeo ao vivo sob demanda (VOD, vídeo sob demanda), empacotamento e gerenciamento de direitos digitais ( DRM, gerenciamento de direitos digitais).
Para ver versões prévias desses recursos, visite
Novos recursos de geração de pacotes
Suporte para faixas de audiodescrição
O conteúdo transmitido por canais de transmissão geralmente possui uma trilha de áudio com explicações verbais do que está acontecendo na tela, além do sinal de áudio normal. Isto torna os programas mais acessíveis aos espectadores com deficiência visual, especialmente se o conteúdo for principalmente visual. Novo
Inserindo metadados ID3
Para sinalizar a inserção de anúncios ou eventos de metadados personalizados no player do cliente, as emissoras costumam usar metadados cronometrados incorporados ao vídeo. Além dos modos de sinalização SCTE-35, agora também oferecemos suporte
Parceiros do Microsoft Azure demonstram soluções ponta a ponta
empresa internacional
Fonte: habr.com