O Google publicou o codec de áudio Lyra para transmissão de voz em conexão de baixa qualidade

O Google introduziu um novo codec de áudio, Lyra, otimizado para alcançar a máxima qualidade de voz mesmo ao usar canais de comunicação muito lentos. O código de implementação do Lyra é escrito em C++ e aberto sob a licença Apache 2.0, mas entre as dependências necessárias para o funcionamento existe uma biblioteca proprietária libsparse_inference.so com uma implementação de kernel para cálculos matemáticos. Observa-se que a biblioteca proprietária é temporária - no futuro o Google promete desenvolver um substituto aberto e fornecer suporte para diversas plataformas.

Em termos de qualidade dos dados de voz transmitidos em baixas velocidades, o Lyra é significativamente superior aos codecs tradicionais que utilizam métodos de processamento de sinal digital. Para obter transmissão de voz de alta qualidade em condições de quantidade limitada de informações transmitidas, além dos métodos convencionais de compressão de áudio e conversão de sinal, Lyra utiliza um modelo de fala baseado em um sistema de aprendizado de máquina, que permite recriar as informações faltantes com base em características típicas da fala. O modelo usado para gerar o som foi treinado usando milhares de horas de gravações de voz em mais de 70 idiomas.

O Google publicou o codec de áudio Lyra para transmissão de voz em conexão de baixa qualidade

O codec inclui um codificador e um decodificador. O algoritmo do codificador se resume a extrair parâmetros de dados de voz a cada 40 milissegundos, compactá-los e transmiti-los ao destinatário pela rede. Um canal de comunicação com velocidade de 3 kilobits por segundo é suficiente para transmissão de dados. Os parâmetros de áudio extraídos incluem espectrogramas mel logarítmicos que levam em consideração as características energéticas da fala em diferentes faixas de frequência e são elaborados levando em consideração o modelo de percepção auditiva humana.

O Google publicou o codec de áudio Lyra para transmissão de voz em conexão de baixa qualidade

O decodificador utiliza um modelo generativo que, com base nos parâmetros de áudio transmitidos, recria o sinal de fala. Para reduzir a complexidade dos cálculos, foi utilizado um modelo leve baseado em uma rede neural recorrente, que é uma variante do modelo de síntese de voz WaveRNN, que utiliza uma frequência de amostragem menor, mas gera vários sinais em paralelo em diferentes faixas de frequência. Os sinais resultantes são então sobrepostos para produzir um único sinal de saída correspondente à taxa de amostragem especificada.

Instruções de processador especializadas disponíveis em processadores ARM de 64 bits também são usadas para aceleração. Como resultado, apesar do uso de aprendizado de máquina, o codec Lyra pode ser usado para codificação e decodificação de fala em tempo real em smartphones de médio porte, demonstrando latência de transmissão de sinal de 90 milissegundos.

Fonte: opennet.ru

Adicionar um comentário