Google publicou o códec de audio Lyra para a transmisión de voz en mala calidade de conexión

Google presentou un novo códec de audio, Lyra, optimizado para acadar a máxima calidade de voz mesmo cando se usan canles de comunicación moi lentas. O código de implementación de Lyra está escrito en C++ e está aberto baixo a licenza Apache 2.0, pero entre as dependencias necesarias para o funcionamento hai unha biblioteca propietaria libsparse_inference.so cunha implementación do núcleo para cálculos matemáticos. Nótase que a biblioteca propietaria é temporal: no futuro Google promete desenvolver un substituto aberto e ofrecer soporte para varias plataformas.

En canto á calidade dos datos de voz transmitidos a baixas velocidades, Lyra é significativamente superior aos códecs tradicionais que usan métodos de procesamento de sinal dixital. Para conseguir unha transmisión de voz de alta calidade en condicións de cantidade limitada de información transmitida, ademais dos métodos convencionais de compresión de audio e conversión de sinal, Lyra utiliza un modelo de voz baseado nun sistema de aprendizaxe automática, que permite recrear a información que falta a partir de características típicas da fala. O modelo utilizado para xerar o son adestrouse utilizando varios miles de horas de gravacións de voz en máis de 70 idiomas.

Google publicou o códec de audio Lyra para a transmisión de voz en mala calidade de conexión

O códec inclúe un codificador e un decodificador. O algoritmo do codificador redúcese a extraer parámetros de datos de voz cada 40 milisegundos, comprimilos e transmitilos ao destinatario a través da rede. Unha canle de comunicación cunha velocidade de 3 kilobits por segundo é suficiente para a transmisión de datos. Os parámetros de audio extraídos inclúen espectrogramas de mel logarítmicos que teñen en conta as características enerxéticas da fala en diferentes rangos de frecuencias e están preparados tendo en conta o modelo de percepción auditiva humana.

Google publicou o códec de audio Lyra para a transmisión de voz en mala calidade de conexión

O decodificador utiliza un modelo xerativo que, baseándose nos parámetros de audio transmitidos, recrea o sinal de voz. Para reducir a complexidade dos cálculos, utilizouse un modelo lixeiro baseado nunha rede neuronal recorrente, que é unha variante do modelo de síntese de voz WaveRNN, que utiliza unha frecuencia de mostraxe máis baixa, pero xera varios sinais en paralelo en diferentes rangos de frecuencia. Os sinais resultantes superpóñense entón para producir un único sinal de saída correspondente á frecuencia de mostraxe especificada.

Tamén se usan instrucións de procesador especializadas dispoñibles nos procesadores ARM de 64 bits para a aceleración. Como resultado, a pesar do uso da aprendizaxe automática, o códec Lyra pódese usar para a codificación e decodificación de voz en tempo real en teléfonos intelixentes de gama media, demostrando unha latencia de transmisión de sinal de 90 milisegundos.

Fonte: opennet.ru

Engadir un comentario