Google ha publicado el códec de audio Lyra para la transmisión de voz con mala calidad de conexión

Google ha introducido un nuevo códec de audio, Lyra, optimizado para conseguir la máxima calidad de voz incluso cuando se utilizan canales de comunicación muy lentos. El código de implementación de Lyra está escrito en C++ y abierto bajo la licencia Apache 2.0, pero entre las dependencias necesarias para el funcionamiento se encuentra una biblioteca propietaria libsparse_inference.so con una implementación del kernel para cálculos matemáticos. Cabe señalar que la biblioteca patentada es temporal; en el futuro, Google promete desarrollar un reemplazo abierto y brindar soporte para varias plataformas.

En términos de la calidad de los datos de voz transmitidos a bajas velocidades, Lyra es significativamente superior a los códecs tradicionales que utilizan métodos de procesamiento de señales digitales. Para lograr una transmisión de voz de alta calidad en condiciones de una cantidad limitada de información transmitida, además de los métodos convencionales de compresión de audio y conversión de señal, Lyra utiliza un modelo de voz basado en un sistema de aprendizaje automático, que le permite recrear la información faltante basándose en Características típicas del habla. El modelo utilizado para generar el sonido se entrenó utilizando varios miles de horas de grabaciones de voz en más de 70 idiomas.

Google ha publicado el códec de audio Lyra para la transmisión de voz con mala calidad de conexión

El códec incluye un codificador y un decodificador. El algoritmo del codificador se reduce a extraer parámetros de datos de voz cada 40 milisegundos, comprimirlos y transmitirlos al destinatario a través de la red. Para la transmisión de datos es suficiente un canal de comunicación con una velocidad de 3 kilobits por segundo. Los parámetros de audio extraídos incluyen espectrogramas mel logarítmicos que tienen en cuenta las características energéticas del habla en diferentes rangos de frecuencia y se preparan teniendo en cuenta el modelo de percepción auditiva humana.

Google ha publicado el códec de audio Lyra para la transmisión de voz con mala calidad de conexión

El decodificador utiliza un modelo generativo que, basándose en los parámetros de audio transmitidos, recrea la señal de voz. Para reducir la complejidad de los cálculos, se utilizó un modelo liviano basado en una red neuronal recurrente, que es una variante del modelo de síntesis de voz WaveRNN, que utiliza una frecuencia de muestreo más baja, pero genera varias señales en paralelo en diferentes rangos de frecuencia. Luego, las señales resultantes se superponen para producir una única señal de salida correspondiente a la frecuencia de muestreo especificada.

Para la aceleración también se utilizan instrucciones de procesador especializadas disponibles en procesadores ARM de 64 bits. Como resultado, a pesar del uso del aprendizaje automático, el códec Lyra se puede utilizar para codificar y decodificar voz en tiempo real en teléfonos inteligentes de gama media, lo que demuestra una latencia de transmisión de señal de 90 milisegundos.

Fuente: opennet.ru

Añadir un comentario