Facebook publica o códec de audio EnCodec mediante a aprendizaxe automática

Meta/Facebook (prohibido na Federación Rusa) presentou un novo códec de audio, EnCodec, que utiliza métodos de aprendizaxe automática para aumentar a relación de compresión sen perder calidade. O códec pódese usar tanto para transmitir audio en tempo real como para codificar para posteriormente gardar ficheiros. A implementación de referencia de EnCodec está escrita en Python usando o marco PyTorch e ten unha licenza CC BY-NC 4.0 (Creative Commons Recoñecemento-NonComercial) só para uso non comercial.

Ofrécense dous modelos listos para descargar:

  • Un modelo causal que utiliza unha frecuencia de mostraxe de 24 kHz, só admite audio monofónico e adestrado en diversos datos de audio (adecuado para a codificación de voz). O modelo pódese usar para empaquetar datos de audio para a súa transmisión a velocidades de bits de 1.5, 3, 6, 12 e 24 kbps.
  • Un modelo non causal que utiliza unha frecuencia de mostraxe de 48 kHz, compatible con audio estéreo e adestrado só en música. O modelo admite taxas de bits de 3, 6, 12 e 24 kbps.

Para cada modelo, preparouse un modelo de idioma adicional, que permite conseguir un aumento significativo da relación de compresión (ata un 40%) sen perda de calidade. A diferenza dos proxectos desenvolvidos anteriormente que usan métodos de aprendizaxe automática para a compresión de audio, EnCodec pode usarse non só para o empaquetado da voz, senón tamén para a compresión de música cunha frecuencia de mostraxe de 48 kHz, correspondente ao nivel dos CD de audio. Segundo os desenvolvedores do novo códec, ao transmitir cunha taxa de bits de 64 kbps en comparación co formato MP3, puideron aumentar aproximadamente dez veces o grao de compresión de audio mantendo o mesmo nivel de calidade (por exemplo, ao utilizar MP3, é necesario un ancho de banda de 64 kbps, para a transmisión con iso a mesma calidade en EnCodec é suficiente 6 kbps).

A arquitectura do códec está construída sobre unha rede neuronal cunha arquitectura de "transformador" e baséase en catro enlaces: codificador, cuantizador, decodificador e discriminador. O codificador extrae os parámetros dos datos de voz e converte o fluxo empaquetado nunha taxa de fotogramas máis baixa. O cuantizador (RVQ, Residual Vector Quantizer) converte a saída do fluxo polo codificador en conxuntos de paquetes, comprimindo a información en función da taxa de bits seleccionada. A saída do cuantizador é unha representación comprimida dos datos, axeitada para transmitir a través dunha rede ou gardar no disco.

O decodificador descodifica a representación comprimida dos datos e reconstrúe a onda sonora orixinal. O discriminador mellora a calidade das mostras xeradas, tendo en conta o modelo de percepción auditiva humana. Independentemente do nivel de calidade e taxa de bits, os modelos utilizados para a codificación e a decodificación distínguense por requisitos de recursos bastante modestos (os cálculos necesarios para o funcionamento en tempo real realízanse nun só núcleo de CPU).

Facebook publica o códec de audio EnCodec mediante a aprendizaxe automática


Fonte: opennet.ru

Engadir un comentario