Facebook publica el còdec d'àudio EnCodec mitjançant l'aprenentatge automàtic

Meta/Facebook (prohibit a la Federació Russa) va introduir un nou còdec d'àudio, EnCodec, que utilitza mètodes d'aprenentatge automàtic per augmentar la relació de compressió sense perdre qualitat. El còdec es pot utilitzar tant per transmetre àudio en temps real com per a la codificació per desar-los posteriorment en fitxers. La implementació de referència d'EnCodec està escrita en Python utilitzant el marc PyTorch i té una llicència CC BY-NC 4.0 (Creative Commons Reconeixement-No Comercial) només per a ús no comercial.

S'ofereixen dos models ja fets per descarregar:

  • Un model causal que utilitza una freqüència de mostreig de 24 kHz, que només admet àudio monofònic i s'ha entrenat en dades d'àudio diverses (adequat per a la codificació de la parla). El model es pot utilitzar per empaquetar dades d'àudio per a la transmissió a velocitats de bits d'1.5, 3, 6, 12 i 24 kbps.
  • Un model no causal amb una freqüència de mostreig de 48 kHz, compatible amb àudio estèreo i entrenat només amb música. El model admet velocitats de bits de 3, 6, 12 i 24 kbps.

Per a cada model, s'ha preparat un model d'idioma addicional, que permet aconseguir un augment significatiu de la relació de compressió (fins a un 40%) sense pèrdua de qualitat. A diferència dels projectes desenvolupats anteriorment que utilitzen mètodes d'aprenentatge automàtic per a la compressió d'àudio, EnCodec es pot utilitzar no només per a l'empaquetament de la parla, sinó també per a la compressió de música amb una freqüència de mostreig de 48 kHz, corresponent al nivell dels CD d'àudio. Segons els desenvolupadors del nou còdec, en transmetre amb una taxa de bits de 64 kbps en comparació amb el format MP3, van poder augmentar el grau de compressió d'àudio en aproximadament deu vegades mantenint el mateix nivell de qualitat (per exemple, quan s'utilitzava). MP3, es requereix una amplada de banda de 64 kbps, per a la transmissió amb la qual la mateixa qualitat en EnCodec és suficient 6 kbps).

L'arquitectura del còdec es basa en una xarxa neuronal amb una arquitectura de "transformador" i es basa en quatre enllaços: codificador, quantificador, descodificador i discriminador. El codificador extreu els paràmetres de les dades de veu i converteix el flux empaquetat a una velocitat de fotogrames més baixa. El quantificador (RVQ, Residual Vector Quantizer) converteix la sortida del flux del codificador en conjunts de paquets, comprimint la informació en funció de la taxa de bits seleccionada. La sortida del quantificador és una representació comprimida de les dades, adequada per a la transmissió a través d'una xarxa o desar-les al disc.

El descodificador descodifica la representació comprimida de les dades i reconstrueix l'ona sonora original. El discriminador millora la qualitat de les mostres generades, tenint en compte el model de percepció auditiva humana. Independentment del nivell de qualitat i taxa de bits, els models utilitzats per a la codificació i la descodificació es distingeixen per uns requeriments de recursos força modestos (els càlculs necessaris per al funcionament en temps real es realitzen en un sol nucli de CPU).

Facebook publica el còdec d'àudio EnCodec mitjançant l'aprenentatge automàtic


Font: opennet.ru

Afegeix comentari