Facebook publica EnCodec audio codec utilizendu machine learning

Meta / Facebook (proibitu in a Federazione Russa) hà introduttu un novu codec audio, EnCodec, chì usa metudi di machine learning per aumentà u rapportu di compressione senza perde a qualità. U codec pò esse usatu sia per streaming audio in tempu reale sia per codificazione per più tardi salvate in i fugliali. L'implementazione di riferimentu EnCodec hè scritta in Python utilizendu u framework PyTorch è hè licenziatu sottu una licenza CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) solu per un usu micca cummerciale.

Dui mudelli pronti sò offerti per scaricà:

  • Un mudellu causale chì usa una freccia di campionamentu di 24 kHz, supporta solu l'audio monofonicu, è hè furmatu nantu à diverse dati audio (adatta per a codificazione di voce). U mudellu pò esse usatu per imballà dati audio per a trasmissione à bit rates di 1.5, 3, 6, 12 è 24 kbps.
  • Un mudellu non-causale chì usa una freccia di campionamentu di 48 kHz, chì sustene l'audio stereo è furmatu solu nantu à a musica. U mudellu supporta bitrate di 3, 6, 12 è 24 kbps.

Per ogni mudellu, hè statu preparatu un mudellu di lingua supplementu, chì permette un incrementu significativu in u rapportu di compressione (finu à 40%) senza perdita di qualità. A cuntrariu di i prughjetti sviluppati prima chì utilizanu metudi di machine learning per a compressione audio, EnCodec pò esse usatu micca solu per l'imballaggio di voce, ma ancu per a compressione di musica cù una freccia di campionamentu di 48 kHz, currispondente à u livellu di CD audio. Sicondu i sviluppatori di u novu codec, quandu trasmettenu cù un bitrate di 64 kbps paragunatu à u formatu MP3, anu sappiutu aumentà u gradu di cumpressione di l'audio da circa deci volte, mantenendu u listessu livellu di qualità (per esempiu, quandu si usa. MP3, una larghezza di banda di 64 kbps hè necessaria, per a trasmissione cù chì a stessa qualità in EnCodec hè abbastanza 6 kbps).

L'architettura codec hè custruita nantu à una rete neurale cù una architettura "trasformatore" è hè basatu annantu à quattru ligami: codificatore, quantificatore, decodificatore è discriminatore. L'encoder estrae i paràmetri di e dati di voce è cunverte u flussu imballatu in una freccia di frame più bassa. U quantificatore (RVQ, Residual Vector Quantizer) cunverte l'output di flussu da l'encoder in set di pacchetti, cumpressendu l'infurmazioni basate nantu à u bitrate sceltu. L'output di u quantizer hè una rapprisintazioni cumpressa di e dati, adattatu per a trasmissione nantu à una reta o salvata à u discu.

U decodificatore decodifica a rapprisintazioni cumpressa di i dati è ricustruisce l'onda sonora originale. U discriminatore migliurà a qualità di i campioni generati, tenendu in contu u mudellu di a percepzione auditiva umana. Indipendentemente da u livellu di qualità è di bitrate, i mudelli utilizati per a codificazione è a decodificazione sò distinti da esigenze di risorse piuttostu modeste (i calculi necessarii per l'operazione in tempu reale sò realizati nantu à un core CPU unicu).

Facebook publica EnCodec audio codec utilizendu machine learning


Source: opennet.ru

Add a comment