Facebook publizéiert EnCodec Audio Codec mat Maschinnléieren

Meta/Facebook (verbueden an der russescher Federatioun) huet en neien Audiocodec, EnCodec, agefouert, deen Maschinnléiermethoden benotzt fir de Kompressiounsverhältnis ze erhéijen ouni Qualitéit ze verléieren. De Codec ka benotzt ginn fir Audio an Echtzäit ze streamen a fir Kodéierung fir spéider an Dateien ze späicheren. D'EnCodec Referenz Implementatioun ass am Python geschriwwe mam PyTorch Kader an ass lizenzéiert ënner enger CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) Lizenz nëmme fir net-kommerziell Notzung.

Zwee fäerdeg Modeller gi fir Download ugebueden:

  • E kausale Modell mat engem 24 kHz Samplingsrate, ënnerstëtzt nëmmen monophonesch Audio, an trainéiert op verschidden Audiodaten (gëeegent fir Riedkodéierung). De Modell ka benotzt ginn fir Audiodaten fir d'Transmissioun mat Bitraten vun 1.5, 3, 6, 12 an 24 kbps ze packen.
  • En net-causale Modell mat engem Samplingsrate vu 48 kHz, ënnerstëtzt Stereo Audio an trainéiert nëmmen op Musek. De Modell ënnerstëtzt Bitrates vun 3, 6, 12 an 24 kbps.

Fir all Modell gouf en zousätzleche Sproochmodell virbereet, wat Iech erlaabt eng bedeitend Erhéijung vum Kompressiounsverhältnis (bis zu 40%) ouni Qualitéitsverloscht z'erreechen. Am Géigesaz zu virdru entwéckelte Projete mat Maschinnléieremethoden fir Audiokompressioun, kann EnCodec net nëmme fir Riedverpackung benotzt ginn, awer och fir Musekskompressioun mat enger Samplingsrate vun 48 kHz, entspriechend dem Niveau vun Audio CDen. Laut den Entwéckler vum neie Codec, beim Iwwerdroen mat engem Bitrate vu 64 kbps am Verglach zum MP3-Format, konnten se de Grad vun der Audiokompressioun ëm ongeféier zéng Mol erhéijen, wärend de selwechte Qualitéitsniveau behalen (zum Beispill wann Dir benotzt MP3, eng Bandbreedung vu 64 kbps ass erfuerderlech, fir d'Transmissioun mat där déiselwecht Qualitéit am EnCodec ass genuch 6 kbps).

D'Codec Architektur ass op engem neuralen Netzwierk mat enger "Transformer" Architektur gebaut a baséiert op véier Linken: Encoder, Quantizer, Decoder an Diskriminator. Den Encoder extrahéiert d'Parameter vun de Stëmmdaten a konvertéiert de gepackte Stream op e méi nidderegen Frame Taux. De Quantizer (RVQ, Residual Vector Quantizer) konvertéiert de Streamoutput vum Encoder a Sets vu Päckchen, kompriméiert Informatioun baséiert op der gewielter Bitrate. D'Ausgab vum Quantizer ass eng kompriméiert Duerstellung vun den Donnéeën, gëeegent fir Iwwerdroung iwwer e Netzwierk oder fir op Disk ze späicheren.

Den Decoder dekodéiert déi kompriméiert Duerstellung vun den Donnéeën a rekonstruéiert déi ursprénglech Tounwelle. Den Diskriminator verbessert d'Qualitéit vun de generéierte Proben, andeems de Modell vun der mënschlecher Gehörperceptioun berücksichtegt gëtt. Onofhängeg vum Niveau vun der Qualitéit a Bitrate, sinn d'Modeller, déi fir Kodéierung an Decodéierung benotzt ginn, duerch zimlech bescheiden Ressourcefuerderunge ënnerscheet (Berechnungen noutwendeg fir Echtzäit Operatioun ginn op engem eenzegen CPU Kär gemaach).

Facebook publizéiert EnCodec Audio Codec mat Maschinnléieren


Source: opennet.ru

Setzt e Commentaire