Facebook veröffentlicht den EnCodec-Audiocodec mithilfe von maschinellem Lernen

Meta/Facebook (in der Russischen Föderation verboten) hat einen neuen Audio-Codec, EnCodec, eingeführt, der maschinelle Lernmethoden nutzt, um die Komprimierungsrate ohne Qualitätsverlust zu erhöhen. Der Codec kann sowohl zum Streamen von Audio in Echtzeit als auch zum Kodieren zum späteren Speichern in Dateien verwendet werden. Die EnCodec-Referenzimplementierung ist in Python unter Verwendung des PyTorch-Frameworks geschrieben und unter einer CC BY-NC 4.0-Lizenz (Creative Commons Attribution-NonCommercial) nur für die nichtkommerzielle Nutzung lizenziert.

Zwei fertige Modelle werden zum Download angeboten:

  • Ein Kausalmodell, das eine Abtastrate von 24 kHz verwendet, nur monophones Audio unterstützt und auf verschiedenen Audiodaten trainiert wird (geeignet für Sprachcodierung). Mit dem Modell können Audiodaten für die Übertragung mit Bitraten von 1.5, 3, 6, 12 und 24 kbit/s verpackt werden.
  • Ein nicht-kausales Modell mit einer Abtastrate von 48 kHz, das Stereo-Audio unterstützt und nur auf Musik trainiert. Das Modell unterstützt Bitraten von 3, 6, 12 und 24 Kbit/s.

Für jedes Modell wurde ein zusätzliches Sprachmodell erstellt, mit dem Sie ohne Qualitätsverlust eine deutliche Steigerung der Komprimierungsrate (bis zu 40 %) erreichen können. Im Gegensatz zu bisher entwickelten Projekten mit Methoden des maschinellen Lernens zur Audiokomprimierung kann EnCodec nicht nur zur Sprachverpackung, sondern auch zur Musikkomprimierung mit einer Abtastrate von 48 kHz, entsprechend dem Niveau von Audio-CDs, eingesetzt werden. Nach Angaben der Entwickler des neuen Codecs konnten sie bei der Übertragung mit einer Bitrate von 64 kbps im Vergleich zum MP3-Format den Grad der Audiokomprimierung bei gleichbleibender Qualität (z. B. bei der Verwendung) um etwa das Zehnfache steigern Für MP3 ist eine Bandbreite von 64 kbps erforderlich, für die Übertragung mit der gleichen Qualität in EnCodec genügen 6 kbps.

Die Codec-Architektur basiert auf einem neuronalen Netzwerk mit einer „Transformer“-Architektur und basiert auf vier Verbindungen: Encoder, Quantisierer, Decoder und Diskriminator. Der Encoder extrahiert die Parameter der Sprachdaten und wandelt den gepackten Stream in eine niedrigere Bildrate um. Der Quantisierer (RVQ, Residual Vector Quantizer) wandelt den vom Encoder ausgegebenen Stream in Paketsätze um und komprimiert die Informationen basierend auf der ausgewählten Bitrate. Die Ausgabe des Quantisierers ist eine komprimierte Darstellung der Daten, die zur Übertragung über ein Netzwerk oder zum Speichern auf der Festplatte geeignet ist.

Der Decoder dekodiert die komprimierte Darstellung der Daten und rekonstruiert die ursprüngliche Schallwelle. Der Diskriminator verbessert die Qualität der erzeugten Samples unter Berücksichtigung des Modells der menschlichen Hörwahrnehmung. Unabhängig vom Qualitätsniveau und der Bitrate zeichnen sich die zur Kodierung und Dekodierung verwendeten Modelle durch einen eher geringen Ressourcenbedarf aus (die für den Echtzeitbetrieb notwendigen Berechnungen werden auf einem einzigen CPU-Kern durchgeführt).

Facebook veröffentlicht den EnCodec-Audiocodec mithilfe von maschinellem Lernen


Source: opennet.ru

Kommentar hinzufügen