Facebook が機械学習を使用した EnCodec オーディオ コーデックを公開

Meta/Facebook (ロシア連邦では禁止されている) は、機械学習手法を使用して品質を損なうことなく圧縮率を高める新しいオーディオ コーデック EnCodec を導入しました。 このコーデックは、リアルタイムでのオーディオのストリーミングと、後でファイルに保存するためのエンコードの両方に使用できます。 EnCodec リファレンス実装は、PyTorch フレームワークを使用して Python で記述されており、非営利使用のみを目的とした CC BY-NC 4.0 (クリエイティブ コモンズ表示 - 非営利) ライセンスに基づいてライセンスされています。

XNUMX つの既製モデルがダウンロード用に提供されています。

  • 24 kHz のサンプリング レートを使用し、モノラル オーディオのみをサポートし、さまざまなオーディオ データでトレーニングされた因果モデル (音声コーディングに適しています)。 このモデルは、1.5、3、6、12、および 24 kbps のビット レートで送信するオーディオ データをパッケージ化するために使用できます。
  • 48 kHz のサンプリング レートを使用し、ステレオ オーディオをサポートし、音楽のみでトレーニングされた非因果モデル。 このモデルは、3、6、12、24 kbps のビットレートをサポートします。

モデルごとに追加の言語モデルが用意されており、品質を損なうことなく圧縮率の大幅な向上 (最大 40%) を実現できます。 オーディオ圧縮に機械学習手法を使用して以前に開発されたプロジェクトとは異なり、EnCodec は音声パッケージ化だけでなく、オーディオ CD のレベルに対応する 48 kHz のサンプリング レートで音楽圧縮にも使用できます。 新しいコーデックの開発者によると、MP64 形式と比較して 3 kbps のビットレートで送信すると、同じレベルの品質を維持しながら音声圧縮度を約 3 倍高めることができました (たとえば、 MP64 では、6 kbps の帯域幅が必要ですが、EnCodec で同じ品質で送信するには XNUMX kbps で十分です)。

コーデック アーキテクチャは、「トランスフォーマ」アーキテクチャを備えたニューラル ネットワーク上に構築されており、エンコーダ、量子化器、デコーダ、ディスクリミネータの XNUMX つのリンクに基づいています。 エンコーダは音声データのパラメータを抽出し、パックされたストリームをより低いフレーム レートに変換します。 量子化器 (RVQ、残差ベクトル量子化器) は、エンコーダによって出力されたストリームをパケットのセットに変換し、選択されたビットレートに基づいて情報を圧縮します。 量子化器の出力はデータの圧縮表現であり、ネットワーク経由での送信やディスクへの保存に適しています。

デコーダは、データの圧縮表現をデコードし、元の音波を再構築します。 弁別器は、人間の聴覚モデルを考慮して、生成されたサンプルの品質を向上させます。 品質とビットレートのレベルに関係なく、エンコードとデコードに使用されるモデルは、かなり控えめなリソース要件によって区別されます (リアルタイム操作に必要な計算は単一の CPU コアで実行されます)。

Facebook が機械学習を使用した EnCodec オーディオ コーデックを公開


出所: オープンネット.ru

コメントを追加します