Google、Lyra V2 オープンソース オーディオ コーデックをリリース

Google は、機械学習技術を使用して、非常に遅い通信チャネル上で最大の音声品質を実現する Lyra V2 オーディオ コーデックを導入しました。新しいバージョンでは、新しいニューラル ネットワーク アーキテクチャへの移行、追加プラットフォームのサポート、ビットレート制御機能の拡張、パフォーマンスの向上、およびより高いオーディオ品質が特徴です。リファレンス コードの実装は C++ で書かれており、Apache 2.0 ライセンスに基づいて配布されます。

低速で送信される音声データの品質の点で、Lyra はデジタル信号処理方式を使用する従来のコーデックよりも大幅に優れています。 Lyra では、限られた情報量で高品質な音声伝送を実現するため、従来の音声圧縮や信号変換に加え、機械学習システムに基づいた音声モデルを採用し、欠落した情報を再現します。典型的な音声の特徴。

コーデックにはエンコーダとデコーダが含まれます。エンコーダのアルゴリズムは、要約すると、音声データ パラメータを 20 ミリ秒ごとに抽出し、圧縮して、3.2kbps ~ 9.2kbps のビットレートでネットワーク経由で受信者に送信します。受信側では、デコーダは生成モデルを使用して、送信された音声パラメータに基づいて元の音声信号を再構築します。これには、さまざまな周波数範囲の音声のエネルギー特性を考慮し、音声のモデルを考慮して準備された対数チョーク スペクトログラムが含まれます。人間の聴覚。

Lyra V2 は、SoundStream 畳み込みニューラル ネットワークに基づく新しい生成モデルを使用します。このモデルは、計算要件が低く、低電力システムでもリアルタイム デコードが可能です。サウンドの生成に使用されるモデルは、90 以上の言語で数千時間に及ぶ音声録音を使用してトレーニングされました。モデルの実行には TensorFlow Lite が使用されます。提案された実装のパフォーマンスは、低価格帯のスマートフォンでの音声エンコードおよびデコードには十分です。

新しいバージョンでは、異なる生成モデルを使用することに加えて、データ送信前に送信側と受信側で実行される RVQ (Residual Vector Quantizer) 量子化器とのリンクがコーデック アーキテクチャに含まれていることも注目に値します。データ受信後。量子化器は、コーデックによって生成されたパラメータをパケットのセットに変換し、選択されたビットレートに関連して情報をエンコードします。さまざまなレベルの品質を提供するために、量子化器は 3.2 つのビットレート (6 kps、9.2 kbps、および XNUMX kbps) に対して提供されています。ビットレートが高いほど品質は向上しますが、帯域幅要件も高くなります。

Google、Lyra V2 オープンソース オーディオ コーデックをリリース

新しいアーキテクチャにより、信号伝送遅延が 100 ミリ秒から 20 ミリ秒に短縮されました。比較のために、WebRTC 用の Opus コーデックでは、テストしたビットレートで 26.5 ミリ秒、46.5 ミリ秒、および 66.5 ミリ秒の遅延が実証されました。エンコーダーとデコーダーのパフォーマンスも大幅に向上し、以前のバージョンと比較して最大 5 倍高速になりました。たとえば、Pixel 6 Pro スマートフォンでは、新しいコーデックは 20 ミリ秒のサンプルを 0.57 ミリ秒でエンコードおよびデコードします。これは、リアルタイム送信に必要な速度よりも 35 倍高速です。

パフォーマンスに加えて、サウンド復元の品質も向上させることができました。MUSHRA スケールによると、Lyra V3.2 コーデックを使用した場合のビットレート 6 kbps、9.2 kbps、および 2 kbps での音声品質は、10 kbps、13 kbps のビットレートに対応します。 Opus コーデックを使用する場合は kbps と 14 kbps。

出所: オープンネット.ru

DDoS 保護機能を備えた信頼性の高いサイト用ホスティング、VPS VDS サーバーを購入する 🔥 DDoS攻撃対策付きの信頼性の高いウェブサイトホスティング、VPS/VDSサーバーを購入しましょう | ProHoster