Googleは、接続品質が悪い場合の音声伝送用にLyraオーディオコーデックを公開しました

Google は、非常に遅い通信チャネルを使用している場合でも最高の音声品質を達成できるように最適化された新しいオーディオ コーデック Lyra を導入しました。 Lyra の実装コードは C++ で書かれており、Apache 2.0 ライセンスの下でオープンされていますが、動作に必要な依存関係の中には、数学的計算のためのカーネル実装を備えた独自のライブラリ libsparse_inference.so があります。 独自のライブラリは一時的なものであることに注意してください。将来的に Google は、オープンな代替ライブラリを開発し、さまざまなプラットフォームのサポートを提供すると約束しています。

低速で送信される音声データの品質の点で、Lyra はデジタル信号処理方式を使用する従来のコーデックよりも大幅に優れています。 Lyra では、限られた情報量で高品質な音声伝送を実現するため、従来の音声圧縮や信号変換に加え、機械学習システムに基づいた音声モデルを採用し、欠落した情報を再現します。典型的な音声の特徴。 サウンドの生成に使用されるモデルは、70 以上の言語で数千時間に及ぶ音声録音を使用してトレーニングされました。

Googleは、接続品質が悪い場合の音声伝送用にLyraオーディオコーデックを公開しました

コーデックにはエンコーダとデコーダが含まれます。 エンコーダのアルゴリズムは、要約すると、音声データ パラメータを 40 ミリ秒ごとに抽出し、圧縮して、ネットワーク経由で受信者に送信します。 データ送信には、毎秒 3 キロビットの速度の通信チャネルで十分です。 抽出された音声パラメータには、さまざまな周波数範囲の音声のエネルギー特性を考慮し、人間の聴覚モデルを考慮して作成された対数メル スペクトログラムが含まれています。

Googleは、接続品質が悪い場合の音声伝送用にLyraオーディオコーデックを公開しました

デコーダは、送信された音声パラメータに基づいて音声信号を再作成する生成モデルを使用します。 計算の複雑さを軽減するために、リカレント ニューラル ネットワークに基づく軽量モデルが使用されました。これは、WaveRNN 音声合成モデルの変形であり、より低いサンプリング周波数を使用しますが、異なる周波数範囲で複数の信号を並行して生成します。 次に、結果の信号が重ね合わされて、指定されたサンプリング レートに対応する単一の出力信号が生成されます。

64 ビット ARM プロセッサで利用可能な特殊プロセッサ命令も高速化に使用されます。 その結果、機械学習を使用しているにもかかわらず、Lyra コーデックはミッドレンジのスマートフォンでリアルタイムの音声エンコードおよびデコードに使用でき、信号伝送遅延が 90 ミリ秒であることが実証されました。

出所: オープンネット.ru

コメントを追加します