音声合成システム Silero を新リリース

Silero Text-to-Speech ニューラル ネットワーク音声合成システムの新しい公開リリースが利用可能です。 このプロジェクトの主な目的は、企業の商用ソリューションに劣らず、高価なサーバー機器を使用せずに誰でもアクセスできる、最新の高品質な音声合成システムを作成することです。

モデルは GNU AGPL ライセンスに基づいて配布されていますが、プロジェクトを開発している会社はモデルをトレーニングするためのメカニズムを公開していません。 実行するには、PyTorch と ONNX 形式をサポートするフレームワークを使用できます。 Silero の音声合成は、大幅に変更された最新のニューラル ネットワーク アルゴリズムとデジタル信号処理手法の使用に基づいています。

最新の音声合成用ニューラル ネットワーク ソリューションの主な問題は、多くの場合、有料のクラウド ソリューション内でのみ利用可能であり、公開製品はハードウェア要件が高く、品質が低く、完全ではなくすぐに使用できるものではないことです。製品。 たとえば、新しく人気のあるエンドツーエンド合成アーキテクチャの 16 つである VITS を合成モード (つまり、モデル トレーニング用ではない) でスムーズに実行するには、XNUMX ギガバイトを超える VRAM を搭載したビデオ カードが必要です。

現在の傾向に反して、Silero ソリューションは、AVX1 命令を備えた Intel プロセッサの 86 x2 スレッドでも正常に実行されます。 4 プロセッサ スレッドでは、30 kHz 合成モードでは 60 秒あたり 8 ~ 24 秒、15 kHz モードでは 20 ~ 48 秒、10 kHz モードでは約 XNUMX 秒で合成できます。

新しい Silero リリースの主な機能:

  • モデルのサイズは 2 倍の 50 メガバイトに縮小されました。
  • モデルは一時停止する方法を知っています。
  • ロシア語の高品質な音声が 4 つあります (ランダムな音声も無数にあります)。 発音例;
  • これらのモデルは 10 倍高速になり、たとえば 24 kHz モードでは、20 つのプロセッサ スレッドで 4 秒あたり最大 XNUMX 秒のオーディオを合成できます。
  • XNUMX つの言語のすべての音声オプションが XNUMX つのモデルにパッケージ化されています。
  • モデルはテキストの段落全体を入力として受け入れることができ、SSML タグがサポートされています。
  • 合成は、8、24、48 kHz から選択できる XNUMX つのサンプリング周波数で同時に動作します。
  • 「子どもの問題」は解決されました:不安定さと言葉の不足。
  • アクセントの自動配置と文字「е」の配置を制御するフラグを追加しました。

現在、合成の最新バージョンでは 4 つのロシア語音声が公開されていますが、近い将来、次のバージョンが次の変更を加えて公開される予定です。

  • 合成速度はさらに 2 ~ 4 倍増加します。
  • CIS 言語の合成モデルが更新されます: カルムイク語、タタール語、ウズベク語、ウクライナ語。
  • ヨーロッパ言語のモデルが追加されます。
  • インド言語のモデルが追加されます。
  • 英語対応モデルも追加予定です。

Silero 合成に固有のシステムの故障の一部:

  • RHVoice などの従来の合成ソリューションとは異なり、Silero 合成には SAPI 統合、簡単にインストールできるクライアント、または Windows および Android 用の統合がありません。
  • この速度は、このようなソリューションとしては前例のないほど高速ですが、弱いプロセッサーで高品質のオンザフライ合成を行うには十分ではない可能性があります。
  • 自動アクセント ソリューションは同形異義語 (城や城などの単語) を処理しないため、依然として間違いが発生しますが、これは将来のリリースで修正される予定です。
  • 現在のバージョンの合成は、モデル内のモジュールの 2 つが量子化されているため、AVXXNUMX 命令のないプロセッサでは機能しません (または、PyTorch 設定を具体的に変更する必要があります)。
  • 現在のバージョンの合成には基本的に XNUMX つの PyTorch 依存関係があり、すべての要素がモデルと JIT パッケージ内に「組み込まれ」ています。 モデルのソース コードは公開されておらず、他の言語の PyTorch クライアントからモデルを実行するためのコードも公開されていません。
  • モバイル プラットフォームで利用できる Libtorch は、ONNX ランタイムよりもはるかに容量が大きくなりますが、このモデルの ONNX バージョンはまだ利用できません。

出所: オープンネット.ru

コメントを追加します