RHVoice 1.8.0 スピーチシンセサイザーのリリース

オープン音声合成システム RHVoice 1.8.0 がリリースされました。当初はロシア語に高品質のサポートを提供するために開発されましたが、その後、英語、ポルトガル語、ウクライナ語、キルギス語、タタール語、グルジア語などの他の言語にも適応されました。 コードは C++ で書かれており、LGPL 2.1 ライセンスに基づいて配布されます。 GNU/Linux、Windows、Android での作業をサポートします。 このプログラムは、テキストを音声に変換するための標準 TTS (テキスト読み上げ) インターフェイス、SAPI5 (Windows)、Speech Dispatcher (GNU/Linux)、および Android Text-to-Speech API と互換性がありますが、NVDA でも使用できます。スクリーンリーダー。 RHVoice の作成者であり主な開発者は、全盲にもかかわらずプロジェクトを開発した Olga Yakovleva です。

В версии 1.8 для платформы Android предложена новая система управления голосовыми и языковыми данными, позволяющая загружать обновления голосовых данных без обновления мобильного приложения. Проверка появления обновлений данных для добавленных голосов и языков производится автоматически. Кроме того, в новом выпуске реализована поддержка польского языка и добавлен новый голос для македонского языка. Обеспечена совместимость со свежими альфа- и бета-выпусками экранного ридера NVDA. Устранены проблемы со сборкой на платформе Linux, возникавшие при отсутствии Speech Dispatcher.

RHVoice は、HTS プロジェクト (HMM/DNN ベースの音声合成システム) の開発と統計モデルを使用したパラメトリック合成手法 (HMM に基づく統計的パラメトリック合成 - 隠れマルコフ モデル) を使用していることを思い出してください。 統計モデルの利点は、オーバーヘッド コストが低く、CPU パワーがそれほど要求されないことです。 すべての操作はユーザーのシステム上でローカルに実行されます。 XNUMX つのレベルの音声品質がサポートされています (品質が低いほど、パフォーマンスは向上し、反応時間は短くなります)。

統計モデルの欠点は、発音の品質が比較的低いことであり、自然音声の断片の組み合わせに基づいて音声を生成するシンセサイザーのレベルには達していませんが、それでも結果は非常に読みやすく、スピーカーから録音を放送しているのと似ています。 。 比較として、機械学習テクノロジーに基づくオープン音声合成エンジンとロシア語のモデルのセットを提供する Silero プロジェクトは、RHVoice よりも品質が優れています。

ロシア語では 14 個、英語では 6 個の音声オプションが利用可能で、音声は自然な音声の録音に基づいて形成されています。 設定では、速度、ピッチ、音量を変更できます。 Sonicライブラリを使用してテンポを変更できます。 入力テキストの分析に基づいて言語を自動的に検出して切り替えることが可能です(たとえば、別の言語の単語や引用符については、その言語にネイティブな合成モデルを使用できます)。 音声プロファイルがサポートされており、さまざまな言語の音声の組み合わせを定義します。

出所: オープンネット.ru

コメントを追加します