ズベルバンク エコシステムの一部である MDG 企業グループは、あらゆるテキストをスムーズかつ表現力豊かに読むことができると言われている高度な音声合成プラットフォームの開発を発表しました。
提示されたソリューションは、音声合成システムの第 XNUMX 世代です。 高品質のオーディオ信号は、複雑なニューラル ネットワーク モデルによって生成されます。 開発者らは、これらのアルゴリズムの結果がロシア語の音声の最も現実的な合成であると主張しています。
このプラットフォームには、基本辞書にまだ存在しない単語のストレスを予測するモジュールが含まれています。 さらに、一般的なスペルミスの自動修正も提供されます。 テキストの深い言語分析のおかげで、難しい場合でも発音は言語の標準に対応します。
このプラットフォームのもう XNUMX つの利点は、GPU アクセラレータを備えた高価なサーバーが必要ないことです。 このテクノロジーは、クラウド サービスを使用する方法と、独自のソリューションに統合する方法の XNUMX つの方法で使用できます。
この開発の応用分野としては、チャットボットや音声アシスタント、情報・通知サービス、通話中にテキストを瞬時に合成できる音声サービスなどが考えられる。
「クライアントとの通信の自動化シナリオでは、固定メッセージがなく、通話中にあらゆるテキストを合成できるため、このテクノロジーにより各加入者と個別に対話することができます」と開発者は述べています。
テクノロジーを試すことができます
出所: 3dnews.ru