Google Translatotronはユーザーの声を模倣する同時音声翻訳技術です

Google の開発者は、話し言葉をある言語から別の言語に翻訳できるテクノロジーを作成する新しいプロジェクトを発表しました。 Translatotron と呼ばれる新しい翻訳ツールとその類似品の主な違いは、中間テキストを使用せずに音声のみで動作することです。 このアプローチにより、翻訳者の作業を大幅にスピードアップすることができました。 もう XNUMX つの注目すべき点は、システムがスピーカーの周波数とトーンを非常に正確に模倣していることです。

Translatotron は、数年にわたる継続的な作業のおかげで作成されました。 Google の研究者たちは、直接音声変換の可能性を長い間検討してきましたが、最近まで計画を実行できませんでした。

Google Translatotronはユーザーの声を模倣する同時音声翻訳技術です

現在使用されている同時翻訳システムは、ほとんどの場合、同じアルゴリズムに従って機能します。 最初の段階では、元の音声がテキストに変換されます。 一方の言語のテキストは、もう一方の言語のテキストに変換されます。 この後、結果のテキストが目的の言語で音声に変換されます。 この方法はうまく機能しますが、欠点がないわけではありません。 各段階でエラーが重なり合い、翻訳の品質の低下につながる可能性があります。

望ましい結果を達成するために、研究者らは音響スペクトログラムを研究しました。 彼らは、音声をテキストに変換する手順を省略して、ある言語のスペクトログラムを別の言語のスペクトログラムに変換しようとしました。


Google Translatotronはユーザーの声を模倣する同時音声翻訳技術です

このような変換の複雑さにも関わらず、音声処理は以前のように XNUMX つのステップで行われるのではなく、XNUMX つのステップで行われることは注目に値します。 十分な量の計算能力を自由に使える Translatotron は、同時翻訳をより高速に実行します。 もう XNUMX つの重要な点は、このアプローチにより、元の音声の特徴とイントネーションを保持できることです。

現段階では、Translatotron は標準システムと同等の高い翻訳精度を誇ることはできません。 それにもかかわらず、研究者らは、実行された翻訳のほとんどは十分な品質であると述べています。 研究者らは同時音声翻訳をさらに改善することを目指しており、将来的にも Translatotron の作業は継続されます。



出所: 3dnews.ru

コメントを追加します