NVIDIA、Mozilla Common Voice プロジェクトに 1.5 万ドルを投資

NVIDIA は、Mozilla Common Voice プロジェクトに 1.5 万ドルを投資しています。 音声認識システムへの関心は、今後 XNUMX 年間で音声テクノロジーが人々がコンピュータや電話からデジタル アシスタントやキオスクに至るまでのデバイスを操作する主要な方法の XNUMX つになるという予測から生まれています。

音声システムのパフォーマンスは、機械学習モデルのトレーニングに利用できる音声データの量と種類に大きく依存します。 今日の音声テクノロジーは主に英語の言語認識に焦点を当てており、膨大な数の言語、アクセント、音声パターンをカバーしていません。 この投資は、公共音声データの成長を加速し、より多くのコミュニティやボランティアを参加させ、フルタイムのプロジェクト スタッフの数を拡大するのに役立ちます。

Common Voice プロジェクトは、声と話し方の多様性を考慮した音声パターンのデータベースを蓄積するための共同作業を組織することを目的としていることに注意してください。 ユーザーは、画面に表示されたフレーズを発声したり、他のユーザーが追加したデータの品質を評価したりできます。 人間の音声の典型的なフレーズのさまざまな発音の記録を含む蓄積されたデータベースは、機械学習システムや研究プロジェクトで制限なく使用できます。

Common Voice セットには現在 164 人以上の発音例が含まれています。 9ヶ国語に及ぶ約60時間の音声データが蓄積されている。 ロシア語のセットには 1412 人の参加者と 111 時間のスピーチ資料が含まれており、ウクライナ語のセットには 459 人の参加者と 30 時間のスピーチ素材が含まれています。 比較のために、66人以上が英語での資料の作成に参加し、1686時間の検証済みのスピーチを書き取りました。 提案されたセットは、機械学習システムで音声認識および合成モデルを構築するために使用できます。 データはパブリックドメイン(CC0)として公開されています。

Vosk 連続音声認識ライブラリの作者によると、Common Voice セットの欠点は、音声素材が一方的であること (20 ~ 30 歳の男性が多いこと、および女性の声を含む素材が不足していること) です。 、子供および高齢者)、辞書の多様性の欠如(同じフレーズの繰り返し)、および歪んだ MP3 形式での録音の配布。

出所: オープンネット.ru

コメントを追加します