Mozilla Common Voice 8.0 音声アップデート

Mozilla は、約 200 人からの発音サンプルを含む Common Voice データセットのアップデートをリリースしました。データはパブリックドメイン(CC0)として公開されています。提案されたセットは、機械学習システムで音声認識および合成モデルを構築するために使用できます。前回のアップデートと比較して、コレクション内のスピーチ素材の量は 30% 増加し、スピーチの時間は 13.9 時間から 18.2 千時間になりました。サポートされる言語の数は67から87に増加しました。

ロシア語のセットには、参加者 2452 名、スピーチ資料 193 時間 (参加者 2136 名、173 時間)、ベラルーシ語 - 参加者 6160 名、987 時間 (参加者 3831 名、356 時間)、ウクライナ語 - が含まれます。参加者 684 名、所要時間 76 時間 (参加者 615 名、所要時間 66 時間)。 79人以上が英語での資料の作成に参加し、2886時間の確認されたスピーチを口述筆記しました(参加者は75人で2637時間)。

Common Voice プロジェクトは、声と話し方の多様性を考慮した音声パターンのデータベースを蓄積するための共同作業を組織することを目的としていることに注意してください。ユーザーは、画面に表示されたフレーズを発声したり、他のユーザーが追加したデータの品質を評価したりできます。人間の音声の典型的なフレーズのさまざまな発音の記録を含む蓄積されたデータベースは、機械学習システムや研究プロジェクトで制限なく使用できます。 Vosk 連続音声認識ライブラリの作者によると、Common Voice セットの欠点は、音声素材が一方的であること (20 ~ 30 歳の男性が多いこと、および女性の声を含む素材が不足していること) です。 、子供、高齢者)、辞書の多様性の欠如(同じフレーズの繰り返し)、そして歪んだMP3形式での録音の配布。

さらに、音声認識システム、音声合成、自然言語処理を作成するための機械学習手法を提供する NVIDIA NeMo 1.6 ツールキットのリリースにも注目してください。 NeMo には、Common Voice 音声データを使用して NVIDIA によって作成され、さまざまな言語、アクセント、音声形式をカバーする、PyTorch フレームワークに基づく機械学習システム用のすぐに使用できるトレーニング済みモデルが含まれています。このモデルは、音声ベースの対話システム、文字起こしプラットフォーム、自動コールセンターを開発する研究者にとって役立つ可能性があります。たとえば、NVIDIA NeMo は、MTS や Sberbank の自動音声サービスで使用されています。 NeMo コードは、PyTorch を使用して Python で作成され、Apache 2.0 ライセンスに基づいて配布されます。

出所: オープンネット.ru

コメントを追加します