Mozilla Common Voice 7.0 音声アップデート

NVIDIA と Mozilla は、Common Voice データセットのアップデートをリリースしました。これには、182 か月前から 25% 増加した 6 人の音声サンプルが含まれています。 データはパブリックドメイン(CC0)として公開されています。 提案されたセットは、機械学習システムで音声認識および合成モデルを構築するために使用できます。

前回のアップデートと比較して、コレクション内のスピーチ素材のサイズは 9 時間から 13.9 千時間のスピーチに増加しました。 サポートされる言語の数は、ベラルーシ語、カザフ語、ウズベク語、ブルガリア語、アルメニア語、アゼルバイジャン語、バシキール語を初めてサポートするなど、60 言語から 76 言語に増加しました。 ロシア語のセットには、2136 人の参加者と 173 時間のスピーチ資料 (参加者は 1412 人で 111 時間) が含まれており、ウクライナ語のセットには 615 人の参加者で 66 時間 (459 人の参加者で 30 時間) が含まれています。

75人以上が英語での資料の作成に参加し、2637時間の確認されたスピーチを口述筆記しました(参加者は66人で1686時間)。 興味深いことに、蓄積されたデータ量の点で 2260 位の言語はルワンダであり、1040 時間が収集されました。 これにドイツ語 (920 件)、カタロニア語 (840 件)、エスペラント語 (20 件) が続きます。 音声データのサイズが最もダイナミックに増加している言語としては、タイ語 (基本の 12 倍の増加、250 時間から 8 時間)、ルガンダ語 (80 時間から 100 時間)、エスペラント語 (840 時間から 24 時間)、タミル語 ( 220 から XNUMX 時間まで)。

Common Voice プロジェクトへの参加の一環として、NVIDIA は収集したデータに基づいて、機械学習システム (PyTorch でサポート) 用の既製のトレーニング済みモデルを準備しました。 これらのモデルは、無料でオープンな NVIDIA NeMo ツールキットの一部として配布されており、たとえば、MTS や Sberbank の自動音声サービスですでに使用されています。 これらのモデルは、音声認識、音声合成、および自然言語処理システムでの使用を目的としており、音声起動対話システム、文字起こしプラットフォーム、および自動コールセンターを構築する研究者に役立つ可能性があります。 以前に利用可能だったプロジェクトとは異なり、公開されたモデルは英語の言語認識に限定されず、さまざまな言語、アクセント、音声形式をカバーしています。

Common Voice プロジェクトは、声と話し方の多様性を考慮した音声パターンのデータベースを蓄積するための共同作業を組織することを目的としていることに注意してください。 ユーザーは、画面に表示されたフレーズを発声したり、他のユーザーが追加したデータの品質を評価したりできます。 人間の音声の典型的なフレーズのさまざまな発音の記録を含む蓄積されたデータベースは、機械学習システムや研究プロジェクトで制限なく使用できます。

Vosk 連続音声認識ライブラリの作者によると、Common Voice セットの欠点は、音声素材が一方的であること (20 ~ 30 歳の男性が多いこと、および女性の声を含む素材が不足していること) です。 、子供および高齢者)、辞書の多様性の欠如(同じフレーズの繰り返し)、および歪んだ MP3 形式での録音の配布。

出所: オープンネット.ru

コメントを追加します