Mozilla Common Voice 12.0 語音更新

Mozilla 更新了其 Common Voice 資料集,包含來自超過 200 萬人的發音樣本。 該數據作為公共領域 (CC0) 發布。 所提出的集合可用於機器學習系統來建立語音辨識和合成模型。

與上次更新相比,收錄的演講資料量從23.8小時增加到25.8萬小時。 超過88萬人參與了英語材料的準備,口述演講3161小時(參與人數84萬人,3098小時)。 白俄羅斯語組涵蓋7903 名參與者和1419 小時的演講材料(有6965 名參與者和1217 小時),俄語- 2815 名參與者和229 小時(有2731 名參與者和215 小時),烏茲別克語- 2092 名參與者和262 小時(有 2025 名參與者和 258 小時),烏克蘭語 - 780 名參與者和 87 小時(有 759 名參與者和 87 小時)。

Common Voice 計畫旨在組織共同工作,累積考慮聲音和言語風格多樣性的聲音模式資料庫。 用戶被邀請說出螢幕上顯示的語音短語或評估其他用戶添加的數據的品質。 記錄了人類語音典型短語的各種發音的累積資料庫可以在機器學習系統和研究項目中不受限制地使用。

來源: opennet.ru

添加評論