Mozilla Common Voice 9.0 語音更新

Mozilla 發布了通用語音資料集的更新,其中包括來自近 200 萬人的發音樣本。該數據作為公共領域 (CC0) 發布。所提出的集合可用於機器學習系統來建立語音辨識和合成模型。

與先前的更新相比,集合中的演講材料量增加了 10%——從 18.2 萬小時增加到 20.2 萬小時。支援的語言數量從87種增加到93種。其中27種語言累積了超過100小時的語音數據,9種語言累積了超過500小時的語音數據。對於 9 種語言,女性發言比例也有可能達到至少 45%。

超過81萬人參與了英語材料的準備,口授演講2953小時(參與人數79萬人,2886小時)。白俄羅斯語組包括6326 名參與者和1054 小時的演講材料(有6160 名參與者和987 小時),俄語- 2585 名參與者和201 小時(有2452 名參與者和193 小時),烏茲別克語- 1503 名參與者和231 小時(有 1355 名參與者和 227 小時),烏克蘭語 - 696 名參與者和 79 小時(有 684 名參與者和 76 小時)。

Common Voice 計畫旨在組織共同工作,累積考慮聲音和言語風格多樣性的聲音模式資料庫。 用戶被邀請說出螢幕上顯示的語音短語或評估其他用戶添加的數據的品質。 記錄了人類語音典型短語的各種發音的累積資料庫可以在機器學習系統和研究項目中不受限制地使用。

來源: opennet.ru

添加評論