Mozilla 更新了其 Common Voice 資料集,包含來自超過 200 萬人的發音樣本。該數據作為公共領域 (CC0) 發布。所提出的集合可用於機器學習系統來建立語音辨識和合成模型。與上次更新相比,收錄的演講素材量從32.6小時增加到33.1萬小時,其中透過審核的演講素材量為22.1萬小時。支援的語言數量從 129 種增加到 133 種,新增了阿拉貢語、伊辛德貝萊語、南索托語和圖普里語。
94.9萬人參與英語材料準備,聽寫演講3631小時(參與人數93.9萬人,聽寫3587小時)。白俄羅斯語組涵蓋8521 名參與者和1860 小時的演講材料(共有8444 名參與者和1846 小時),俄語- 3365 名參與者和281 小時(有3296 名參與者和278 小時),烏茲別克語- 2211 名參與者和265 小時(有 2200 名參與者和 265 小時),烏克蘭語 - 1120 名參與者和 114 小時(原為 1104 名參與者和 114 小時)。
Common Voice 專案組織共同工作,累積考慮到聲音和言語風格多樣性的聲音模式資料庫。用戶被邀請說出螢幕上顯示的語音短語或評估其他用戶添加的數據的品質。記錄了人類語音典型短語的各種發音的累積資料庫可以在機器學習系統和研究項目中不受限制地使用。
來源: opennet.ru
