Mozilla Common Voice 8.0 語音更新

Mozilla 發布了通用語音資料集的更新,其中包括來自近 200 萬人的發音樣本。 該數據作為公共領域 (CC0) 發布。 所提出的集合可用於機器學習系統來建立語音辨識和合成模型。 與先前的更新相比,集合中的演講材料量增加了 30%——從 13.9 小時到 18.2 小時的演講。 支援的語言數量從 67 種增加到 87 種。

俄語組有 2452 名參與者和 193 小時的演講材料(有 2136 名參與者和 173 小時),白俄羅斯語有 6160 名參與者和 987 小時(有 3831 名參與者和 356 小時),烏克蘭語有 - 684名參與者和76 小時(有615 名參與者和66 小時)。 超過79萬人參與了英文資料的準備,聽寫了2886小時的確認演講(參與人數為75萬人,2637小時)。

讓我們提醒您,共同聲音專案旨在組織共同工作,累積考慮聲音和言語風格多樣性的聲音模式資料庫。 用戶被邀請說出螢幕上顯示的語音短語或評估其他用戶添加的數據的品質。 記錄了人類語音典型短語的各種發音的累積資料庫可以在機器學習系統和研究項目中不受限制地使用。 根據Vosk連續語音辨識庫的作者介紹,Common Voice集的缺點是語音素材的片面性(以20-30歲男性人群為主,女性聲音素材缺乏) 、兒童和老人)、字典缺乏可變性(相同短語的重複)以及以扭曲的MP3 格式錄製的分佈。

此外,我們還可以注意到 NVIDIA NeMo 1.6 工具包的發布,它提供了用於創建語音識別系統、語音合成和自然語言處理的機器學習方法。 NeMo 包含基於 PyTorch 框架的機器學習系統的即用型訓練模型,由 NVIDIA 使用 Common Voice 語音資料編寫,涵蓋各種語言、口音和語音形式。 這些模型可能對開發基於語音的對話系統、轉錄平台和自動呼叫中心的研究人員有用。 例如,MTS 和 Sberbank 的自動語音服務中使用了 NVIDIA NeMo。 NeMo 程式碼是使用 PyTorch 用 Python 編寫的,並在 Apache 2.0 許可證下分發。

來源: opennet.ru

添加評論