Mozilla Common Voice 7.0 語音更新

NVIDIA 和 Mozilla 發布了 Common Voice 資料集的更新,其中包括 182 人的語音樣本,比 25 個月前增加了 6%。 該數據作為公共領域 (CC0) 發布。 所提出的集合可用於機器學習系統來建立語音辨識和合成模型。

與先前的更新相比,收錄的演講素材規模從9小時增加到13.9萬小時的演講。 支援的語言數量從60種增加到76種,其中首次支援白俄羅斯語、哈薩克語、烏茲別克語、保加利亞語、亞美尼亞語、亞塞拜然語和巴什基爾語。 俄語組有 2136 名參與者和 173 小時的演講材料(有 1412 名參與者和 111 小時),烏克蘭語組有 615 名參與者和 66 小時(有 459 名參與者和 30 小時)。

超過75萬人參與了英文資料的準備,聽寫了2637小時的確認演講(參與人數66萬人,1686小時)。 有趣的是,就累積資料量而言,排名第二的語言是盧安達,已收集了 2260 小時。 其次是德語 (1040)、加泰隆尼亞語 (920) 和世界語 (840)。 語音資料大小成長最快的語言包括泰語(基本上成長了20 倍,從12 小時增加到250 小時)、盧幹達語(從8 小時增加到80 小時)、世界語(從100 小時增加到840 小時)和泰米爾語(從24 小時增加到220 小時)。XNUMX 至 XNUMX 小時)。小時)。

作為參與 Common Voice 計畫的一部分,NVIDIA 根據收集的資料為機器學習系統(由 PyTorch 支援)準備了現成的訓練模型。 這些模型作為免費開放的 NVIDIA NeMo 工具包的一部分進行分發,例如,該工具包已用於 MTS 和 Sberbank 的自動語音服務中。 這些模型旨在用於語音識別、語音合成和自然語言處理系統,並且可能對建構聲控對話系統、轉錄平台和自動呼叫中心的研究人員有用。 與先前的項目不同,發布的模型不僅限於英語識別,還涵蓋多種語言、口音和語音形式。

讓我們提醒您,共同聲音計畫旨在組織共同工作,累積考慮聲音和言語風格多樣性的聲音模式資料庫。 用戶被邀請說出螢幕上顯示的語音短語或評估其他用戶添加的數據的品質。 記錄了人類語音典型短語的各種發音的累積資料庫可以在機器學習系統和研究項目中不受限制地使用。

根據Vosk連續語音辨識庫的作者介紹,Common Voice集的缺點是語音素材的片面性(以20-30歲男性人群為主,女性聲音素材缺乏) 、兒童和老人)、字典缺乏可變性(相同短語的重複)以及以扭曲的MP3 格式錄製的分佈。

來源: opennet.ru

添加評論