NVIDIA 向 Mozilla Common Voice 計畫投資 1.5 萬美元

NVIDIA 正在向 Mozilla Common Voice 計畫投資 1.5 萬美元。 人們對語音辨識系統的興趣源於這樣的預測:在未來十年中,語音技術將成為人們與電腦、電話、數位助理和資訊亭等設備互動的主要方式之一。

語音系統的表現高度依賴可用於訓練機器學習模型的語音資料的數量和種類。 現今的語音技術主要著重於英語語言識別,並不涵蓋大量的語言、口音和語音模式。 這項投資將有助於加速公共語音數據的成長,吸引更多社區和志工參與,並擴大全職計畫人員的數量。

讓我們提醒您,共同聲音計畫旨在組織共同工作,累積考慮聲音和言語風格多樣性的聲音模式資料庫。 用戶被邀請說出螢幕上顯示的語音短語或評估其他用戶添加的數據的品質。 記錄了人類語音典型短語的各種發音的累積資料庫可以在機器學習系統和研究項目中不受限制地使用。

Common Voice 集目前包含超過 164 人的發音範例。 已累積9種不同語言約60小時的語音數據。 俄語組有 1412 名參與者和 111 小時的演講材料,烏克蘭語組有 459 名參與者和 30 小時的演講材料。 相比之下,超過 66 萬人參與了英語材料的準備,聽寫了 1686 小時的經過驗證的演講。 所提出的集合可用於機器學習系統來建立語音辨識和合成模型。 該數據作為公共領域 (CC0) 發布。

根據Vosk連續語音辨識庫的作者介紹,Common Voice集的缺點是語音素材的片面性(以20-30歲男性人群為主,女性聲音素材缺乏) 、兒童和老人)、字典缺乏可變性(相同短語的重複)以及以扭曲的MP3 格式錄製的分佈。

來源: opennet.ru

添加評論