Mozilla Common Voice 7.0 语音更新

NVIDIA 和 Mozilla 发布了 Common Voice 数据集的更新,其中包括 182 人的语音样本,比 25 个月前增加了 6%。 该数据作为公共领域 (CC0) 发布。 所提出的集合可用于机器学习系统来构建语音识别和合成模型。

与之前的更新相比,收录的演讲素材规模从9小时增加到13.9万小时的演讲。 支持的语言数量从60种增加到76种,其中首次支持白俄罗斯语、哈萨克语、乌兹别克语、保加利亚语、亚美尼亚语、阿塞拜疆语和巴什基尔语。 俄语组有 2136 名参与者和 173 小时的演讲材料(有 1412 名参与者和 111 小时),乌克兰语组有 615 名参与者和 66 小时(有 459 名参与者和 30 小时)。

超过75万人参与了英文材料的准备,听写了2637小时的确认演讲(参与人数66万人,1686小时)。 有趣的是,就累积数据量而言,排名第二的语言是卢旺达,已收集了 2260 个小时。 其次是德语 (1040)、加泰罗尼亚语 (920) 和世界语 (840)。 语音数据大小增长最快的语言包括泰语(基本增长了 20 倍,从 12 小时增加到 250 小时)、卢干达语(从 8 小时增加到 80 小时)、世界语(从 100 小时增加到 840 小时)和泰米尔语(从 24 小时增加到 220 小时)。 XNUMX 至 XNUMX 小时)。小时)。

作为参与 Common Voice 项目的一部分,NVIDIA 根据收集的数据为机器学习系统(由 PyTorch 支持)准备了现成的训练模型。 这些模型作为免费开放的 NVIDIA NeMo 工具包的一部分进行分发,例如,该工具包已用于 MTS 和 Sberbank 的自动语音服务中。 这些模型旨在用于语音识别、语音合成和自然语言处理系统,并且可能对构建声控对话系统、转录平台和自动呼叫中心的研究人员有用。 与之前的项目不同,发布的模型不仅限于英语识别,还涵盖多种语言、口音和语音形式。

让我们提醒您,共同声音项目旨在组织联合工作,积累考虑声音和言语风格多样性的声音模式数据库。 用户被邀请说出屏幕上显示的语音短语或评估其他用户添加的数据的质量。 记录了人类语音典型短语的各种发音的累积数据库可以在机器学习系统和研究项目中不受限制地使用。

据Vosk连续语音识别库的作者介绍,Common Voice集的缺点是语音素材的片面性(以20-30岁男性人群为主,女性声音素材缺乏) 、儿童和老人)、词典缺乏可变性(相同短语的重复)以及以扭曲的 MP3 格式录制的分布。

来源: opennet.ru

添加评论