Mozilla Common Voice 8.0 语音更新

Mozilla 发布了通用语音数据集的更新,其中包括来自近 200 人的发音样本。 该数据作为公共领域 (CC0) 发布。 所提出的集合可用于机器学习系统来构建语音识别和合成模型。 与之前的更新相比,集合中的演讲材料量增加了 30%——从 13.9 小时到 18.2 小时的演讲。 支持的语言数量从 67 种增加到 87 种。

俄语组包括 2452 名参与者和 193 小时的演讲材料(有 2136 名参与者和 173 小时),白俄罗斯语组有 6160 名参与者和 987 小时(有 3831 名参与者和 356 小时),乌克兰语组有 - 684 名参与者和 76 小时(有 615 名参与者和 66 小时)。 超过79万人参与了英文材料的准备,听写了2886小时的确认演讲(参与人数为75万人,2637小时)。

让我们提醒您,共同声音项目旨在组织联合工作,积累考虑声音和言语风格多样性的声音模式数据库。 用户被邀请说出屏幕上显示的语音短语或评估其他用户添加的数据的质量。 记录了人类语音典型短语的各种发音的累积数据库可以在机器学习系统和研究项目中不受限制地使用。 据Vosk连续语音识别库的作者介绍,Common Voice集的缺点是语音素材的片面性(以20-30岁男性人群为主,女性声音素材缺乏) 、儿童和老人)、词典缺乏可变性(相同短语的重复)以及以扭曲的 MP3 格式录制的分布。

此外,我们还可以注意到 NVIDIA NeMo 1.6 工具包的发布,它提供了用于创建语音识别系统、语音合成和自然语言处理的机器学习方法。 NeMo 包含基于 PyTorch 框架的机器学习系统的即用型训练模型,由 NVIDIA 使用 Common Voice 语音数据编写,涵盖各种语言、口音和语音形式。 这些模型可能对开发基于语音的对话系统、转录平台和自动呼叫中心的研究人员有用。 例如,MTS 和 Sberbank 的自动语音服务中使用了 NVIDIA NeMo。 NeMo 代码是使用 PyTorch 用 Python 编写的,并在 Apache 2.0 许可证下分发。

来源: opennet.ru

添加评论