Mozilla Common Voice 12.0 语音更新

Mozilla 更新了其 Common Voice 数据集,包含来自超过 200 人的发音样本。 该数据作为公共领域 (CC0) 发布。 所提出的集合可用于机器学习系统来构建语音识别和合成模型。

与上次更新相比,收录的演讲材料量从23.8小时增加到25.8万小时。 超过88万人参与了英语材料的准备,口述演讲3161小时(参与人数84万人,3098小时)。 白俄罗斯语组涵盖 7903 名参与者和 1419 小时的演讲材料(有 6965 名参与者和 1217 小时),俄语 - 2815 名参与者和 229 小时(有 2731 名参与者和 215 小时),乌兹别克语 - 2092 名参与者和 262 小时(有 2025 名参与者和 258 小时),乌克兰语 - 780 名参与者和 87 小时(有 759 名参与者和 87 小时)。

Common Voice 项目旨在组织联合工作,积累考虑声音和言语风格多样性的声音模式数据库。 用户被邀请说出屏幕上显示的语音短语或评估其他用户添加的数据的质量。 记录了人类语音典型短语的各种发音的累积数据库可以在机器学习系统和研究项目中不受限制地使用。

来源: opennet.ru

添加评论