NVIDIA 向 Mozilla Common Voice 项目投资 1.5 万美元

NVIDIA 正在向 Mozilla Common Voice 项目投资 1.5 万美元。 人们对语音识别系统的兴趣源于这样的预测:在未来十年中,语音技术将成为人们与计算机、电话、数字助理和信息亭等设备交互的主要方式之一。

语音系统的性能高度依赖于可用于训练机器学习模型的语音数据的数量和种类。 当今的语音技术主要侧重于英语语言识别,并不涵盖大量的语言、口音和语音模式。 这项投资将有助于加速公共语音数据的增长,吸引更多社区和志愿者参与,并扩大全职项目人员的数量。

让我们提醒您,共同声音项目旨在组织联合工作,积累考虑声音和言语风格多样性的声音模式数据库。 用户被邀请说出屏幕上显示的语音短语或评估其他用户添加的数据的质量。 记录了人类语音典型短语的各种发音的累积数据库可以在机器学习系统和研究项目中不受限制地使用。

Common Voice 集目前包含超过 164 人的发音示例。 已积累9种不同语言约60小时的语音数据。 俄语组有 1412 名参与者和 111 小时的演讲材料,乌克兰语组有 459 名参与者和 30 小时的演讲材料。 相比之下,超过 66 万人参与了英语材料的准备,听写了 1686 小时的经过验证的演讲。 所提出的集合可用于机器学习系统来构建语音识别和合成模型。 该数据作为公共领域 (CC0) 发布。

据Vosk连续语音识别库的作者介绍,Common Voice集的缺点是语音素材的片面性(以20-30岁男性人群为主,女性声音素材缺乏) 、儿童和老人)、词典缺乏可变性(相同短语的重复)以及以扭曲的 MP3 格式录制的分布。

来源: opennet.ru

添加评论