Mozilla Common Voice 12.0 语音更新

Mozilla 更新了其 Common Voice 语音数据集,其中包含超过 200 万人的语音样本。该数据以公共领域 (CC0) 发布。这些数据集可用于机器学习系统,以构建语音识别和合成模型。

与上次更新相比,语料库中的语音材料时长从23.8万小时增加到25.8万小时。超过88万人参与了英语语料库的制作,共录制了3161小时的语音(此前为84万人参与,录制时长3098小时)。白俄罗斯语语料库包含7903名参与者和1419小时的语音材料(此前为6965名参与者和1217小时),俄语语料库包含2815名参与者和229小时的语音材料(此前为2731名参与者和215小时),乌兹别克语语料库包含2092名参与者和262小时的语音材料(此前为2025名参与者和258小时),乌克兰语语料库包含780名参与者和87小时的语音材料(此前为759名参与者和87小时)。

Common Voice 项目旨在组织联合工作,积累考虑声音和言语风格多样性的声音模式数据库。 用户被邀请说出屏幕上显示的语音短语或评估其他用户添加的数据的质量。 记录了人类语音典型短语的各种发音的累积数据库可以在机器学习系统和研究项目中不受限制地使用。

来源: opennet.ru

为具有 DDoS 保护、VPS VDS 服务器的站点购买可靠的主机 🔥 购买具备 DDoS 防护的可靠网站托管服务,包括 VPS 和 VDS 服务器 | ProHoster