Whisper语音识别与翻译系统代码已开放

开发人工智能领域公共项目的 OpenAI 项目发布了与 Whisper 语音识别系统相关的进展。 据称,对于英语语音,该系统提供了接近人类识别的自动识别可靠性和准确性。 基于PyTorch框架的参考实现的代码和一组已经训练好的可供使用的模型已经开放。 该代码在 MIT 许可证下开放。

为了训练该模型,使用了 680 万小时的语音数据,这些数据是从涵盖不同语言和主题领域的多个集合中收集的。 训练中涉及的语音数据大约有1/3是英语以外的语言。 所提出的系统可以正确处理重音发音、背景噪音和技术术语的使用等情况。 除了将语音转录为文本之外,该系统还可以将任何语言的语音翻译为英语,并检测音频流中语音的出现。

这些模型由两种表示形式组成:英语模型和多语言模型,该模型还支持俄语、乌克兰语和白俄罗斯语。 反过来,每个表示又分为 5 个选项,模型中涵盖的参数大小和数量各不相同。 尺寸越大,识别的准确率和质量越高,但对GPU显存大小的要求也越高,性能也越低。 例如,最小选项包含 39 万个参数,需要 1 GB 显存;最大选项包含 1550 亿个参数,需要 10 GB 显存。 最小选项比最大选项快 32 倍。

Whisper语音识别与翻译系统代码已开放

该系统采用 Transformer 神经网络架构,其中包括相互交互的编码器和解码器。 音频被分解为 30 秒的块,这些块被转换为 log-Mel 频谱图并发送到编码器。 编码器的输出被发送到解码器,解码器预测与特殊标记混合的文本表示,这些标记允许在一个通用模型中解决诸如语言检测、解释短语发音的时间顺序、语音转录等问题。不同的语言,并翻译成英语。

来源: opennet.ru

添加评论