该集还
DeepSpeech 比传统系统简单得多,同时在存在外来噪声的情况下提供更高质量的识别。 该开发不使用传统的声学模型和音素概念,而是使用基于神经网络的经过良好优化的机器学习系统,无需开发单独的组件来对各种偏差进行建模,例如噪声、回声和语音特征.
这种方法的缺点是,为了获得高质量的神经网络识别和训练,DeepSpeech 引擎需要在真实条件下由不同语音和存在自然噪声的情况下口述的大量异构数据。
此类数据的收集由在 Mozilla 中创建的项目执行
Common Voice 项目的最终目标是积累 10 小时的典型人类语音短语各种发音的录音,这将达到可接受的识别错误水平。 在目前的形式下,项目参与者已经口述了总计 4.3 小时,其中 3.5 小时已经过测试。 在为 DeepSpeech 训练英语语言的最终模型时,使用了 3816 小时的演讲,此外还包括来自 LibriSpeech、Fisher 和 Switchboard 项目的 Common Voice 数据,还包括大约 1700 小时的转录广播节目录音。
使用提供下载的现成英语语言模型时,DeepSpeech 的识别错误水平在测试集评估时为 7.5%
DeepSpeech 由两个子系统组成——声学模型和解码器。 声学模型使用深度机器学习方法来计算某些符号出现在输入声音中的概率。 解码器使用束搜索算法将符号概率数据转换为文本表示。
主
- 提出了一种新的流解码器,它提供更高的响应能力并且不依赖于处理后的音频数据的大小。 因此,新版本的 DeepSpeech 能够将识别延迟减少到 260 毫秒,比以前快 73%,并允许您在即时语音识别解决方案中使用 DeepSpeech。
- 已对 API 进行更改,并已完成统一函数名称的工作。 已添加功能以获取有关同步的额外元数据,不仅允许接收文本表示作为输出,还允许跟踪单个字符和句子与音频流中某个位置的绑定。
- 对使用库的支持已添加到学习模块的工具包中
深度神经网络 优化循环神经网络 (RNN) 的工作,这使得模型训练性能显着提高(大约两倍)成为可能,但需要更改违反与先前准备的模型的兼容性的代码。 - TensorFlow 版本的最低要求已从 1.13.1 提高到 1.14.0。 添加了对 TensorFlow Lite 轻量级版本的支持,将 DeepSpeech 包大小从 98 MB 减少到 3.7 MB。 为了在嵌入式和移动设备上使用,模型的打包文件大小也从 188 MB 减小到 47 MB(模型训练后使用量化方法进行压缩)。
- 语言模型已被翻译成不同格式的数据结构,允许您在加载时将文件映射到内存中。 对旧格式的支持已停止。
- 更改了加载语言模型文件的方式,减少了内存消耗,减少了模型创建后处理第一个请求的延迟。 DeepSpeech 现在在运行时消耗的内存减少了 22 倍,启动速度提高了 500 倍。
- 在语言模型中过滤了稀有词。 用于训练模型的文本中最流行的单词总数已减少到 500 个。 清理使语言模型的大小从 1800MB 减少到 900MB 成为可能,而对识别错误的水平几乎没有影响。
- 添加了对各种的支持
技术员 为训练中使用的声音数据创建额外的变化(增强)(例如,添加到包含失真或噪声的选项集中)。 - 添加了一个带有绑定的库,用于与基于 .NET 平台的应用程序集成。
- 重新设计的文档,现在收集在一个单独的站点上
deepspeech.readthedocs.io .
来源: opennet.ru