谷歌发布了 Lyra 音频编解码器,用于在连接质量较差的情况下进行语音传输

谷歌推出了一种新的音频编解码器 Lyra,经过优化,即使在使用非常慢的通信通道时也能实现最高的语音质量。 Lyra 实现代码是用 C++ 编写的,并在 Apache 2.0 许可证下开放,但在操作所需的依赖项中,有一个专有库 libsparse_inference.so ,其中包含用于数学计算的内核实现。 值得注意的是,专有库是临时的 - 未来谷歌承诺开发一个开放的替代品并为各种平台提供支持。

在低速传输语音数据的质量方面,Lyra 明显优于采用数字信号处理方法的传统编解码器。 为了在传输信息量有限的情况下实现高质量的语音传输,除了传统的音频压缩和信号转换方法外,Lyra还采用了基于机器学习系统的语音模型,可以让您根据信息重新创建丢失的信息。典型的言语特征。 用于生成声音的模型是使用 70 多种语言的数千小时录音进行训练的。

谷歌发布了 Lyra 音频编解码器,用于在连接质量较差的情况下进行语音传输

编解码器包括编码器和解码器。 编码器的算法归结为每 40 毫秒提取一次语音数据参数,对其进行压缩,然后通过网络将其传输给接收者。 速度为每秒 3 kbit 的通信通道足以进行数据传输。 提取的音频参数包括对数梅尔频谱图,该频谱图考虑了不同频率范围内语音的能量特征,并且在考虑人类听觉感知模型的情况下准备。

谷歌发布了 Lyra 音频编解码器,用于在连接质量较差的情况下进行语音传输

解码器使用生成模型,根据传输的音频参数重新创建语音信号。 为了降低计算复杂度,使用了基于循环神经网络的轻量级模型,它是 WaveRNN 语音合成模型的变体,它使用较低的采样频率,但在不同的频率范围内并行生成多个信号。 然后将所得信号叠加以产生与指定采样率相对应的单个输出信号。

64 位 ARM 处理器中可用的专用处理器指令也用于加速。 因此,尽管使用了机器学习,Lyra编解码器仍可用于中端智能手机上的实时语音编码和解码,表现出90毫秒的信号传输延迟。

来源: opennet.ru

添加评论