Spleeter 的开源,一个分离音乐和语音的系统

流媒体提供商 Deezer 已经打开 实验项目 Spleeter 的源文本,该项目开发了一种机器学习系统,用于将声源与复杂的音频作品分离。 该程序允许您从乐曲中删除人声并仅留下音乐伴奏,操纵单个乐器的声音,或丢弃音乐并留下声音以与另一个声音系列叠加,创建混音、卡拉 OK 或转录。 该项目代码是使用 Tensorflow 引擎用 Python 编写的 分发者 在麻省理工学院的许可下。

用于装载 提供 已经训练有素的模型可以将人声(一种声音)与伴奏分开,以及分为 4 和 5 个流,包括人声、鼓、贝斯、钢琴和其余声音。 Spleeter 既可以用作 Python 库,也可以用作独立的命令行实用程序。 最简单的情况,基于源文件 已创建 两个、四个或五个带有语音和伴奏组件的文件(vocals.wav、drums.wav、bass.wav、piano.wav、other.wav)。

当拆分为 2 个和 4 个线程时,Spleeter 提供非常高的性能,例如,当使用 GPU 时,将音频文件拆分为 4 个线程所需的时间比原始合成的持续时间少 100 倍。 在配备 NVIDIA GeForce GTX 1080 GPU 和 32 核 Intel Xeon Gold 6134 CPU 的系统上,历时 27 小时 90 分钟的 musDB 测试集合在 XNUMX 秒内完成了处理。

Spleeter 的开源,一个分离音乐和语音的系统



Spleeter 的优势之一是与音频分离领域的其他开发(例如开源项目)相比 打开-取消混合,提到使用从大量声音文件中构建的更高质量的模型。 由于版权限制,机器学习研究人员只能访问相当稀疏的公共音乐文件集合,而 Spleeter 的模型是使用 Deezer 庞大的音乐目录中的数据构建的。

相比之下 借助 Open-Unmix,Spleeter 的分离工具在 CPU 上测试时速度提高了约 35%,支持 MP3 文件,并且生成明显更好的结果(在 Open-Unmix 中分离声音会留下一些工具的痕迹,这可能是由于以下事实) Open-Unmix 模型仅在仅 150 个作品的集合上进行训练)。

来源: opennet.ru

添加评论