适用于音乐合成的稳定扩散机器学习系统

Riffusion 项目正在开发机器学习系统 Stable Diffusion 的一个版本,适用于生成音乐而不是图像。 音乐可以根据自然语言的文本描述或基于建议的模板来合成。 音乐合成组件是使用 PyTorch 框架用 Python 编写的,可在 MIT 许可证下使用。 接口绑定是在 TypeScript 中实现的,并且也是在 MIT 许可证下分发的。 经过训练的模型根据商业用途的宽松 Creative ML OpenRAIL-M 许可证获得许可。

该项目的有趣之处在于它继续使用“文本到图像”和“图像到图像”模型来生成音乐,但将频谱图作为图像进行操作。 换句话说,经典的稳定扩散不是在照片和图片上进行训练,而是在反映声波频率和幅度随时间变化的频谱图图像上进行训练。 因此,在输出处也会形成频谱图,然后将其转换为音频表示形式。

适用于音乐合成的稳定扩散机器学习系统

该方法还可用于修改现有的声音作品并从样本合成音乐,类似于稳定扩散中的图像修改。 例如,生成可以使用参考风格对声谱图进行采样,组合不同的风格,从一种风格平滑过渡到另一种风格,或者对现有声音进行更改以解决诸如增加单个乐器的音量、改变节奏和改变声音等问题。仪器。 样本还用于生成长时间演奏的作品,由一系列间隔紧密的段落组成,这些段落随着时间的推移略有变化。 使用模型内部参数的插值将单独生成的段落组合成连续流。

适用于音乐合成的稳定扩散机器学习系统

加窗傅立叶变换用于从声音创建频谱图。 当从频谱图中重建声音时,确定相位(频谱图上仅存在频率和幅度)会出现问题,为此使用 Griffin-Lim 近似算法进行重建。



来源: opennet.ru

添加评论