Sistema de aprendizado de máquina de difusão estável adaptado para síntese musical

O projeto Riffusion está desenvolvendo uma versão do sistema de aprendizado de máquina Stable Diffusion, adaptado para gerar música em vez de imagens. A música pode ser sintetizada a partir de uma descrição de texto em linguagem natural ou baseada em um modelo proposto. Os componentes de síntese musical são escritos em Python usando a estrutura PyTorch e estão disponíveis sob a licença MIT. A ligação da interface é implementada em TypeScript e também distribuída sob a licença do MIT. Os modelos treinados são licenciados sob uma licença permissiva Creative ML OpenRAIL-M para uso comercial.

O projeto é interessante porque continua a usar os modelos “texto para imagem” e “imagem para imagem” para gerar música, mas manipula espectrogramas como imagens. Em outras palavras, a Difusão Estável clássica não é treinada em fotografias e imagens, mas em imagens de espectrogramas que refletem mudanças na frequência e amplitude de uma onda sonora ao longo do tempo. Assim, um espectrograma também é formado na saída, que é então convertido em uma representação de áudio.

Sistema de aprendizado de máquina de difusão estável adaptado para síntese musical

O método também pode ser usado para modificar composições sonoras existentes e sintetizar música a partir de uma amostra, semelhante à modificação de imagem em Difusão Estável. Por exemplo, a geração pode amostrar espectrogramas com um estilo de referência, combinar diferentes estilos, fazer transições suaves de um estilo para outro ou fazer alterações em um som existente para resolver problemas como aumentar o volume de instrumentos individuais, alterar o ritmo e alterar instrumentos. Os samples também são usados ​​para gerar composições de longa duração, compostas por uma série de passagens estreitamente espaçadas que variam ligeiramente ao longo do tempo. As passagens geradas separadamente são combinadas em um fluxo contínuo usando interpolação dos parâmetros internos do modelo.

Sistema de aprendizado de máquina de difusão estável adaptado para síntese musical

Uma transformada de Fourier em janela é usada para criar um espectrograma a partir do som. Ao recriar o som a partir de um espectrograma, surge um problema com a determinação da fase (apenas a frequência e a amplitude estão presentes no espectrograma), para cuja reconstrução é utilizado o algoritmo de aproximação de Griffin-Lim.



Fonte: opennet.ru

Adicionar um comentário