Stable Diffusion machine learning system na inangkop para sa synthesis ng musika

Ang proyekto ng Riffusion ay bumubuo ng isang bersyon ng machine learning system na Stable Diffusion, na inangkop upang makabuo ng musika sa halip na mga larawan. Maaaring i-synthesize ang musika mula sa isang paglalarawan ng teksto sa natural na wika o batay sa isang iminungkahing template. Ang mga bahagi ng synthesis ng musika ay nakasulat sa Python gamit ang PyTorch framework at available sa ilalim ng lisensya ng MIT. Ang interface na nagbubuklod ay ipinatupad sa TypeScript at ipinamamahagi din sa ilalim ng lisensya ng MIT. Ang mga sinanay na modelo ay lisensyado sa ilalim ng permissive Creative ML OpenRAIL-M na lisensya para sa komersyal na paggamit.

Ang proyekto ay kawili-wili dahil ito ay patuloy na gumagamit ng "text-to-image" at "image-to-image" na mga modelo upang makabuo ng musika, ngunit minamanipula ang spectrograms bilang mga imahe. Sa madaling salita, ang classic na Stable Diffusion ay sinanay hindi sa mga litrato at larawan, ngunit sa mga larawan ng spectrograms na nagpapakita ng mga pagbabago sa frequency at amplitude ng sound wave sa paglipas ng panahon. Alinsunod dito, ang isang spectrogram ay nabuo din sa output, na pagkatapos ay na-convert sa isang audio na representasyon.

Stable Diffusion machine learning system na inangkop para sa synthesis ng musika

Magagamit din ang paraan upang baguhin ang mga kasalukuyang komposisyon ng tunog at i-synthesize ang musika mula sa isang sample, katulad ng pagbabago ng imahe sa Stable Diffusion. Halimbawa, ang henerasyon ay maaaring mag-sample ng mga spectrogram na may istilong sanggunian, pagsamahin ang iba't ibang istilo, gumawa ng maayos na paglipat mula sa isang istilo patungo sa isa pa, o gumawa ng mga pagbabago sa isang umiiral na tunog upang malutas ang mga problema tulad ng pagtaas ng volume ng mga indibidwal na instrumento, pagbabago ng ritmo, at pagbabago mga instrumento. Ginagamit din ang mga sample upang makabuo ng mga komposisyong matagal nang tumutugtog, na binubuo ng isang serye ng mga sipi na malapit sa pagitan na bahagyang nag-iiba sa paglipas ng panahon. Ang mga hiwalay na nabuong mga sipi ay pinagsama sa isang tuluy-tuloy na stream gamit ang interpolation ng mga panloob na parameter ng modelo.

Stable Diffusion machine learning system na inangkop para sa synthesis ng musika

Ang isang windowed Fourier transform ay ginagamit upang lumikha ng isang spectrogram mula sa tunog. Kapag nililikha ang tunog mula sa isang spectrogram, lumitaw ang isang problema sa pagtukoy ng yugto (tanging dalas at amplitude ang naroroon sa spectrogram), para sa muling pagtatayo kung saan ginagamit ang algorithm ng pagtatantya ng Griffin-Lim.



Pinagmulan: opennet.ru

Magdagdag ng komento