Sistem pembelajaran mesin Resapan Stabil disesuaikan untuk sintesis muzik

Projek Riffusion sedang membangunkan versi sistem pembelajaran mesin Stable Diffusion, disesuaikan untuk menjana muzik dan bukannya imej. Muzik boleh disintesis daripada penerangan teks dalam bahasa semula jadi atau berdasarkan templat yang dicadangkan. Komponen sintesis muzik ditulis dalam Python menggunakan rangka kerja PyTorch dan tersedia di bawah lesen MIT. Pengikatan antara muka dilaksanakan dalam TypeScript dan juga diedarkan di bawah lesen MIT. Model terlatih dilesenkan di bawah lesen Creative ML OpenRAIL-M yang permisif untuk kegunaan komersial.

Projek ini menarik kerana ia terus menggunakan model "teks-ke-imej" dan "imej-ke-imej" untuk menjana muzik, tetapi memanipulasi spektrogram sebagai imej. Dalam erti kata lain, Resapan Stabil klasik dilatih bukan pada gambar dan gambar, tetapi pada imej spektrogram yang mencerminkan perubahan dalam frekuensi dan amplitud gelombang bunyi dari semasa ke semasa. Sehubungan itu, spektrogram juga terbentuk pada output, yang kemudiannya ditukar menjadi perwakilan audio.

Sistem pembelajaran mesin Resapan Stabil disesuaikan untuk sintesis muzik

Kaedah ini juga boleh digunakan untuk mengubah suai gubahan bunyi sedia ada dan mensintesis muzik daripada sampel, serupa dengan pengubahsuaian imej dalam Stable Diffusion. Sebagai contoh, penjanaan boleh mencuba spektrogram dengan gaya rujukan, menggabungkan gaya yang berbeza, membuat peralihan yang lancar dari satu gaya ke gaya yang lain atau membuat perubahan kepada bunyi sedia ada untuk menyelesaikan masalah seperti meningkatkan volum instrumen individu, menukar irama dan menukar instrumen. Sampel juga digunakan untuk menghasilkan gubahan yang dimainkan lama, terdiri daripada satu siri petikan jarak rapat yang berbeza sedikit mengikut masa. Petikan yang dijana secara berasingan digabungkan menjadi aliran berterusan menggunakan interpolasi parameter dalaman model.

Sistem pembelajaran mesin Resapan Stabil disesuaikan untuk sintesis muzik

Transformasi Fourier bertingkap digunakan untuk mencipta spektrogram daripada bunyi. Apabila mencipta semula bunyi daripada spektrogram, masalah timbul dengan menentukan fasa (hanya frekuensi dan amplitud terdapat pada spektrogram), untuk pembinaan semula yang menggunakan algoritma penghampiran Griffin-Lim.



Sumber: opennet.ru

Tambah komen