Sistem pembelajaran mesin Difusi Stabil diadaptasi untuk sintesis musik

Proyek Riffusion sedang mengembangkan versi sistem pembelajaran mesin Difusi Stabil, yang diadaptasi untuk menghasilkan musik, bukan gambar. Musik dapat disintesis dari deskripsi teks dalam bahasa alami atau berdasarkan template yang diusulkan. Komponen sintesis musik ditulis dengan Python menggunakan kerangka PyTorch dan tersedia di bawah lisensi MIT. Pengikatan antarmuka diimplementasikan dalam TypeScript dan juga didistribusikan di bawah lisensi MIT. Model terlatih dilisensikan di bawah lisensi Creative ML OpenRAIL-M yang permisif untuk penggunaan komersial.

Proyek ini menarik karena terus menggunakan model β€œteks-ke-gambar” dan β€œgambar-ke-gambar” untuk menghasilkan musik, tetapi memanipulasi spektogram sebagai gambar. Dengan kata lain, Difusi Stabil klasik dilatih bukan pada foto dan gambar, tetapi pada gambar spektogram yang mencerminkan perubahan frekuensi dan amplitudo gelombang suara seiring waktu. Oleh karena itu, spektogram juga terbentuk pada keluaran, yang kemudian diubah menjadi representasi audio.

Sistem pembelajaran mesin Difusi Stabil diadaptasi untuk sintesis musik

Metode ini juga dapat digunakan untuk memodifikasi komposisi suara yang ada dan mensintesis musik dari sampel, mirip dengan modifikasi gambar di Stable Diffusion. Misalnya, generasi dapat mengambil sampel spektogram dengan gaya referensi, menggabungkan gaya yang berbeda, membuat transisi yang mulus dari satu gaya ke gaya lainnya, atau membuat perubahan pada suara yang ada untuk memecahkan masalah seperti meningkatkan volume instrumen individual, mengubah ritme, dan mengubah instrumen. Sampel juga digunakan untuk menghasilkan komposisi yang dimainkan dalam waktu lama, yang terdiri dari serangkaian bagian yang berjarak dekat dan sedikit berbeda dari waktu ke waktu. Bagian yang dihasilkan secara terpisah digabungkan menjadi aliran kontinu menggunakan interpolasi parameter internal model.

Sistem pembelajaran mesin Difusi Stabil diadaptasi untuk sintesis musik

Transformasi Fourier berjendela digunakan untuk membuat spektogram dari suara. Saat membuat ulang suara dari spektogram, masalah muncul dengan penentuan fase (hanya frekuensi dan amplitudo yang ada pada spektogram), untuk rekonstruksi yang menggunakan algoritma pendekatan Griffin-Lim.



Sumber: opennet.ru

Tambah komentar