Sistem pembelajaran mesin Difusi Stabil diadaptasi pikeun sintésis musik

Proyék Riffusion ngamekarkeun varian sistem pembelajaran mesin Stable Diffusion diadaptasi pikeun ngahasilkeun musik tinimbang gambar. Musik tiasa disintésis ku déskripsi téks dina basa alami atanapi dumasar kana citakan anu disarankeun. Komponén sintésis musik ditulis dina Python nganggo kerangka PyTorch sareng sayogi dina lisénsi MIT. Beungkeutan sareng antarmuka dilaksanakeun dina basa TypeScript sareng ogé disebarkeun dina lisénsi MIT. Modél anu dilatih dileupaskeun dina lisénsi permisif Creative ML OpenRAIL-M pikeun panggunaan komérsial.

Proyék éta pikaresepeun dina éta terus ngagunakeun modél "téks-ka-gambar" sareng "gambar-ka-gambar" pikeun generasi musik, tapi ngamanipulasi spéktrogram salaku gambar. Dina basa sejen, Difusi Stabil klasik dilatih sanes dina poto sareng gambar, tapi dina gambar spéktrogram anu ngagambarkeun parobahan dina frékuénsi sareng amplitudo gelombang sora kana waktosna. Sasuai, spéktrogram ogé kabentuk dina kaluaran, anu teras dirobih janten perwakilan audio.

Sistem pembelajaran mesin Difusi Stabil diadaptasi pikeun sintésis musik

Métode ieu ogé tiasa dianggo pikeun ngarobih komposisi sora sareng sintésis musik sampel anu tos aya, sami sareng modifikasi gambar dina Stable Diffusion. Salaku conto, generasi tiasa nyetél spéktrogram sampel kalayan gaya rujukan, ngagabungkeun gaya anu béda, ngalaksanakeun transisi anu lancar tina hiji gaya ka gaya anu sanés, atanapi ngadamel parobihan kana sora anu aya pikeun ngarengsekeun masalah sapertos ningkatkeun volume instrumen individu, ngarobih wirahma, ngaganti instrumen. Pola ogé dipaké pikeun ngahasilkeun komposisi lila-maén, diwangun ku runtuyan passages nu deukeut ka unggal lianna, varying rada kana waktu. fragmen dihasilkeun misah digabungkeun kana aliran kontinyu ku interpolasi parameter internal model.

Sistem pembelajaran mesin Difusi Stabil diadaptasi pikeun sintésis musik

Pikeun nyieun spéktrogram tina sora, transformasi Fourier windowed dipaké. Nalika nyiptakeun deui sora tina spéktrogram, aya masalah pikeun nangtukeun fase (ukur frékuénsi sareng amplitudo anu aya dina spéktrogram), pikeun rekonstruksi anu dianggo algoritma perkiraan Griffin-Lim.



sumber: opennet.ru

Tambahkeun komentar