Sistem pembelajaran mesin Difusi Stabil sing diadaptasi kanggo sintesis musik

Proyek Riffusion ngembangake versi sistem pembelajaran mesin Stable Diffusion, diadaptasi kanggo ngasilake musik tinimbang gambar. Musik bisa disintesis saka deskripsi teks ing basa alami utawa adhedhasar cithakan sing diusulake. Komponen sintesis musik ditulis ing Python nggunakake kerangka PyTorch lan kasedhiya ing lisensi MIT. Naleni antarmuka dileksanakake ing TypeScript lan uga disebarake ing lisensi MIT. Model sing dilatih dilisensi ing lisensi Creative ML OpenRAIL-M sing permisif kanggo panggunaan komersial.

Proyek kasebut menarik amarga terus nggunakake model "teks-kanggo-gambar" lan "gambar-kanggo-gambar" kanggo ngasilake musik, nanging manipulasi spektrogram minangka gambar. Ing tembung liya, Difusi Stabil klasik dilatih ora ing foto lan gambar, nanging ing gambar spektrogram sing nggambarake owah-owahan ing frekuensi lan amplitudo gelombang swara saka wektu. Dadi, spektrogram uga dibentuk ing output, sing banjur diowahi dadi perwakilan audio.

Sistem pembelajaran mesin Difusi Stabil sing diadaptasi kanggo sintesis musik

Cara kasebut uga bisa digunakake kanggo ngowahi komposisi swara sing ana lan nyintesis musik saka sampel, padha karo modifikasi gambar ing Stable Diffusion. Contone, generasi bisa sampel spectrograms karo gaya referensi, gabungke gaya beda, nggawe transisi Gamelan saka siji gaya kanggo liyane, utawa nggawe owah-owahan kanggo swara sing wis ana kanggo ngatasi masalah kayata nambah volume instrument individu, ngganti irama, lan ngganti. instrumen. Sampel uga digunakake kanggo ngasilake komposisi sing muter dawa, sing kasusun saka seri perangan sing rapet sing rada beda-beda saka wektu. Bagian sing digawe kanthi kapisah digabung dadi aliran terus-terusan nggunakake interpolasi paramèter internal model.

Sistem pembelajaran mesin Difusi Stabil sing diadaptasi kanggo sintesis musik

Transformasi Fourier windowed digunakake kanggo nggawe spektrogram saka swara. Nalika nggawe ulang swara saka spektrogram, ana masalah kanggo nemtokake fase (mung frekuensi lan amplitudo sing ana ing spektrogram), kanggo rekonstruksi sing digunakake algoritma perkiraan Griffin-Lim.



Source: opennet.ru

Add a comment