Musiqa sintezi uchun moslashtirilgan Barqaror Diffuziya mashinasini o'rganish tizimi

Riffusion loyihasi tasvirlar o‘rniga musiqa yaratishga moslashtirilgan Stable Diffusion mashinani o‘rganish tizimining versiyasini ishlab chiqmoqda. Musiqa tabiiy tildagi matn tavsifidan yoki taklif qilingan shablon asosida sintezlanishi mumkin. Musiqiy sintez komponentlari PyTorch tizimi yordamida Python-da yozilgan va MIT litsenziyasi ostida mavjud. Interfeysni ulash TypeScript-da amalga oshiriladi va MIT litsenziyasi ostida ham tarqatiladi. O'qitilgan modellar tijorat maqsadlarida foydalanish uchun ruxsat beruvchi Creative ML OpenRAIL-M litsenziyasi ostida litsenziyalangan.

Loyiha musiqa yaratish uchun “matn-tasvir” va “tasvir-tasvir” modellaridan foydalanishda davom etishi bilan qiziq, lekin spektrogrammalarni tasvir sifatida boshqaradi. Boshqacha qilib aytganda, klassik Stabil diffuziya fotosuratlar va rasmlarda emas, balki vaqt o'tishi bilan tovush to'lqinining chastotasi va amplitudasidagi o'zgarishlarni aks ettiruvchi spektrogrammalarning tasvirlarida o'qitiladi. Shunga ko'ra, chiqishda spektrogramma ham hosil bo'ladi, keyinchalik u audio tasvirga aylanadi.

Musiqa sintezi uchun moslashtirilgan Barqaror Diffuziya mashinasini o'rganish tizimi

Usul, shuningdek, Barqaror diffuziyadagi tasvirni o'zgartirishga o'xshash, mavjud ovoz kompozitsiyalarini o'zgartirish va namunadagi musiqani sintez qilish uchun ham ishlatilishi mumkin. Masalan, avlod mos yozuvlar uslubiga ega bo'lgan spektrogrammalardan namuna olishi, turli uslublarni birlashtirishi, bir uslubdan ikkinchisiga silliq o'tishni amalga oshirishi yoki alohida asboblarning ovozini oshirish, ritmni o'zgartirish va o'zgartirish kabi muammolarni hal qilish uchun mavjud tovushga o'zgartirishlar kiritishi mumkin. asboblar. Namunalar, shuningdek, vaqt o'tishi bilan bir oz o'zgarib turadigan bir-biriga yaqin bo'lgan parchalar seriyasidan tashkil topgan uzoq davom etadigan kompozitsiyalarni yaratish uchun ham qo'llaniladi. Alohida yaratilgan o'tishlar modelning ichki parametrlarini interpolyatsiya qilish yordamida uzluksiz oqimga birlashtiriladi.

Musiqa sintezi uchun moslashtirilgan Barqaror Diffuziya mashinasini o'rganish tizimi

Ovozdan spektrogramma yaratish uchun oynali Furye transformatsiyasi qo'llaniladi. Spektrogrammadan tovushni qayta yaratishda fazani aniqlash bilan bog'liq muammo paydo bo'ladi (spektrogrammada faqat chastota va amplituda mavjud), uni qayta qurish uchun Griffin-Limning taxminiy algoritmi qo'llaniladi.



Manba: opennet.ru

a Izoh qo'shish