Musiqi sintezi üçün uyğunlaşdırılmış Stabil Diffuziya maşın öyrənmə sistemi

Riffusion layihəsi şəkillər əvəzinə musiqi yaratmaq üçün uyğunlaşdırılmış Stable Diffusion maşın öyrənmə sisteminin variantını hazırlayır. Musiqi təbii dildə mətn təsviri ilə və ya təklif olunan şablon əsasında sintez edilə bilər. Musiqi sintezi komponentləri PyTorch çərçivəsindən istifadə edərək Python dilində yazılmışdır və MIT lisenziyası altında mövcuddur. İnterfeys ilə bağlama TypeScript dilində həyata keçirilir və MIT lisenziyası ilə də paylanır. Təlim edilmiş modellər kommersiya istifadəsi üçün Creative ML OpenRAIL-M icazəli lisenziyası altında buraxılır.

Layihə maraqlıdır ki, o, musiqi yaratmaq üçün “mətndən-şəklə” və “şəkildən-şəklə” modellərindən istifadə etməyə davam edir, lakin spektroqramları şəkillər kimi manipulyasiya edir. Başqa sözlə, klassik Stabil Diffuziya fotoşəkillər və şəkillər üzərində deyil, zamanla səs dalğasının tezliyi və amplitudasının dəyişməsini əks etdirən spektroqramların təsvirləri üzərində hazırlanır. Müvafiq olaraq, çıxışda bir spektroqram da əmələ gəlir ki, bu da daha sonra səs təsvirinə çevrilir.

Musiqi sintezi üçün uyğunlaşdırılmış Stabil Diffuziya maşın öyrənmə sistemi

Metod həmçinin Stabil Diffuziyada təsvirin modifikasiyasına bənzər mövcud səs kompozisiyalarını və nümunə musiqi sintezini dəyişdirmək üçün istifadə edilə bilər. Məsələn, nəsil istinad üslubu ilə nümunə spektroqramları qura, müxtəlif üslubları birləşdirə, bir üslubdan digərinə rəvan keçidi həyata keçirə və ya fərdi alətlərin həcmini artırmaq, ritm və ritm dəyişdirmək kimi problemləri həll etmək üçün mövcud səsə dəyişiklik edə bilər. alətlərin dəyişdirilməsi. Nümunələr həmçinin bir-birinə yaxın olan və zamanla bir qədər dəyişən bir sıra keçidlərdən ibarət uzunmüddətli kompozisiyalar yaratmaq üçün istifadə olunur. Ayrı-ayrılıqda yaradılan fraqmentlər modelin daxili parametrlərini interpolyasiya etməklə davamlı axına birləşdirilir.

Musiqi sintezi üçün uyğunlaşdırılmış Stabil Diffuziya maşın öyrənmə sistemi

Səsdən spektroqram yaratmaq üçün pəncərəli Furye transformasiyasından istifadə olunur. Bir spektroqramdan səsi yenidən yaratarkən, yenidən qurulması üçün Griffin-Lim yaxınlaşma alqoritmindən istifadə edilən fazanın müəyyən edilməsində problem var (spektroqramda yalnız tezlik və amplituda mövcuddur).



Mənbə: opennet.ru

Добавить комментарий