Музыкалық синтезге бейімделген тұрақты диффузиялық машиналық оқыту жүйесі

Riffusion жобасы кескіндердің орнына музыканы шығаруға бейімделген Тұрақты диффузия машиналық оқыту жүйесінің нұсқасын әзірлеуде. Музыканы табиғи тілдегі мәтіндік сипаттамадан немесе ұсынылған үлгі негізінде синтездеуге болады. Музыкалық синтез құрамдастары PyTorch негізін пайдаланып Python тілінде жазылған және MIT лицензиясы бойынша қол жетімді. Интерфейсті байланыстыру TypeScript бағдарламасында жүзеге асырылады және сонымен қатар MIT лицензиясы бойынша таратылады. Оқытылған үлгілер коммерциялық пайдалануға рұқсат беретін Creative ML OpenRAIL-M лицензиясы бойынша лицензияланады.

Жоба музыканы генерациялау үшін «мәтіннен суретке» және «бейнеден суретке» үлгілерін пайдалануды жалғастыруымен қызықты, бірақ спектрограммаларды кескіндер ретінде басқарады. Басқаша айтқанда, классикалық Тұрақты диффузия фотосуреттер мен суреттерде емес, дыбыс толқынының жиілігі мен амплитудасының уақыт бойынша өзгеруін көрсететін спектрограммалардың кескіндерінде оқытылады. Сәйкесінше, шығыста спектрограмма да қалыптасады, ол кейін дыбыстық көрініске айналады.

Музыкалық синтезге бейімделген тұрақты диффузиялық машиналық оқыту жүйесі

Сондай-ақ, әдісті қолданыстағы дыбыстық композицияларды өзгерту және тұрақты диффузиядағы кескін модификациясына ұқсас үлгідегі музыканы синтездеу үшін пайдалануға болады. Мысалы, генерация анықтамалық стильмен спектрограммаларды таңдай алады, әртүрлі стильдерді біріктіре алады, бір стильден екіншісіне тегіс ауыса алады немесе жекелеген аспаптардың дыбыс деңгейін арттыру, ырғақты өзгерту және өзгерту сияқты мәселелерді шешу үшін бар дыбысқа өзгерістер енгізе алады. аспаптар. Үлгілер сонымен қатар уақыт өте аздап өзгеретін бір-біріне жақын орналасқан үзінділер сериясынан тұратын ұзақ ойнайтын композицияларды жасау үшін қолданылады. Бөлек құрылған үзінділер үлгінің ішкі параметрлерін интерполяциялау арқылы үздіксіз ағынға біріктіріледі.

Музыкалық синтезге бейімделген тұрақты диффузиялық машиналық оқыту жүйесі

Терезелік Фурье түрлендіруі дыбыстан спектрограмма құру үшін қолданылады. Спектрограммадан дыбысты қайта жасау кезінде фазаны анықтау мәселесі туындайды (спектрограммада тек жиілік пен амплитуда бар), оны қайта құру үшін Гриффин-Лимнің жуықтау алгоритмі қолданылады.



Ақпарат көзі: opennet.ru

пікір қалдыру