Сістэма машыннага навучання Stable Diffusion адаптаваная для сінтэзу музыкі

Праектам Riffusion развіваецца варыянт сістэмы машыннага навучання Stable Diffusion, адаптаваны для генерацыі музыкі замест выяў. Музыка можа сінтэзавацца тэкставага апісання на натуральнай мове ці на аснове прапанаванага шаблону. Кампаненты для сінтэзу музыкі напісаны на мове Python з выкарыстаннем фрэймворка PyTorch і даступныя пад ліцэнзіяй MIT. Абвязка з інтэрфейсам рэалізавана на мове TypeScript і таксама распаўсюджваецца пад ліцэнзіяй MIT. Натрэніраваныя мадэлі адкрыты пад пермісіўнай ліцэнзіяй Creative ML OpenRAIL-M, якая дапускае выкарыстанне ў камерцыйных мэтах.

Праект цікавы тым, што працягвае выкарыстоўваць для генерацыі музыкі мадэлі "з тэксту ў малюнак" і "з выявы ў малюнак", але ў якасці малюнкаў маніпулюе спектраграмамі. Іншымі словамі, класічны Stable Diffusion натрэніраваны не на фатаграфіях і малюначках, а на выявах спектраграм, якія адлюстроўваюць змену частаты і амплітуды гукавой хвалі са часам. Адпаведна на вынахадзе таксама фармуецца спектраграма, якая затым пераўтворыцца ў гукавое паданне.

Сістэма машыннага навучання Stable Diffusion адаптаваная для сінтэзу музыкі

Метад таксама можа выкарыстоўвацца для змены наяўных гукавых кампазіцый і сінтэзу музыкі па ўзоры, па аналогіі з мадыфікацыяй малюнкаў у Stable Diffusion. Напрыклад, пры генерацыі могуць задавацца ўзоры спектраграм з эталонным стылем, камбінавацца розныя стылі, выконвацца плыўны пераход ад аднаго стылю да іншага ці ўносіцца змены ў існуючы гук для рашэння такіх задач, як павелічэнне гучнасці асобных прылад, змена рытму і замена прылад. Узоры таксама выкарыстоўваюцца для генерацыі доўга якія граюць кампазіцый, кампанаваных з серыі блізкіх адзін да аднаго ўрыўкаў, трохі якія змяняюцца ў часе. Асобна генераваныя ўрыўкі аб'ядноўваюцца ў бесперапынны струмень пры дапамозе інтэрпаляцыі ўнутраных параметраў мадэлі.

Сістэма машыннага навучання Stable Diffusion адаптаваная для сінтэзу музыкі

Для стварэння спектраграмы з гуку выкарыстоўваецца аконнае пераўтварэнне Фур'е. Пры ўзнаўленні гуку са спектраграмы ўзнікае праблема з вызначэннем фазы (на спектраграме прысутнічае толькі частата і амплітуда), для рэканструкцыі якой задзейнічаны алгарытм апраксімацыі Грыфіна-Ліма.



Крыніца: opennet.ru

Дадаць каментар