Системаи омӯзиши мошини устувори диффузия, ки барои синтези мусиқӣ мутобиқ карда шудааст

Лоиҳаи Riffusion як версияи системаи омӯзиши мошиниро таҳия мекунад Stable Diffusion, ки барои тавлиди мусиқӣ ба ҷои тасвирҳо мутобиқ карда шудааст. Мусиқиро аз тавсифи матн бо забони табиӣ ё дар асоси қолаби пешниҳодшуда синтез кардан мумкин аст. Ҷузъҳои синтези мусиқӣ дар Python бо истифода аз чаҳорчӯбаи PyTorch навишта шудаанд ва дар зери иҷозатномаи MIT дастрасанд. Пайвасткунии интерфейс дар TypeScript амалӣ карда мешавад ва инчунин таҳти иҷозатномаи MIT паҳн карда мешавад. Моделҳои омӯзонидашуда дар асоси иҷозатномаи Creative ML OpenRAIL-M барои истифодаи тиҷоратӣ иҷозатнома доранд.

Лоиҳа ҷолиб он аст, ки он истифодаи моделҳои "матн ба тасвир" ва "тасвир ба тасвир" -ро барои тавлиди мусиқӣ идома медиҳад, аммо спектрограммаҳоро ҳамчун тасвир идора мекунад. Ба ибораи дигар, Диффузияи устувори классикӣ на дар аксҳо ва тасвирҳо, балки дар тасвирҳои спектрограммаҳо, ки тағирот дар басомад ва амплитудаи мавҷи садоро бо мурури замон инъикос мекунанд, таълим дода мешавад. Мутаносибан, дар баромади он спектрограмма низ ташкил карда мешавад, ки баъдан ба намоиши аудио табдил меёбад.

Системаи омӯзиши мошини устувори диффузия, ки барои синтези мусиқӣ мутобиқ карда шудааст

Ин усул инчунин метавонад барои тағир додани композитсияҳои овозии мавҷуда ва синтез кардани мусиқӣ аз намуна истифода шавад, ба монанди тағир додани тасвир дар Диффузияи устувор. Масалан, насл метавонад спектрограммаҳоро бо услуби истинод интихоб кунад, сабкҳои гуногунро муттаҳид созад, аз як услуб ба услуби дигар гузарад ё ба садои мавҷуда тағирот ворид кунад, то мушкилотро ҳал кунад, ба монанди баланд бардоштани ҳаҷми асбобҳои инфиродӣ, тағир додани ритм ва тағир додани садо. асбобхо. Намунаҳо инчунин барои тавлиди композитсияҳои тӯлонӣ истифода мешаванд, ки аз як қатор порчаҳои ба ҳам наздик иборатанд, ки бо мурури замон каме фарқ мекунанд. Гузаришҳои алоҳида тавлидшуда бо истифода аз интерполятсияи параметрҳои дохилии модел ба ҷараёни муттасил муттаҳид карда мешаванд.

Системаи омӯзиши мошини устувори диффузия, ки барои синтези мусиқӣ мутобиқ карда шудааст

Барои сохтани спектрограмма аз садо табдили тирезаи Фурье истифода мешавад. Ҳангоми аз нав сохтани садо аз спектрограмма масъалаи муайян кардани фаза (дар спектрограмма танҳо басомад ва амплитуда мавҷуд аст) ба миён меояд, ки барои барқарор кардани он алгоритми наздикшавии Гриффин-Лим истифода мешавад.



Манбаъ: opennet.ru

Илова Эзоҳ