Система машинного навчання Stable Diffusion адаптована для синтезу музики

Проект Riffusion розвиває варіант системи машинного навчання Stable Diffusion, адаптований для генерації музики замість зображень. Музика може синтезуватися текстового опису природною мовою або на основі запропонованого шаблону. Компоненти для синтезу музики написані мовою Python з використанням фреймворку PyTorch та доступні під ліцензією MIT. Обв'язка з інтерфейсом реалізована мовою TypeScript і поширюється під ліцензією MIT. Натреновані моделі відкриті під пермісивною ліцензією Creative ML OpenRAIL-M, що допускає використання у комерційних цілях.

Проект цікавий тим, що продовжує використовувати для генерації музики моделі «з тексту в зображення» та «із зображення в зображення», але як зображення маніпулює спектрограмами. Іншими словами, класичний Stable Diffusion натренований не на фотографіях та картинках, а на зображеннях спектрограм, що відображають зміну частоти та амплітуди звукової хвилі з часом. Відповідно на виході теж формується спектрограма, яка потім перетворюється на звукове уявлення.

Система машинного навчання Stable Diffusion адаптована для синтезу музики

Метод також може використовуватися для зміни наявних звукових композицій та синтезу музики за зразком, за аналогією з модифікацією зображень Stable Diffusion. Наприклад, при генерації можуть задаватися зразки спектрограм з еталонним стилем, комбінуватися різні стилі, виконуватися плавний перехід від одного стилю до іншого або вносити зміни до існуючого звуку для вирішення таких завдань, як збільшення гучності окремих інструментів, зміна ритму та заміна інструментів. Зразки також використовуються для генерації композицій, що довго грають, компонованих з серії близьких один до одного уривків, що трохи змінюються в часі. Уривки, що окремо генеруються, об'єднуються в безперервний потік за допомогою інтерполяції внутрішніх параметрів моделі.

Система машинного навчання Stable Diffusion адаптована для синтезу музики

Для створення спектрограми із звуку використовується віконне перетворення Фур'є. При відтворенні звуку із спектрограми виникає проблема з визначенням фази (на спектрограмі присутня лише частота та амплітуда), для реконструкції якої задіяно алгоритм апроксимації Гріффіна-Ліма.



Джерело: opennet.ru

Додати коментар або відгук