System uczenia maszynowego Stable Diffusion przystosowany do syntezy muzyki

W ramach projektu Riffusion opracowywana jest wersja systemu uczenia maszynowego Stable Diffusion, przystosowana do generowania muzyki zamiast obrazów. Muzykę można syntetyzować na podstawie opisu tekstowego w języku naturalnym lub na podstawie zaproponowanego szablonu. Komponenty syntezy muzyki są napisane w języku Python przy użyciu frameworka PyTorch i są dostępne na licencji MIT. Powiązanie interfejsu jest zaimplementowane w TypeScript i jest również rozpowszechniane na licencji MIT. Wyszkolone modele są objęte liberalną licencją Creative ML OpenRAIL-M do użytku komercyjnego.

Projekt jest interesujący, ponieważ w dalszym ciągu wykorzystuje modele „tekst do obrazu” i „obraz do obrazu” do generowania muzyki, ale manipuluje spektrogramami jak obrazami. Innymi słowy, klasyczna stabilna dyfuzja jest trenowana nie na fotografiach i obrazach, ale na obrazach spektrogramów, które odzwierciedlają zmiany częstotliwości i amplitudy fali dźwiękowej w czasie. Odpowiednio na wyjściu tworzony jest również spektrogram, który następnie jest przekształcany w reprezentację audio.

System uczenia maszynowego Stable Diffusion przystosowany do syntezy muzyki

Metodę można również wykorzystać do modyfikowania istniejących kompozycji audio i syntezy muzyki z próbki, podobnie jak modyfikacja obrazu w Stable Diffusion. Na przykład generacja może próbkować spektrogramy w stylu referencyjnym, łączyć różne style, dokonywać płynnych przejść z jednego stylu do drugiego lub wprowadzać zmiany w istniejącym brzmieniu, aby rozwiązać problemy, takie jak zwiększanie głośności poszczególnych instrumentów, zmiana rytmu i zastępowanie instrumenty. Próbki są również wykorzystywane do generowania kompozycji długogrających, składających się z szeregu fragmentów, które są blisko siebie i nieznacznie różnią się w czasie. Oddzielnie wygenerowane przejścia łączone są w ciągły strumień za pomocą interpolacji parametrów wewnętrznych modelu.

System uczenia maszynowego Stable Diffusion przystosowany do syntezy muzyki

Do utworzenia spektrogramu z dźwięku używana jest okienkowa transformata Fouriera. Przy odtwarzaniu dźwięku ze spektrogramu pojawia się problem określenia fazy (na spektrogramie występuje jedynie częstotliwość i amplituda), do rekonstrukcji której wykorzystuje się algorytm aproksymacji Griffina-Lima.



Źródło: opennet.ru

Dodaj komentarz