Open source pro Spleeter, systém pro oddělení hudby a hlasu

Poskytovatel streamování Deezer otevřeno Zdrojové texty experimentálního projektu Spleeter, který vyvíjí systém strojového učení pro oddělení zdrojů zvuku od složitých zvukových kompozic. Program umožňuje odstranit ze skladby vokály a ponechat pouze hudební doprovod, manipulovat se zvukem jednotlivých nástrojů nebo hudbu vyřadit a hlas ponechat pro překrytí jinou zvukovou řadou, vytváření mixů, karaoke nebo transkripce. Kód projektu je napsán v Pythonu pomocí enginu Tensorflow a distribuovány pod licencí MIT.

Pro načítání nabídl již natrénované modely pro oddělení vokálů (jeden hlas) od doprovodu, stejně jako pro rozdělení do 4 a 5 proudů včetně zpěvu, bicích, baskytary, piana a zbytku zvuku. Spleeter lze použít jako knihovnu Pythonu i jako samostatný nástroj příkazového řádku. V nejjednodušším případě na základě zdrojového souboru vytvořené dva, čtyři nebo pět souborů s hlasovou a doprovodnou složkou (vokály.wav, bicí.wav, bass.wav, piano.wav, ostatní.wav).

Při rozdělení na 2 a 4 vlákna poskytuje Spleeter velmi vysoký výkon, například při použití GPU zabere rozdělení zvukového souboru do 4 vláken 100krát kratší dobu, než je doba trvání původní kompozice. Na systému s GPU NVIDIA GeForce GTX 1080 a 32jádrovým CPU Intel Xeon Gold 6134 byla testovací kolekce musDB, která trvala tři hodiny a 27 minut, zpracována za 90 sekund.

Open source pro Spleeter, systém pro oddělení hudby a hlasu



Mezi výhody Spleeter, ve srovnání s jiným vývojem v oblasti oddělení zvuku, jako je open source projekt Open-Unmix, zmiňuje použití kvalitnějších modelů sestavených z rozsáhlé sbírky zvukových souborů. Kvůli omezením autorských práv mají výzkumníci strojového učení omezený přístup k poměrně řídkým veřejným sbírkám hudebních souborů, zatímco Spleeterovy modely byly sestaveny pomocí dat z rozsáhlého hudebního katalogu Deezer.

Na srovnání s Open-Unmix je separační nástroj Spleeter asi o 35 % rychlejší při testování na CPU, podporuje soubory MP3 a generuje znatelně lepší výsledky (jednotlivé hlasy v Open-Unmix zanechávají stopy některých nástrojů, což je pravděpodobně způsobeno tím, že modely Open-Unmix jsou trénovány na kolekci pouze 150 skladeb).

Zdroj: opennet.ru

Přidat komentář