Open source pre Spleeter, systém na oddelenie hudby a hlasu

Poskytovateľ streamovania Deezer otvorené Zdrojové texty experimentálneho projektu Spleeter, ktorý vyvíja systém strojového učenia na oddelenie zdrojov zvuku od zložitých zvukových kompozícií. Program umožňuje zo skladby odstrániť vokály a ponechať len hudobný sprievod, manipulovať so zvukom jednotlivých nástrojov, prípadne hudbu zahodiť a ponechať hlas na prekrytie inou zvukovou sériou, vytváranie mixov, karaoke alebo prepis. Kód projektu je napísaný v jazyku Python pomocou motora Tensorflow a distribuovaný pod licenciou MIT.

Na nakladanie sú ponúkané už natrénované modely na oddelenie vokálov (jeden hlas) od sprievodu, ako aj na delenie na 4 a 5 prúdov vrátane vokálov, bicích, basy, klavíra a zvyšku zvuku. Spleeter je možné použiť ako knižnicu Pythonu aj ako samostatný nástroj príkazového riadku. V najjednoduchšom prípade na základe zdrojového súboru vytvorené dva, štyri alebo päť súborov s hlasovou a sprievodnou zložkou (spev.wav, bicie.wav, bass.wav, piano.wav, iné.wav).

Pri rozdelení na 2 a 4 streamy poskytuje Spleeter veľmi vysoký výkon, napríklad pri použití GPU trvá rozdelenie zvukového súboru do 4 streamov 100-krát kratšie ako trvanie pôvodnej kompozície. Na systéme s GPU NVIDIA GeForce GTX 1080 a 32-jadrovým CPU Intel Xeon Gold 6134 bola zbierka testu musDB, ktorá trvala tri hodiny a 27 minút, spracovaná za 90 sekúnd.

Open source pre Spleeter, systém na oddelenie hudby a hlasu



Medzi výhody Spleeter v porovnaní s iným vývojom v oblasti oddelenia zvuku, ako je napríklad projekt s otvoreným zdrojom Open-Unmix, spomína použitie kvalitnejších modelov zostavených z rozsiahlej zbierky zvukových súborov. Kvôli obmedzeniam autorských práv majú výskumníci strojového učenia obmedzený prístup k pomerne riedkym verejným zbierkam hudobných súborov, zatiaľ čo modely Spleeter boli zostavené pomocou údajov z rozsiahleho hudobného katalógu Deezer.

Na porovnanie s Open-Unmix je separačný nástroj Spleeter asi o 35 % rýchlejší pri testovaní na CPU, podporuje súbory MP3 a generuje výrazne lepšie výsledky (jednotlivé hlasy v Open-Unmix zanechávajú stopy niektorých nástrojov, čo je pravdepodobne spôsobené tým, že modely Open-Unmix sú trénované na kolekcii iba 150 skladieb).

Zdroj: opennet.ru

Pridať komentár