🥇Відкритий код Spleeter, системи для розділення музики та голосу

Провайдер потокового мовлення Deezer відкрив вихідні тексти експериментального проекту Spleeter, що розвиває систему машинного навчання розділення джерел звуку зі складних звукових композицій. Програма дозволяє видалити з композиції вокал та залишити лише музичний супровід, маніпулювати звучанням окремих інструментів або відкинути музику та залишити голос для накладання на інший звуковий ряд, створення міксів, караоке чи транскрипції. Код проекту написаний мовою Python з використанням движка Tensorflow та поширюється під ліцензією MIT.

Для завантаження пропонуються вже натреновані моделі для відокремлення вокалу (одного голосу) від акомпанементу, а також для поділу на 4 і 5 потоків, що включають вокал, барабани, баси, піаніно та інший звук. Spleeter може застосовуватися як у вигляді Python-бібліотеки, так і у формі відокремленої утиліти командного рядка. У найпростішому випадку на основі вихідного файлу створюється два, чотири або п'ять файлів з голосом та складовими з акомпанементу (vocals.wav, drums.wav, bass.wav, piano.wav, other.wav).

При поділі на 2 і 4 потоки Spleeter забезпечує дуже високу продуктивність, наприклад, при задіянні GPU поділ звукового файлу на 4 потоки займає в 100 разів менше часу, ніж тривалість вихідної композиції. На системі з GPU NVIDIA GeForce GTX 1080 та 32-ядерним CPU Intel Xeon Gold 6134 обробка тестової колекції musDB, тривалістю три години 27 хвилин, була виконана за 90 секунд.

З переваг Spleeter, в порівнянні з іншими розробками в області розділення звуку, такими як відкритий проект Open-Unmix, Згадується застосування більш якісних моделей, побудованих на основі великої колекції звукових файлів. Через обмеження авторських прав дослідники в галузі машинного навчання обмежені доступом до досить мізерних загальнодоступних колекцій музичних файлів, у той час як для Spleeter моделі були побудовані із залученням даних із великого музичного каталогу Deezer.

За порівняно з Open-Unmix інструментарій Spleeter виконує поділ приблизно на 35% швидше при тестуванні на CPU, підтримує MP3-файли та генерує помітно якісніший результат (при виділенні голосу в Open-Unmix залишаються сліди деяких інструментів, що, ймовірно, пояснюється тим, що моделі Open-Unmix натреновані на колекції з усього 150 композицій).

Джерело: opennet.ru

Відкрито код Spleeter, системи для розділення музики та голосу

Додати коментар або відгук Скасувати відповідь