Адкрыты код Spleeter, сістэмы для падзелу музыкі і галасы

Правайдэр струменевага вяшчання Deezer адкрыў зыходныя тэксты эксперыментальнага праекта Spleeter, які развівае сістэму машыннага навучання для падзелу крыніц гуку са складаных гукавых кампазіцый. Праграма дазваляе выдаліць з кампазіцыі вакал і пакінуць толькі музычнае суправаджэнне, маніпуляваць гучаннем асобных інструментаў або адкінуць музыку і пакінуць голас для накладання на іншы гукавы шэраг, стварэння міксаў, караоке ці транскрыпцыі. Код праекта напісаны на мове Python з выкарыстаннем рухавічка Tensorflow і распаўсюджваецца пад ліцэнзіяй MIT.

Для загрузкі прапануюцца ужо натрэніраваныя мадэлі для аддзялення вакалу (аднаго голасу) ад акампанементу, а таксама для падзелу на 4 і 5 патокаў, якія ўключаюць вакал, барабаны, басы, піяніна і астатні гук. Spleeter можа прымяняцца як у выглядзе Python-бібліятэкі, так і ў форме адасобленай утыліты каманднага радка. У найпростым выпадку на аснове зыходнага файла ствараецца два, чатыры ці пяць файлаў з голасам і складнікамі з акампанементу (vocals.wav, drums.wav, bass.wav, piano.wav, other.wav).

Пры падзеле на 2 і 4 струменя Spleeter забяспечвае вельмі высокую прадукцыйнасць, напрыклад, пры задзейнічанні GPU падзел гукавога файла на 4 струменя займае ў 100 раз менш часу, чым працягласць зыходнай кампазіцыі. На сістэме з GPU NVIDIA GeForce GTX 1080 і 32-ядзерным CPU Intel Xeon Gold 6134 апрацоўка тэставай калекцыі musDB, працягласцю тры гадзіны 27 хвілін, была выканана за 90 секунд.

Адкрыты код Spleeter, сістэмы для падзелу музыкі і галасы



З добрых якасцяў Spleeter, у параўнанні з іншымі распрацоўкамі ў вобласці падзелу гуку, такімі як адчынены праект Open-Unmix, згадваецца ўжыванне больш якасных мадэляў, пабудаваных на аснове шырокай калекцыі гукавых файлаў. З-за абмежаванняў аўтарскіх правоў даследчыкі ў галіне машыннага навучання абмежаваны доступам да досыць бедных агульнадаступных калекцый музычных файлаў, у той час як для Spleeter мадэлі былі пабудаваны з прыцягненнем дадзеных з шырокага музычнага каталога Deezer.

Па параўнанні з Open-Unmix інструментар Spleeter выконвае падзел прыкладна на 35% хутчэй пры тэставанні на CPU, падтрымлівае MP3-файлы і генеруе прыкметна больш якасны вынік (пры вылучэнні голасу ў Open-Unmix застаюцца сляды некаторых прылад, што, верагодна, тлумачыцца тым, што мадэлі Open-Unmix натрэніраваны на калекцыі з усяго 150 кампазіцый).

Крыніца: opennet.ru

Дадаць каментар