Open source para sa Spleeter, isang sistema para sa paghihiwalay ng musika at boses

Streaming provider na si Deezer ay binuksan Pinagmulan ng mga teksto ng eksperimental na proyektong Spleeter, na bumubuo ng isang machine learning system para sa paghihiwalay ng mga pinagmumulan ng tunog mula sa mga kumplikadong komposisyon ng audio. Ang programa ay nagbibigay-daan sa iyo na alisin ang mga vocal mula sa isang komposisyon at iwanan lamang ang musikal na saliw, manipulahin ang tunog ng mga indibidwal na instrumento, o itapon ang musika at iwanan ang boses para sa pag-overlay sa isa pang serye ng tunog, paglikha ng mga mix, karaoke o transkripsyon. Ang code ng proyekto ay nakasulat sa Python gamit ang Tensorflow engine at ipinamahagi ni sa ilalim ng lisensya ng MIT.

Para sa paglo-load inaalok sinanay na mga modelo para sa paghihiwalay ng mga vocal (isang boses) mula sa saliw, pati na rin para sa paghahati sa 4 at 5 stream, kabilang ang mga vocal, drum, bass, piano at ang iba pang tunog. Maaaring gamitin ang Spleeter bilang isang Python library at bilang isang standalone command line utility. Sa pinakasimpleng kaso, batay sa source file nilikha dalawa, apat o limang file na may mga bahagi ng boses at accompaniment (vocals.wav, drums.wav, bass.wav, piano.wav, other.wav).

Kapag nahati sa 2 at 4 na thread, nagbibigay ang Spleeter ng napakataas na performance, halimbawa, kapag ginagamit ang GPU, ang paghahati ng audio file sa 4 na thread ay tumatagal ng 100 beses na mas kaunting oras kaysa sa tagal ng orihinal na komposisyon. Sa isang system na may NVIDIA GeForce GTX 1080 GPU at isang 32-core Intel Xeon Gold 6134 CPU, ang koleksyon ng pagsubok ng musDB, na tumagal ng tatlong oras at 27 minuto, ay naproseso sa loob ng 90 segundo.

Open source para sa Spleeter, isang sistema para sa paghihiwalay ng musika at boses



Kabilang sa mga pakinabang ng Spleeter, kumpara sa iba pang mga pag-unlad sa larangan ng paghihiwalay ng audio, tulad ng open source na proyekto Open-Unmix, binabanggit ang paggamit ng mas mataas na kalidad na mga modelo na binuo mula sa isang malawak na koleksyon ng mga sound file. Dahil sa mga paghihigpit sa copyright, ang mga mananaliksik sa machine learning ay limitado sa pag-access sa medyo kalat-kalat na mga pampublikong koleksyon ng mga file ng musika, habang ang mga modelo ng Spleeter ay binuo gamit ang data mula sa malawak na catalog ng musika ng Deezer.

Sa paghahambing sa Open-Unmix, humigit-kumulang 35% na mas mabilis ang separation tool ng Spleeter kapag nasubok sa CPU, sumusuporta sa mga MP3 file, at nakakabuo ng kapansin-pansing mas mahusay na mga resulta (nag-iiwan ng mga bakas ng ilang tool ang mga nag-iisang boses sa Open-Unmix, na malamang dahil sa katotohanan na ang ang mga modelong Open-Unmix ay sinanay sa isang koleksyon ng 150 komposisyon lamang).

Pinagmulan: opennet.ru

Magdagdag ng komento