Malferma fonto por Spleeter, sistemo por apartigi muzikon kaj voĉon

Fluiga provizanto Deezer malfermis Fonttekstoj de la eksperimenta projekto Spleeter, kiu evoluigas maŝinlernsistemon por apartigi sonfontojn de kompleksaj sonkomponaĵoj. La programo permesas forigi kanton de komponaĵo kaj lasi nur la muzikan akompanon, manipuli la sonon de individuaj instrumentoj, aŭ forĵeti la muzikon kaj lasi la voĉon por supermeti kun alia sonserio, krei miksaĵojn, karaokeon aŭ transskribon. La projektkodo estas skribita en Python uzante la Tensorflow-motoron kaj distribuita de sub la MIT-licenco.

Por ŝarĝo estas proponitaj jam trejnitaj modeloj por apartigi kanton (unu voĉo) de akompano, same kiel por dividi en 4 kaj 5 fluoj, inkluzive de kanto, tamburoj, baso, piano kaj la resto de la sono. Spleeter povas esti uzata kaj kiel Python-biblioteko kaj kiel memstara komandlinia utileco. En la plej simpla kazo, surbaze de la fontdosiero kreita du, kvar aŭ kvin dosieroj kun voĉo kaj akompanaj komponantoj (vokalo.wav, drums.wav, bass.wav, piano.wav, other.wav).

Dividinte en 2 kaj 4 fadenojn, Spleeter provizas tre altan rendimenton, ekzemple, kiam oni uzas la GPU, dividi sondosieron en 4 fadenojn prenas 100 fojojn malpli da tempo ol la daŭro de la originala komponado. Sur sistemo kun NVIDIA GeForce GTX 1080 GPU kaj 32-kerna Intel Xeon Gold 6134 CPU, la musDB-testkolekto, kiu daŭris tri horojn kaj 27 minutojn, estis prilaborita en 90 sekundoj.

Malferma fonto por Spleeter, sistemo por apartigi muzikon kaj voĉon



Inter la avantaĝoj de Spleeter, kompare kun aliaj evoluoj en la kampo de audio-disigo, kiel la malfermfonta projekto Malfermu-Unmix, mencias la uzon de pli altkvalitaj modeloj konstruitaj el ampleksa kolekto de sondosieroj. Pro kopirajtlimigoj, maŝinlernantaj esploristoj estas limigitaj al aliro al sufiĉe malabundaj publikaj kolektoj de muzikdosieroj, dum la modeloj de Spleeter estis konstruitaj uzante datenojn de la vasta muzikkatalogo de Deezer.

Por komparo kun Open-Unmix, la apartiga ilo de Spleeter estas ĉirkaŭ 35% pli rapida kiam elprovita sur la CPU, subtenas MP3-dosierojn, kaj generas rimarkeble pli bonajn rezultojn (unuopigi voĉojn en Open-Unmix lasas spurojn de iuj iloj, kio estas verŝajne pro la fakto ke la modeloj Open-Unmix estas trejnitaj sur kolekto de nur 150 komponaĵoj).

fonto: opennet.ru

Aldoni komenton