Spleeter 的開源,一個分離音樂和語音的系統

串流媒體提供者 Deezer 已經打開了 實驗專案 Spleeter 的來源文本,該專案開發了一種機器學習系統,用於將聲音來源與複雜的音訊作品分離。 該程式可讓您從樂曲中刪除人聲並僅留下音樂伴奏,操縱單一樂器的聲音,或丟棄音樂並留下聲音以與另一個聲音系列疊加,創建混音、卡拉 OK 或轉錄。 這個專案程式碼是使用 Tensorflow 引擎用 Python 編寫的 分發者 在麻省理工學院的許可下。

用於裝載 提供 已經訓練有素的模型可以將人聲(一種聲音)與伴奏分開,以及分為 4 和 5 個流,包括人聲、鼓、貝斯、鋼琴和其餘聲音。 Spleeter 既可以用作 Python 函式庫,也可以用作獨立的命令列實用程式。 最簡單的情況,基於來源文件 已創建 兩個、四個或五個帶有語音和伴奏組件的文件(vocals.wav、drums.wav、bass.wav、piano.wav、other.wav)。

當拆分為 2 個和 4 個執行緒時,Spleeter 提供非常高的效能,例如,當使用 GPU 時,將音訊檔案分割為 4 個執行緒所需的時間比原始合成的持續時間少 100 倍。 在配備 NVIDIA GeForce GTX 1080 GPU 和 32 核心 Intel Xeon Gold 6134 CPU 的系統上,歷時 27 小時 90 分鐘的 musDB 測試集合在 XNUMX 秒內完成了處理。

Spleeter 的開源,一個分離音樂和語音的系統



Spleeter 的優勢之一是與音訊分離領域的其他開發(例如開源專案)相比 打開-取消混合,提到使用從大量聲音檔案中建立的更高品質的模型。 由於版權限制,機器學習研究人員只能存取相當稀疏的公共音樂檔案集合,而 Spleeter 的模型是使用 Deezer 龐大的音樂目錄中的資料建立的。

比較 借助Open-Unmix,Spleeter 的分離工具在CPU 上測試時速度提高了約35%,支援MP3 文件,並且產生明顯更好的結果(在Open-Unmix 中分離聲音會留下一些工具的痕跡,這可能是由於以下事實) Open-Unmix 模型僅在僅 150 個作品的集合上進行訓練)。

來源: opennet.ru

添加評論