音楽と音声を分離するシステム Spleeter のオープンソース

ストリーミングプロバイダー Deezer 開かれた 複雑なオーディオ構成から音源を分離するための機械学習システムを開発する実験プロジェクト Spleeter のソース テキスト。 このプログラムを使用すると、楽曲からボーカルを削除して伴奏だけを残したり、個々の楽器のサウンドを操作したり、音楽を破棄して音声を残し、別のサウンド シリーズとオーバーレイしたり、ミックス、カラオケ、またはトランスクリプションを作成したりすることができます。 プロジェクト コードは Tensorflow エンジンを使用して Python で記述されており、 によって配布 MITライセンスの下で。

積載用 提供された ボーカル (4 つの声) を伴奏から分離したり、ボーカル、ドラム、ベース、ピアノ、その他のサウンドを含む 5 つおよび XNUMX つのストリームに分割したりするための、すでにトレーニングされたモデル。 Spleeter は、Python ライブラリとしても、スタンドアロンのコマンド ライン ユーティリティとしても使用できます。 最も単純なケースでは、ソース ファイルに基づいて 作成されます 音声および伴奏コンポーネントを含む XNUMX、XNUMX、または XNUMX つのファイル (vocals.wav、drums.wav、bass.wav、piano.wav、other.wav)。

2 スレッドと 4 スレッドに分割する場合、Spleeter は非常に高いパフォーマンスを提供します。たとえば、GPU を使用する場合、オーディオ ファイルを 4 スレッドに分割するのにかかる時間は、元のコンポジションの継続時間の 100 分の 1080 です。 NVIDIA GeForce GTX 32 GPU と 6134 コア Intel Xeon Gold 27 CPU を搭載したシステムでは、90 時間 XNUMX 分かかった musDB テスト コレクションが XNUMX 秒で処理されました。

音楽と音声を分離するシステム Spleeter のオープンソース



Spleeter の利点の XNUMX つは、オープンソース プロジェクトなど、オーディオ分離分野の他の開発と比較した場合です。 オープンアンミックスでは、サウンド ファイルの広範なコレクションから構築された高品質モデルの使用について言及しています。 著作権制限のため、機械学習の研究者は音楽ファイルのかなりまばらな公開コレクションへのアクセスに制限されていますが、Spleeter のモデルは Deezer の膨大な音楽カタログのデータを使用して構築されました。

上の 比較して Open-Unmix を使用すると、Spleeter の分離ツールは CPU でテストすると約 35% 高速になり、MP3 ファイルをサポートし、著しく優れた結果が得られます (Open-Unmix での単一音声はいくつかのツールの痕跡を残します。これはおそらく、 Open-Unmix モデルは、わずか 150 個の楽曲のコレクションでトレーニングされます)。

出所: オープンネット.ru

コメントを追加します