Google veröffentlicht Daten und maschinelles Lernmodell zur Aufteilung von Sounds

Google опубликовала eine kommentierte Referenz-Mischklangdatenbank, die in maschinellen Lernsystemen verwendet werden kann, um beliebige Mischklänge in einzelne Komponenten zu zerlegen. Außerdem wurde ein generisches Deep-Learning-Modell (TDCN++) veröffentlicht, das in Tensorflow zum Trennen von Klängen verwendet werden kann. Aufbereitete Daten basierend auf der Sammlung freesound.org и veröffentlicht lizenziert unter CCBY 4.0.

Das vorgestellte Projekt FUSS (Free Universal Sound Separation) zielt darauf ab, das Problem der Trennung einer beliebigen Anzahl beliebiger Geräusche zu lösen, deren Natur nicht im Voraus bekannt ist. Andere derartige Systeme beschränken sich im Allgemeinen auf die Aufgabe, bestimmte Geräusche zu trennen, beispielsweise Stimmen und Nichtstimmen oder verschiedene sprechende Personen.

Die Datenbank enthält etwa 20 Mischungen. Die Suite umfasst außerdem vorberechnete Raumimpulsantworten, die mit einem speziell entwickelten Raumsimulator erstellt wurden, der Wandreflexionen, den Standort der Schallquelle und den Standort des Mikrofons berücksichtigt.

Source: opennet.ru

Kommentar hinzufügen