Google släpper data- och maskininlärningsmodell för att separera ljud

Google опубликовала en kommenterad databas med blandade referensljud som kan användas i maskininlärningssystem som används för att separera godtyckliga blandade ljud i sina individuella komponenter. En generisk modell för djup maskininlärning (TDCN++) har också publicerats som kan användas i Tensorflow för att separera ljud. Data utarbetade utifrån insamlingen freesound.org и publicerad licensierad under CC BY 4.0.

Det presenterade projektet FUSS (Free Universal Sound Separation) syftar till att lösa problemet med att separera valfritt antal godtyckliga ljud, vars natur inte är känd i förväg. Andra liknande system är i allmänhet begränsade till uppgiften att skilja mellan vissa ljud, såsom röster och icke-röster, eller olika personer som talar.

Databasen innehåller cirka 20 tusen blandningar. Satsen innehåller också förberäknade rumsimpulssvar med hjälp av en specialbyggd rumssimulator som tar hänsyn till väggreflektion, ljudkällans placering och mikrofonens placering.

Källa: opennet.ru

Lägg en kommentar