Google lanserer data- og maskinlæringsmodell for å skille lyder

Google опубликовала en kommentert database med blandede referanselyder som kan brukes i maskinlæringssystemer som brukes til å skille vilkårlige blandede lyder i deres individuelle komponenter. En generisk dyp maskinlæringsmodell (TDCN++) er også publisert som kan brukes i Tensorflow for å skille lyder. Data utarbeidet basert på innsamlingen freesound.org и publisert lisensiert under CC BY 4.0.

Det presenterte prosjektet FUSS (Free Universal Sound Separation) er rettet mot å løse problemet med å skille et hvilket som helst antall vilkårlige lyder, hvis art ikke er kjent på forhånd. Andre lignende systemer er generelt begrenset til oppgaven med å skille mellom visse lyder, for eksempel stemmer og ikke-stemmer, eller forskjellige personer som snakker.

Databasen inneholder rundt 20 tusen blandinger. Settet inkluderer også forhåndsberegnet romimpulsresponser ved hjelp av en spesialbygd romsimulator som tar hensyn til veggrefleksjon, lydkildeplassering og mikrofonplassering.

Kilde: opennet.ru

Legg til en kommentar