Google udostępnia model danych i uczenia maszynowego, aby oddzielić dźwięki

Google опубликовала baza danych z adnotacjami referencyjnych dźwięków mieszanych, którą można wykorzystać w systemach uczenia maszynowego służących do rozdzielania dowolnych zmiksowanych dźwięków na ich poszczególne składniki. Opublikowano również ogólny model głębokiego uczenia maszynowego (TDCN++), którego można używać w Tensorflow do oddzielania dźwięków. Dane przygotowane na podstawie zbioru freesound.org и opublikowane na licencji CC BY 4.0.

Prezentowany projekt FUSS (Free Universal Sound Separation) ma na celu rozwiązanie problemu separacji dowolnej liczby dowolnych dźwięków, których charakter nie jest z góry znany. Inne podobne systemy są na ogół ograniczone do zadania rozróżnienia pewnych dźwięków, takich jak głosy i niegłosy, lub różnych mówiących osób.

W bazie danych znajduje się około 20 tysięcy miksów. Zestaw zawiera również wstępnie obliczone odpowiedzi impulsowe pomieszczenia za pomocą specjalnie zbudowanego symulatora pomieszczenia, który uwzględnia odbicie od ściany, lokalizację źródła dźwięku i lokalizację mikrofonu.

Źródło: opennet.ru

Dodaj komentarz