Google опублікував дані та модель машинного навчання для розділення звуків

компанія Google опублікувала базу даних еталонних змішаних звуків, з анотаціями, яку можна використовувати в системах машинного навчання, що застосовуються для поділу довільних змішаних звуків на окремі компоненти. Також опубліковано універсальну модель глибинного машинного навчання (TDCN++), яка може бути використана в Tensorflow для розділення звуків. Дані підготовлені на основі колекції freesound.org и опубліковано під ліцензією CC BY 4.0.

Представлений проект FUSS (Free Universal Sound Separation) має на меті вирішення проблеми поділу будь-якої кількості довільних звуків, про характер яких заздалегідь не відомо. Інші подібні системи, як правило, обмежені завданням поділу певних звуків, наприклад, голосу і не голосу або різних людей, що говорять.

БД налічує близько 20 тисяч змішувань. У набір також входять попередньо розраховані імпульсні характеристики приміщення, підготовлені за допомогою спеціально створеного симулятора кімнати, що враховують відображення від стін, розташування джерела звуку та місцезнаходження мікрофона.

Джерело: opennet.ru

Додати коментар або відгук