Google апублікаваў дадзеныя і мадэль машыннага навучання для падзелу гукаў

Кампанія Google апублікавала базу дадзеных эталонных змешаных гукаў, забяспечаную анатацыямі, якую можна выкарыстоўваць у сістэмах машыннага навучання, якія выкарыстоўваюцца для падзелу адвольных змешаных гукаў на асобныя кампаненты. Таксама апублікаваная ўніверсальная мадэль глыбіннага машыннага навучання (TDCN++), якая можа быць скарыстана ў Tensorflow для падзелу гукаў. Дадзеныя падрыхтаваны на аснове калекцыі freesound.org и апублікаваныя пад ліцэнзіяй CC BY 4.0.

Прадстаўлены праект FUSS (Free Universal Sound Separation) накіраваны на рашэнне праблемы падзелу любога ліку адвольных гукаў, аб характары якіх загадзя не вядома. Іншыя падобныя сістэмы, як правіла, абмежаваныя задачай падзелу пэўных гукаў, напрыклад, галасы і не галасы або розных размаўлялых людзей.

БД налічвае каля 20 тысяч змешванняў. У набор таксама ўваходзяць папярэдне разлічаныя імпульсныя характарыстыкі памяшкання, падрыхтаваныя пры дапамозе спецыяльна створанага сімулятара пакоя і якія ўлічваюць адлюстраванне ад сцен, месцазнаходжанне крыніцы гуку і месцазнаходжанне мікрафона.

Крыніца: opennet.ru

Дадаць каментар