Google gefur út gagna- og vélnámslíkan til að aðskilja hljóð

Google опубликовала skýrt gagnagrunnur með tilvísunarblanduðum hljóðum sem hægt er að nota í vélanámskerfum sem notuð eru til að aðgreina handahófskennd blönduð hljóð í einstaka þætti þeirra. Almennt djúpt vélnámslíkan (TDCN++) hefur einnig verið gefið út sem hægt er að nota í Tensorflow til að aðgreina hljóð. Gögn unnin út frá söfnuninni freesound.org и birt leyfi samkvæmt CC BY 4.0.

Framsett verkefni FUSS (Free Universal Sound Separation) miðar að því að leysa vandamálið við að aðskilja hvaða fjölda handahófskenndra hljóða sem er, hvers eðlis er ekki vitað fyrirfram. Önnur svipuð kerfi eru almennt takmörkuð við það verkefni að greina á milli ákveðinna hljóða, eins og radda og óradda, eða mismunandi fólks sem talar.

Gagnagrunnurinn inniheldur um 20 þúsund blöndur. Settið inniheldur einnig forútreiknuð herbergishuttsvörun með því að nota sérsmíðaðan herbergishermi sem tekur mið af veggspeglun, staðsetningu hljóðgjafa og staðsetningu hljóðnema.

Heimild: opennet.ru

Bæta við athugasemd