NVIDIA investuje 1.5 milionu dolarů do projektu Mozilla Common Voice

NVIDIA investuje 1.5 milionu dolarů do projektu Mozilla Common Voice. Zájem o systémy rozpoznávání řeči pramení z předpovědi, že během příštích deseti let se hlasová technologie stane jedním z hlavních způsobů interakce lidí se zařízeními od počítačů a telefonů po digitální asistenty a kiosky.

Výkon hlasových systémů je velmi závislý na objemu a rozmanitosti hlasových dat dostupných pro trénovací modely strojového učení. Dnešní hlasová technologie se primárně zaměřuje na rozpoznávání anglického jazyka a nepokrývá obrovské množství jazyků, přízvuků a řečových vzorů. Investice pomůže urychlit růst veřejných hlasových dat, zapojí více komunit a dobrovolníků a rozšíří počet projektových zaměstnanců na plný úvazek.

Připomeňme, že projekt Common Voice je zaměřen na organizaci společné práce s cílem shromáždit databázi hlasových vzorů, která zohledňuje rozmanitost hlasů a stylů řeči. Uživatelé jsou zváni k hlasovým frázím zobrazeným na obrazovce nebo k hodnocení kvality dat přidaných jinými uživateli. Nashromážděnou databázi se záznamy různých výslovností typických frází lidské řeči lze bez omezení používat v systémech strojového učení a ve výzkumných projektech.

Sada Common Voice v současnosti obsahuje příklady výslovnosti od více než 164 9 lidí. Bylo nashromážděno asi 60 tisíc hodin hlasových dat v 1412 různých jazycích. Sada pro ruský jazyk pokrývá 111 účastníků a 459 hodin řečového materiálu a pro ukrajinský jazyk - 30 účastníků a 66 hodin. Pro srovnání, na přípravě materiálů v angličtině se podílelo více než 1686 tisíc lidí, kteří nadiktovali 0 hodin ověřeného projevu. Navržené sady mohou být použity v systémech strojového učení k sestavení modelů rozpoznávání a syntézy řeči. Data jsou publikována jako public domain (CCXNUMX).

Nevýhodami sady Common Voice je podle autora knihovny pro rozpoznávání spojité řeči Vosk jednostrannost hlasového materiálu (převaha mužů ve věku 20-30 let a nedostatek materiálu s hlasy žen). , děti a senioři), nedostatek variability ve slovníku (opakování stejných frází) a šíření nahrávek ve zkreslujícím formátu MP3.

Zdroj: opennet.ru

Přidat komentář