Aktualizace Mozilla Common Voice 8.0

Mozilla vydala aktualizaci svých datových sad Common Voice, které obsahují ukázky výslovnosti od téměř 200 0 lidí. Data jsou publikována jako public domain (CC30). Navržené sady mohou být použity v systémech strojového učení k sestavení modelů rozpoznávání a syntézy řeči. Ve srovnání s předchozí aktualizací se objem řečového materiálu ve sbírce zvýšil o 13.9 % – z 18.2 na 67 tisíce hodin řeči. Počet podporovaných jazyků se zvýšil z 87 na XNUMX.

Sada pro ruský jazyk pokrývá 2452 účastníků a 193 hodin řečového materiálu (zúčastnilo se 2136 účastníků a 173 hodin), pro běloruský jazyk - 6160 účastníků a 987 hodin (bylo 3831 účastníků a 356 hodin), pro ukrajinský jazyk - 684 účastníků a 76 hodin (bylo 615 účastníků a 66 hodin). Na přípravě materiálů v angličtině se podílelo více než 79 tisíc lidí, kteří nadiktovali 2886 hodin potvrzeného projevu (účastníků bylo 75 tisíc a 2637 hodin).

Připomeňme, že projekt Common Voice je zaměřen na organizaci společné práce na shromažďování databáze hlasových vzorů, která zohledňuje rozmanitost hlasů a stylů řeči. Uživatelé jsou zváni k hlasovým frázím zobrazeným na obrazovce nebo k hodnocení kvality dat přidaných jinými uživateli. Nashromážděnou databázi se záznamy různých výslovností typických frází lidské řeči lze bez omezení používat v systémech strojového učení a ve výzkumných projektech. Nevýhodami sady Common Voice je podle autora knihovny pro rozpoznávání spojité řeči Vosk jednostrannost hlasového materiálu (převaha mužů ve věku 20-30 let a nedostatek materiálu s hlasy žen). , děti a senioři), nedostatek variability ve slovníku (opakování stejných frází) a distribuce nahrávek ve zkreslujícím formátu MP3.

Kromě toho si můžeme všimnout vydání sady nástrojů NVIDIA NeMo 1.6, která poskytuje metody strojového učení pro vytváření systémů rozpoznávání řeči, syntézu řeči a zpracování přirozeného jazyka. NeMo zahrnuje připravené k použití trénované modely pro systémy strojového učení založené na frameworku PyTorch, připravené společností NVIDIA s využitím dat řeči Common Voice a pokrývající různé jazyky, akcenty a formy řeči. Modely mohou být užitečné pro výzkumníky, kteří vyvíjejí hlasové dialogové systémy, přepisovací platformy a automatizovaná call centra. Například NVIDIA NeMo se používá v automatických hlasových službách MTS a Sberbank. Kód NeMo je napsán v Pythonu pomocí PyTorch a distribuován pod licencí Apache 2.0.

Zdroj: opennet.ru

Přidat komentář