Aktualizace Mozilla Common Voice 7.0

NVIDIA a Mozilla vydaly aktualizaci svých datových sad Common Voice, které obsahují vzorky řeči 182 25 lidí, což je o 6 % více než před 0 měsíci. Data jsou publikována jako public domain (CCXNUMX). Navržené sady mohou být použity v systémech strojového učení k sestavení modelů rozpoznávání a syntézy řeči.

Ve srovnání s předchozí aktualizací se velikost řečového materiálu ve sbírce zvýšila z 9 na 13.9 tisíce hodin řeči. Počet podporovaných jazyků se zvýšil z 60 na 76, včetně poprvé podpory běloruštiny, kazaštiny, uzbečtiny, bulharštiny, arménštiny, ázerbájdžánštiny a baškirštiny. Sada pro ruský jazyk pokrývá 2136 účastníků a 173 hodin řečového materiálu (zúčastnilo se 1412 účastníků a 111 hodin) a pro ukrajinský jazyk - 615 účastníků a 66 hodin (459 účastníků a 30 hodin).

Na přípravě materiálů v angličtině se podílelo více než 75 tisíc lidí, kteří nadiktovali 2637 hodin potvrzeného projevu (účastníků bylo 66 tisíc a 1686 hodin). Zajímavé je, že jazykem na druhém místě co do množství nashromážděných dat je Rwanda, pro kterou bylo nasbíráno 2260 hodin. Následuje němčina (1040), katalánština (920) a esperanto (840). Mezi nejdynamičtěji rostoucí objem hlasových dat patří thajština (20násobný nárůst v základu, z 12 na 250 hodin), luganda (z 8 na 80 hodin), esperanto (ze 100 na 840 hodin) a tamilština ( od 24 do 220 hodin).

V rámci své účasti v projektu Common Voice připravila NVIDIA na základě nasbíraných dat (podporovaných PyTorchem) hotové natrénované modely pro systémy strojového učení. Modely jsou distribuovány v rámci bezplatného a otevřeného toolkitu NVIDIA NeMo, který se již například používá v automatických hlasových službách MTS a Sberbank. Modely jsou určeny pro použití v systémech rozpoznávání řeči, syntéze řeči a zpracování přirozeného jazyka a mohou být užitečné pro výzkumníky, kteří vytvářejí hlasově aktivované dialogové systémy, přepisovací platformy a automatizovaná call centra. Na rozdíl od dříve dostupných projektů se publikované modely neomezují na rozpoznávání anglického jazyka a pokrývají různé jazyky, akcenty a formy řeči.

Připomeňme, že projekt Common Voice je zaměřen na organizaci společné práce s cílem shromáždit databázi hlasových vzorů, která zohledňuje rozmanitost hlasů a stylů řeči. Uživatelé jsou zváni k hlasovým frázím zobrazeným na obrazovce nebo k hodnocení kvality dat přidaných jinými uživateli. Nashromážděnou databázi se záznamy různých výslovností typických frází lidské řeči lze bez omezení používat v systémech strojového učení a ve výzkumných projektech.

Nevýhodami sady Common Voice je podle autora knihovny pro rozpoznávání spojité řeči Vosk jednostrannost hlasového materiálu (převaha mužů ve věku 20-30 let a nedostatek materiálu s hlasy žen). , děti a senioři), nedostatek variability ve slovníku (opakování stejných frází) a šíření nahrávek ve zkreslujícím formátu MP3.

Zdroj: opennet.ru

Přidat komentář