Aktualizace Mozilla Common Voice 9.0

Mozilla vydala aktualizaci svých datových sad Common Voice, které obsahují ukázky výslovnosti od téměř 200 0 lidí. Data jsou publikována jako public domain (CCXNUMX). Navržené sady mohou být použity v systémech strojového učení k sestavení modelů rozpoznávání a syntézy řeči.

Ve srovnání s předchozí aktualizací se objem řečového materiálu ve sbírce zvýšil o 10 % – z 18.2 na 20.2 tisíce hodin řeči. Počet podporovaných jazyků se zvýšil z 87 na 93. Pro 27 jazyků bylo nashromážděno více než 100 hodin řečových dat a pro 9 - více než 500 hodin řečových dat. U 9 ​​jazyků bylo také možné dosáhnout podílu ženské řeči alespoň 45 %.

Na přípravě materiálů v angličtině se podílelo více než 81 tisíc lidí, kteří nadiktovali 2953 hodin projevu (účastníků bylo 79 tisíc a 2886 hodin). Sada pro běloruský jazyk pokrývá 6326 účastníků a 1054 hodin řečového materiálu (zúčastnilo se 6160 účastníků a 987 hodin), ruštinu - 2585 účastníků a 201 hodin (2452 účastníků a 193 hodin), uzbečtinu - 1503 účastníků a 231 hodin ( bylo 1355 účastníků a 227 hodin), ukrajinský jazyk - 696 účastníků a 79 hodin (bylo 684 účastníků a 76 hodin).

Projekt Common Voice si klade za cíl zorganizovat společnou práci s cílem shromáždit databázi hlasových vzorů, která zohledňuje rozmanitost hlasů a stylů řeči. Uživatelé jsou zváni k hlasovým frázím zobrazeným na obrazovce nebo k hodnocení kvality dat přidaných jinými uživateli. Nashromážděnou databázi se záznamy různých výslovností typických frází lidské řeči lze bez omezení používat v systémech strojového učení a ve výzkumných projektech.

Zdroj: opennet.ru

Přidat komentář