Aktualizace Mozilla Common Voice 12.0

Mozilla aktualizovala své datové sady Common Voice tak, aby zahrnovaly ukázky výslovnosti od více než 200 0 lidí. Data jsou publikována jako public domain (CCXNUMX). Navržené sady mohou být použity v systémech strojového učení k sestavení modelů rozpoznávání a syntézy řeči.

Oproti předchozí aktualizaci se objem řečového materiálu ve sbírce zvýšil z 23.8 na 25.8 tisíce hodin řeči. Na přípravě materiálů v angličtině se podílelo více než 88 tisíc lidí, kteří nadiktovali 3161 hodin projevu (účastníků bylo 84 tisíc a 3098 hodin). Sada pro běloruský jazyk pokrývá 7903 účastníků a 1419 hodin řečového materiálu (zúčastnilo se 6965 účastníků a 1217 hodin), ruštinu - 2815 účastníků a 229 hodin (2731 účastníků a 215 hodin), uzbečtinu - 2092 účastníků a 262 hodin ( bylo 2025 účastníků a 258 hodin), ukrajinský jazyk - 780 účastníků a 87 hodin (bylo 759 účastníků a 87 hodin).

Projekt Common Voice si klade za cíl zorganizovat společnou práci s cílem shromáždit databázi hlasových vzorů, která zohledňuje rozmanitost hlasů a stylů řeči. Uživatelé jsou zváni k hlasovým frázím zobrazeným na obrazovce nebo k hodnocení kvality dat přidaných jinými uživateli. Nashromážděnou databázi se záznamy různých výslovností typických frází lidské řeči lze bez omezení používat v systémech strojového učení a ve výzkumných projektech.

Zdroj: opennet.ru

Přidat komentář