Aktualizace Mozilla Common Voice 12.0

Mozilla aktualizovala své datové sady Common Voice, které obsahují vzorky řeči od více než 200 000 lidí. Data jsou publikována ve veřejné doméně (CC0). Datové sady lze použít v systémech strojového učení k vytváření modelů rozpoznávání a syntézy řeči.

Ve srovnání s předchozí aktualizací se objem řečnického materiálu ve sbírce zvýšil z 23.8 tisíce na 25.8 tisíce hodin projevů. Na přípravě anglicky psaných materiálů se podílelo více než 88 tisíc lidí, kteří nadiktovali 3 161 hodin projevů (dříve 84 tisíc účastníků a 3 098 hodin). Sada pro běloruský jazyk zahrnuje 7 903 účastníků a 1 419 hodin řečnického materiálu (dříve 6 965 účastníků a 1 217 hodin), ruštinu - 2 815 účastníků a 229 hodin (dříve 2 731 účastníků a 215 hodin), uzbečtinu - 2 092 účastníků a 262 hodin (dříve 2 025 účastníků a 258 hodin) a ukrajinštinu - 780 účastníků a 87 hodin (dříve 759 účastníků a 87 hodin).

Projekt Common Voice si klade za cíl zorganizovat společnou práci s cílem shromáždit databázi hlasových vzorů, která zohledňuje rozmanitost hlasů a stylů řeči. Uživatelé jsou zváni k hlasovým frázím zobrazeným na obrazovce nebo k hodnocení kvality dat přidaných jinými uživateli. Nashromážděnou databázi se záznamy různých výslovností typických frází lidské řeči lze bez omezení používat v systémech strojového učení a ve výzkumných projektech.

Zdroj: opennet.ru

Kupte si spolehlivý hosting pro stránky s DDoS ochranou, VPS VDS servery 🔥 Kupte si spolehlivý webhosting s ochranou DDoS, VPS VDS servery | ProHoster