Mozilla aktualizovala své datové sady Common Voice, které obsahují vzorky řeči od více než 200 000 lidí. Data jsou publikována ve veřejné doméně (CC0). Datové sady lze použít v systémech strojového učení k vytváření modelů rozpoznávání a syntézy řeči.
Ve srovnání s předchozí aktualizací se objem řečnického materiálu ve sbírce zvýšil z 23.8 tisíce na 25.8 tisíce hodin projevů. Na přípravě anglicky psaných materiálů se podílelo více než 88 tisíc lidí, kteří nadiktovali 3 161 hodin projevů (dříve 84 tisíc účastníků a 3 098 hodin). Sada pro běloruský jazyk zahrnuje 7 903 účastníků a 1 419 hodin řečnického materiálu (dříve 6 965 účastníků a 1 217 hodin), ruštinu - 2 815 účastníků a 229 hodin (dříve 2 731 účastníků a 215 hodin), uzbečtinu - 2 092 účastníků a 262 hodin (dříve 2 025 účastníků a 258 hodin) a ukrajinštinu - 780 účastníků a 87 hodin (dříve 759 účastníků a 87 hodin).
Projekt Common Voice si klade za cíl zorganizovat společnou práci s cílem shromáždit databázi hlasových vzorů, která zohledňuje rozmanitost hlasů a stylů řeči. Uživatelé jsou zváni k hlasovým frázím zobrazeným na obrazovce nebo k hodnocení kvality dat přidaných jinými uživateli. Nashromážděnou databázi se záznamy různých výslovností typických frází lidské řeči lze bez omezení používat v systémech strojového učení a ve výzkumných projektech.
Zdroj: opennet.ru
