Mozilla Common Voice 12.0 värskendus

Mozilla on värskendanud oma Common Voice'i andmekogumeid, et lisada hääldusnäidised enam kui 200 0 inimeselt. Andmed avaldatakse üldkasutatavana (CCXNUMX). Kavandatud komplekte saab kasutada masinõppesüsteemides kõnetuvastus- ja sünteesimudelite koostamiseks.

Võrreldes eelmise uuendusega kasvas kogumiku kõnematerjali maht 23.8 tuhandelt kõnetunnilt 25.8 tuhandele tunnile. Ingliskeelsete materjalide koostamises osales üle 88 tuhande inimese, kes dikteerisid 3161 tundi kõnet (osalejaid oli 84 tuhat ja tundi 3098). Valgevene keele komplekt hõlmab 7903 osalejat ja 1419 tundi kõnematerjali (osalejaid oli 6965 ja 1217 tundi), vene keele - 2815 osalejat ja 229 tundi (osalejaid oli 2731 ja 215 tundi), usbeki keele - 2092 osalejat ja 262 tundi ( osalejaid oli 2025 ja 258 tundi), ukraina keel - 780 osalejat ja 87 tundi (osalejaid oli 759 ja 87 tundi).

Projekti Common Voice eesmärk on korraldada ühistööd häälemustrite andmebaasi kogumiseks, mis arvestab häälte ja kõnestiilide mitmekesisusega. Kasutajaid kutsutakse hääldama ekraanil kuvatavaid fraase või hindama teiste kasutajate lisatud andmete kvaliteeti. Kogutud andmebaasi inimkõne tüüpiliste fraaside erinevate häälduste kirjetega saab piiranguteta kasutada masinõppesüsteemides ja uurimisprojektides.

Allikas: opennet.ru

Lisa kommentaar