Mozilla on värskendanud oma Common Voice'i andmekogumeid, et lisada hääldusnäidised enam kui 200 0 inimeselt. Andmed avaldatakse üldkasutatavana (CC31.8). Kavandatud komplekte saab kasutada masinõppesüsteemides kõnetuvastus- ja sünteesimudelite koostamiseks. Võrreldes eelmise uuendusega kasvas kogus oleva kõnematerjali maht 32.6 tuhandelt kõnetunnilt 20 tuhandele tunnile, millest üle 129 tuhande tunni läbis kontrollprotseduuri. Toetatud keelte arv on kasvanud 131-lt XNUMX-le.
Ingliskeelsete materjalide koostamises osales 93.9 tuhat inimest, kes dikteerisid 3587 tundi kõnet (osalejaid oli 93.3 tuhat ja 3554 tundi). Valgevene keele komplekt hõlmab 8444 osalejat ja 1846 tundi kõnematerjali (osalejaid oli 8400 ja 1815 tundi), vene keele - 3296 osalejat ja 278 tundi (osalejaid oli 3241 ja 277 tundi), usbeki keele - 2200 osalejat ja 265 tundi ( osalejaid oli 2189 ja 265 tundi), ukraina keel - 1104 osalejat ja 114 tundi (osalejaid oli 1091 ja 113 tundi).
Projekti Common Voice eesmärk on korraldada ühistööd häälemustrite andmebaasi kogumiseks, mis arvestab häälte ja kõnestiilide mitmekesisusega. Kasutajaid kutsutakse hääldama ekraanil kuvatavaid fraase või hindama teiste kasutajate lisatud andmete kvaliteeti. Kogutud andmebaasi inimkõne tüüpiliste fraaside erinevate häälduste kirjetega saab piiranguteta kasutada masinõppesüsteemides ja uurimisprojektides.
Allikas: opennet.ru
