Mozilla Common Voice 7.0 värskendus

NVIDIA ja Mozilla on välja andnud oma Common Voice'i andmekogumitele värskenduse, mis sisaldab 182 25 inimese kõnenäidiseid, mis on 6% rohkem kui 0 kuud tagasi. Andmed avaldatakse üldkasutatavana (CCXNUMX). Kavandatud komplekte saab kasutada masinõppesüsteemides kõnetuvastus- ja sünteesimudelite koostamiseks.

Võrreldes eelmise uuendusega on kogumiku kõnematerjali maht kasvanud 9-lt 13.9 tuhandele kõnetunnile. Toetatud keelte arv on kasvanud 60-lt 76-le, sealhulgas esmakordselt toetatakse valgevene, kasahhi, usbeki, bulgaaria, armeenia, aserbaidžaani ja baškiiri keeli. Vene keele komplekt hõlmab 2136 osalejat ja 173 tundi kõnematerjali (osalejaid oli 1412 ja 111 tundi) ning ukraina keele komplekti - 615 osalejat ja 66 tundi (osalejaid oli 459 ja 30 tundi).

Ingliskeelsete materjalide ettevalmistamisel osales üle 75 tuhande inimese, kes dikteerisid 2637 tundi kinnitatud kõnet (osalejaid oli 66 tuhat ja tundi 1686). Huvitaval kombel on akumuleeritud andmete hulga poolest teisel kohal Rwanda, mille jaoks on kogutud 2260 tundi. Järgnevad saksa (1040), katalaani (920) ja esperanto (840). Kõige dünaamilisemalt kasvavate kõneandmete hulka kuuluvad tai keel (20-kordne baasi kasv, 12 tunnilt 250 tunnini), luganda (8 tunnilt 80 tunnini), esperanto (100 tunnilt 840 tunnini) ja tamili keel ( 24 kuni 220 tundi).

Osana Common Voice projektis osalemisest koostas NVIDIA kogutud andmete põhjal valmis koolitatud mudelid masinõppesüsteemidele (toetab PyTorch). Mudeleid levitatakse tasuta ja avatud NVIDIA NeMo tööriistakomplekti osana, mida näiteks juba kasutatakse MTS-i ja Sberbanki automatiseeritud kõneteenustes. Mudelid on mõeldud kasutamiseks kõnetuvastuses, kõnesünteesis ja loomuliku keele töötlemise süsteemides ning võivad olla kasulikud teadlastele, kes loovad häälaktiveeritud dialoogisüsteeme, transkriptsiooniplatvorme ja automatiseeritud kõnekeskusi. Erinevalt varem kättesaadavatest projektidest ei piirdu avaldatud mudelid inglise keele tuvastamisega ning hõlmavad mitmesuguseid keeli, aktsente ja kõnevorme.

Tuletame meelde, et ühishääle projekt on suunatud ühistöö korraldamisele häälte ja kõnestiilide mitmekesisust arvestava häälemustrite andmebaasi kogumiseks. Kasutajaid kutsutakse hääldama ekraanil kuvatavaid fraase või hindama teiste kasutajate lisatud andmete kvaliteeti. Kogutud andmebaasi inimkõne tüüpiliste fraaside erinevate häälduste kirjetega saab piiranguteta kasutada masinõppesüsteemides ja uurimisprojektides.

Pideva kõnetuvastuse raamatukogu Vosk autori sõnul on Common Voice komplekti miinusteks häälematerjali ühekülgsus (20-30-aastaste meessoost inimeste ülekaal ja naiste häälega materjali vähesus). , lapsed ja vanurid), sõnaraamatu muutlikkuse puudumine (samade fraaside kordamine) ja salvestiste levitamine moonutavas MP3-vormingus.

Allikas: opennet.ru

Lisa kommentaar