Mozilla Common Voice 8.0 värskendus

Mozilla on välja andnud värskenduse oma Common Voice'i andmekogumitele, mis sisaldavad hääldusnäidiseid ligi 200 0 inimeselt. Andmed avaldatakse üldkasutatavana (CC30). Kavandatud komplekte saab kasutada masinõppesüsteemides kõnetuvastus- ja sünteesimudelite koostamiseks. Võrreldes eelmise värskendusega kasvas kogumiku kõnematerjali maht 13.9% - 18.2-lt 67 tuhandele kõnetunnile. Toetatud keelte arv on kasvanud 87-lt XNUMX-le.

Vene keele komplekt hõlmab 2452 osalejat ja 193 tundi kõnematerjali (osalejaid oli 2136 ja 173 tundi), valgevene keele jaoks - 6160 osalejat ja 987 tundi (osalejaid oli 3831 ja 356 tundi), ukraina keele jaoks - 684 osalejat ja 76 tundi ( osalejaid oli 615 ja 66 tundi). Ingliskeelsete materjalide koostamises osales üle 79 tuhande inimese, kes dikteerisid 2886 tundi kinnitatud kõnet (osalejaid oli 75 tuhat ja 2637 tundi).

Tuletame meelde, et ühishääle projekt on suunatud ühistöö korraldamisele häälte ja kõnestiilide mitmekesisust arvestava häälemustrite andmebaasi kogumiseks. Kasutajaid kutsutakse hääldama ekraanil kuvatavaid fraase või hindama teiste kasutajate lisatud andmete kvaliteeti. Kogutud andmebaasi inimkõne tüüpiliste fraaside erinevate häälduste kirjetega saab piiranguteta kasutada masinõppesüsteemides ja uurimisprojektides. Pideva kõnetuvastuse raamatukogu Vosk autori sõnul on Common Voice komplekti miinusteks häälematerjali ühekülgsus (20-30-aastaste meessoost inimeste ülekaal ja naiste häälega materjali vähesus). , lapsed ja vanurid), sõnaraamatu muutlikkuse puudumine (samade fraaside kordamine) ja salvestiste levitamine moonutavas MP3-vormingus.

Lisaks võime märkida NVIDIA NeMo 1.6 tööriistakomplekti väljaandmist, mis pakub masinõppe meetodeid kõnetuvastussüsteemide loomiseks, kõnesünteesiks ja loomuliku keele töötlemiseks. NeMo sisaldab PyTorchi raamistikul põhinevate masinõppesüsteemide jaoks kasutusvalmis koolitatud mudeleid, mille on koostanud NVIDIA, kasutades Common Voice'i kõneandmeid ja mis hõlmavad erinevaid keeli, aktsente ja kõnevorme. Mudelid võivad olla kasulikud teadlastele, kes arendavad häälepõhiseid dialoogisüsteeme, transkriptsiooniplatvorme ja automatiseeritud kõnekeskusi. Näiteks NVIDIA NeMo kasutatakse MTS-i ja Sberbanki automatiseeritud kõneteenustes. NeMo kood kirjutatakse Pythonis PyTorchi abil ja levitatakse Apache 2.0 litsentsi all.

Allikas: opennet.ru

Lisa kommentaar