🥇Mozilla Common Voice 8.0 häälte uuendus

Mozilla esitles Common Voice hääldata kogumite värskendust, mis sisaldavad umbes 200 000 inimese hääldusnäidet. Andmed on avaldatud avaliku omandi all (CC0). Pakutavaid kogusid saab kasutada masinõppe süsteemides kõne tuvastamise ja sünteesi mudelite loomiseks. Eelmise värskendusega võrreldes on kõnematerjali maht kogus suurenenu 30% — 13,9 tuhandelt 18,2 tuhandele kõneaastale. Toetatud keelte arv on suurenenud 67-lt 87-le.

Venekeelne komplekt hõlmab 2452 osalejat ja 193 tunni kõnematerjali (enne oli 2136 osalejat ja 173 tundi), valgevenekeelne komplekt — 6160 osalejat ja 987 tundi (enne — 3831 osalejat ja 356 tundi), ukraina keele oma — 684 osalejat ja 76 tundi (enne 615 osalejat ja 66 tundi). Ingliskeelsete materjalide ettevalmistamisel osales üle 79 000 inimese, kes dikteerisid 2886 tunni kinnitatud kõnet (enne oli 75 000 osalejat ja 2637 tundi).

Tuletame meelde, et Common Voice'i projekt eesmärk on korraldada koostööd häälematerjalide kogumise alal, arvestades hääle ja kõneviisi mitmekesisust. Kasutajatele pakutakse võimalust hääldada ekraanil kuvatavaid lauseid või hinnata teiste kasutajate lisatud andmete kvaliteeti. Kogutud andmebaasi, mis sisaldab erineva hääldusega tüüpiliste inimkõne fraaside salvestusi, saab piiramatus koguses kasutada masinõppe süsteemides ja teadusprojektides. Vosk hääletuvastuse raamatukogu autori arvates on Common Voice'i komplekti puudused häälematerjalide ühekülgsus (ülemuslikud on 20-30-aastased mehed ning puuduvad naiste, laste ja eakate hääled), sõnavara variatiivsuse puudumine (korduvad samad fraasid) ning salvestuste levik moonutusi tekitavas MP3 formaadis.

Lisaks tasub mainida NVIDIA NeMo 1.6 tööriistade vabastamist, mis pakub masinõppe meetodeid kõne tuvastamise, kõne sünteesi ja loomuliku keele töötlemise süsteemide loomiseks. NeMo sisaldab valmis harjutatud mudeleid, mis toetavad masinõppesüsteeme PyTorchi raamistikul, mille on ette valmistanud NVIDIA, kasutades Common Voice kõnedataandust, hõlmates erinevaid keeli, aktsente ja kõne vorme. Need mudelid võivad olla kasulikud teadlastele, kes töötavad kõnedialooge süsteemide, transkriptsiooniplatvormide ja automatiseeritud kõnekeskuste loomisega. Näiteks kasutatakse NVIDIA NeMo automatiseeritud häälteenustes MTS-i ja Sberbanki poolt. NeMo kood on kirjutatud Pythonis, kasutades PyTorchi ja levitatakse Apache 2.0 litsentsi alusel.

Allikas: opennet.ru

Mozilla Common Voice 8.0 hääldusandmete uuendus

Yuri Gagarin