🥇Mozilla Common Voice 7.0 hääldata värskendus

NVIDIA ja Mozilla tutvustasid häälainete komplektide uuendust, mis on kogutud Common Voice algatuse raames ja sisaldavad 182 000 inimese hääldusnäidet, mis on 25% rohkem kui kuue kuu eest. Andmed on avaldatud kui avalik domeen (CC0). Pakutavaid komplekte saab kasutada masinõppes kõnetuvastuse ja genereerimise mudelite loomisel.

Võrreldes eelmise uuendusega on kõnematerjali maht kollektsioonis suurenenud 9-st 13,9 tuhandeni. Toetatud keelte arv on kasvanud 60-lt 76-le, sealhulgas on esmakordselt lisatud Valgevene, Kasahhi, Usbeki, Bulgaaria, Armeenia, Aserbaidžaani ja Baškiri keele toetus. Vene keele komplekt katab 2136 osalejat ja 173 tundi kõnematerjali (oli 1412 osalejat ja 111 tundi), ning Ukraina keele jaoks 615 osalejat ja 66 tundi (oli 459 osalejat ja 30 tundi).

In English material preparation, over 75,000 people contributed, recording 2,637 hours of verified speech (there were 66,000 participants and 1,686 hours). Interestingly, the second language by the volume of data accumulated is Kinyarwanda, with 2,260 hours gathered. It is followed by German (1,040), Catalan (920), and Esperanto (840). Among the languages experiencing the most dynamic growth in voice data, Thai shows significant growth (20-fold increase, from 12 to 250 hours), Luganda (from 8 to 80 hours), Esperanto (from 100 to 840 hours), and Tamil (from 24 to 220 hours).

Common Voice projektis osaledes valmistas NVIDIA välja valmis treenitud mudelid, mis põhinevad kogutud andmetel ja on mõeldud masinõppesüsteemide jaoks (toetab PyTorch). Mudelid on osa tasuta ja avatud tööriistadest NVIDIA NeMo, mida näiteks juba kasutavad MTS ja Sberbank automatiseeritud häältehnoloogia teenused. Mudelid on suunatud kõnetuvastus-, kõnesünteesi- ja loomuliku keele töötlemise süsteemidesse ning võivad olla kasulikud teadlastele, kes tegelevad häälte dialoogisüsteemide, transkriptsiooniplatvormide ja automatiseeritud kõnekeskuste loomisega. Erinevalt varasematest projektidest ei piira avaldatud mudelid ainult ingliskeelset kõnet, vaid katavad erinevaid keeli, aktsente ja kõneviise.

Tuletud, et projekt Common Voice keskendub koostöö korraldamisele häälskeemide kogumise osas, arvestades hääle ja kõneviisi mitmekesisust. Kasutajatele pakutakse ekraanil kuvatud lauset hääletada või hinnata teiste kasutajate lisatud andmete kvaliteeti. Kogutud andmebaasi, mis sisaldab erineva häälduse inimkõne tüüpiliste fraaside salvestisi ilma piiranguteta, saab kasutada masinõppesüsteemides ja teadusprojektides.

Vosk häältuvuse teeki autori arvates on Common Voice'i andmekogumi puudusteks häälematerjali ühekülgsus (noorte meeste ülekaal 20-30 aastat, samuti naiste, laste ja vanemate inimeste häälte puudus), sõnavara varieerumatuse puudumine (samade fraaside kordamine) ja salvestuste levik moonutava MP3 formaadini.

Allikas: opennet.ru

Mozilla Common Voice 7.0 hääldataadete värskendus