Nganyari Mozilla Common Voice 7.0

NVIDIA lan Mozilla wis ngrilis update kanggo dataset Common Voice, sing kalebu 182 conto pidato wong, munggah 25% saka 6 wulan kepungkur. Data kasebut diterbitake minangka domain publik (CC0). Set sing diusulake bisa digunakake ing sistem pembelajaran mesin kanggo mbangun model pangenalan wicara lan sintesis.

Dibandhingake karo nganyari sadurunge, ukuran materi pidato ing koleksi tambah saka 9 nganti 13.9 ewu jam pidato. Jumlah basa sing didhukung wis tambah saka 60 dadi 76, kalebu kanggo pisanan dhukungan kanggo basa Belarusia, Kazakh, Uzbek, Bulgaria, Armenia, Azerbaijan lan Bashkir. Set kanggo basa Rusia kalebu 2136 peserta lan 173 jam materi pidato (ana 1412 peserta lan 111 jam), lan kanggo basa Ukrainia - 615 peserta lan 66 jam (ana 459 peserta lan 30 jam).

Luwih saka 75 ewu wong melu nyiapake bahan ing basa Inggris, ndhikte 2637 jam pidato sing dikonfirmasi (ana 66 ewu peserta lan 1686 jam). Sing nggumunake, basa paling gedhe nomer loro ing babagan data akumulasi yaiku Rwanda, sing wis diklumpukake 2260 jam. Iki disusul Jerman (1040), Katalan (920) lan Esperanto (840). Ing antarane sing paling dinamis nambah ukuran data swara yaiku basa Thai (tambah 20 kali lipat ing basa, saka 12 nganti 250 jam), Luganda (saka 8 nganti 80 jam), Esperanto (saka 100 nganti 840 jam) lan Tamil ( saka 24 nganti 220 jam).

Minangka bagΓ©an saka partisipasi ing proyek Common Voice, NVIDIA nyiapake model terlatih sing wis siap kanggo sistem pembelajaran mesin adhedhasar data sing diklumpukake (didhukung dening PyTorch). Model kasebut disebarake minangka bagean saka toolkit NVIDIA NeMo gratis lan mbukak, sing, contone, wis digunakake ing layanan swara otomatis MTS lan Sberbank. Model kasebut dimaksudake kanggo digunakake ing pangenalan wicara, sintesis wicara, lan sistem pangolahan basa alami, lan bisa uga migunani kanggo peneliti sing mbangun sistem dialog sing diaktifake swara, platform transkripsi, lan pusat panggilan otomatis. Ora kaya proyek sing kasedhiya sadurunge, model sing diterbitake ora diwatesi kanggo pangenalan basa Inggris lan nyakup macem-macem basa, aksen lan wujud wicara.

Ayo kita ngelingake yen proyek Common Voice ditujokake kanggo ngatur kerja bareng kanggo nglumpukake basis data pola swara sing nimbang macem-macem swara lan gaya wicara. Pangguna diundang kanggo swara swara sing ditampilake ing layar utawa ngevaluasi kualitas data sing ditambahake dening pangguna liyane. Basis data akumulasi kanthi cathetan macem-macem lafal saka frasa khas ucapan manungsa bisa digunakake tanpa watesan ing sistem pembelajaran mesin lan ing proyek riset.

Miturut penulis perpustakaan pangenalan wicara sing terus-terusan Vosk, kekurangan saka set Common Voice yaiku siji-sijine materi swara (dominasi wong lanang umur 20-30 taun, lan kekurangan materi karo swara wanita. , bocah lan wong tuwa), kekurangan variasi ing kamus (pengulangan frasa sing padha) lan distribusi rekaman ing format MP3 sing distorsi.

Source: opennet.ru

Add a comment