Nganyari Mozilla Common Voice 8.0

Mozilla wis ngrilis update kanggo kumpulan data Common Voice, sing kalebu conto lafal saka meh 200 wong. Data kasebut diterbitake minangka domain publik (CC0). Set sing diusulake bisa digunakake ing sistem pembelajaran mesin kanggo mbangun model pangenalan wicara lan sintesis. Dibandhingake karo nganyari sadurunge, volume materi pidato ing koleksi tambah 30% - saka 13.9 nganti 18.2 ewu jam pidato. Jumlah basa sing didhukung wis tambah saka 67 dadi 87.

Set kanggo basa Rusia kalebu 2452 peserta lan 193 jam materi pidato (ana 2136 peserta lan 173 jam), kanggo basa Belarusia - 6160 peserta lan 987 jam (ana 3831 peserta lan 356 jam), kanggo basa Ukrainia - 684 peserta lan 76 jam ( ana 615 peserta lan 66 jam). Luwih saka 79 ewu wong melu nyiapake materi ing basa Inggris, ndhikte 2886 jam pidato sing dikonfirmasi (ana 75 ewu peserta lan 2637 jam).

Ayo kita ngelingake yen proyek Common Voice dituju kanggo ngatur kerja bareng kanggo nglumpukake basis data pola swara sing nimbang macem-macem swara lan gaya wicara. Pangguna diundang kanggo swara swara sing ditampilake ing layar utawa ngevaluasi kualitas data sing ditambahake dening pangguna liyane. Basis data akumulasi kanthi cathetan macem-macem lafal saka frasa khas ucapan manungsa bisa digunakake tanpa watesan ing sistem pembelajaran mesin lan ing proyek riset. Miturut penulis perpustakaan pangenalan wicara sing terus-terusan Vosk, kekurangan saka set Common Voice yaiku siji-sisi saka materi swara (dominasi wong lanang umur 20-30 taun, lan kekurangan materi karo swara wanita. , bocah lan wong tuwa), kekurangan variasi ing kamus (pengulangan frasa sing padha) lan distribusi rekaman ing format MP3 sing distorsi.

Kajaba iku, kita bisa nyathet rilis toolkit NVIDIA NeMo 1.6, sing nyedhiyakake metode pembelajaran mesin kanggo nggawe sistem pangenalan wicara, sintesis wicara lan pangolahan basa alami. NeMo kalebu model terlatih sing siap digunakake kanggo sistem pembelajaran mesin adhedhasar kerangka PyTorch, sing disiapake dening NVIDIA nggunakake data wicara Swara Umum lan nyakup macem-macem basa, aksen lan wujud wicara. Model kasebut bisa migunani kanggo peneliti ngembangake sistem dialog adhedhasar swara, platform transkripsi, lan pusat panggilan otomatis. Contone, NVIDIA NeMo digunakake ing layanan swara otomatis MTS lan Sberbank. Kode NeMo ditulis nganggo Python nggunakake PyTorch lan disebarake miturut lisensi Apache 2.0.

Source: opennet.ru

Add a comment