Pembaruan Suara Mozilla Common Voice 7.0

NVIDIA dan Mozilla telah merilis pembaruan pada kumpulan data Common Voice mereka, yang mencakup 182 sampel ucapan orang, naik 25% dari 6 bulan lalu. Data dipublikasikan sebagai domain publik (CC0). Kumpulan yang diusulkan dapat digunakan dalam sistem pembelajaran mesin untuk membangun model pengenalan dan sintesis ucapan.

Dibandingkan update sebelumnya, jumlah materi pidato dalam koleksinya meningkat dari 9 menjadi 13.9 ribu jam pidato. Jumlah bahasa yang didukung meningkat dari 60 menjadi 76, termasuk untuk pertama kalinya dukungan untuk bahasa Belarusia, Kazakh, Uzbek, Bulgaria, Armenia, Azerbaijan, dan Bashkir. Set untuk bahasa Rusia mencakup 2136 peserta dan 173 jam materi pidato (ada 1412 peserta dan 111 jam), dan untuk bahasa Ukraina - 615 peserta dan 66 jam (ada 459 peserta dan 30 jam).

Lebih dari 75 ribu orang mengikuti penyiapan materi dalam bahasa Inggris, mendiktekan 2637 jam pidato yang dikonfirmasi (ada 66 ribu peserta dan 1686 jam). Menariknya, bahasa di urutan kedua dalam hal jumlah akumulasi data adalah Rwanda, yang telah mengumpulkan 2260 jam. Diikuti oleh Jerman (1040), Catalan (920) dan Esperanto (840). Di antara bahasa yang paling dinamis peningkatan ukuran data suaranya adalah bahasa Thailand (peningkatan basis data sebesar 20 kali lipat, dari 12 menjadi 250 jam), Luganda (dari 8 menjadi 80 jam), Esperanto (dari 100 menjadi 840 jam) dan Tamil (dari 24 menjadi 220 jam). dari XNUMX hingga XNUMX jam).jam).

Sebagai bagian dari partisipasinya dalam proyek Common Voice, NVIDIA menyiapkan model terlatih siap pakai untuk sistem pembelajaran mesin (didukung oleh PyTorch) berdasarkan data yang dikumpulkan. Model-model tersebut didistribusikan sebagai bagian dari toolkit NVIDIA NeMo yang gratis dan terbuka, yang, misalnya, sudah digunakan dalam layanan suara otomatis MTS dan Sberbank. Model ini dimaksudkan untuk digunakan dalam pengenalan ucapan, sintesis ucapan, dan sistem pemrosesan bahasa alami, dan mungkin berguna bagi peneliti yang membangun sistem dialog yang diaktifkan dengan suara, platform transkripsi, dan pusat panggilan otomatis. Berbeda dengan proyek yang tersedia sebelumnya, model yang diterbitkan tidak terbatas pada pengenalan bahasa Inggris dan mencakup berbagai bahasa, aksen, dan bentuk ucapan.

Izinkan kami mengingatkan Anda bahwa proyek Common Voice bertujuan untuk mengorganisir kerja sama untuk mengumpulkan database pola suara yang memperhitungkan keragaman suara dan gaya bicara. Pengguna diundang untuk menyuarakan frasa yang ditampilkan di layar atau mengevaluasi kualitas data yang ditambahkan oleh pengguna lain. Akumulasi database dengan catatan berbagai pengucapan frasa khas ucapan manusia dapat digunakan tanpa batasan dalam sistem pembelajaran mesin dan proyek penelitian.

Menurut penulis perpustakaan pengenalan suara berkelanjutan Vosk, kelemahan dari rangkaian Common Voice adalah materi suara yang berat sebelah (dominasi laki-laki berusia 20-30 tahun, dan kurangnya materi dengan suara perempuan. , anak-anak dan orang tua), kurangnya variabilitas dalam kamus (pengulangan frasa yang sama) dan distribusi rekaman dalam format MP3 yang terdistorsi.

Sumber: opennet.ru

Tambah komentar