Pembaruan Suara Mozilla Common Voice 12.0

Mozilla telah memperbarui kumpulan data Common Voice untuk menyertakan sampel pengucapan dari lebih dari 200 orang. Data dipublikasikan sebagai domain publik (CC0). Kumpulan yang diusulkan dapat digunakan dalam sistem pembelajaran mesin untuk membangun model pengenalan dan sintesis ucapan.

Dibandingkan update sebelumnya, volume materi pidato yang dikumpulkan meningkat dari 23.8 menjadi 25.8 ribu jam pidato. Lebih dari 88 ribu orang mengikuti penyiapan materi dalam bahasa Inggris, mendiktekan 3161 jam pidato (ada 84 ribu peserta dan 3098 jam). Set untuk bahasa Belarusia mencakup 7903 peserta dan 1419 jam materi pidato (ada 6965 peserta dan 1217 jam), Rusia - 2815 peserta dan 229 jam (ada 2731 peserta dan 215 jam), Uzbekistan - 2092 peserta dan 262 jam ( ada 2025 peserta dan 258 jam), bahasa Ukraina - 780 peserta dan 87 jam (ada 759 peserta dan 87 jam).

Proyek Common Voice bertujuan untuk mengatur kerja sama untuk mengumpulkan database pola suara yang memperhitungkan keragaman suara dan gaya bicara. Pengguna diundang untuk menyuarakan frasa yang ditampilkan di layar atau mengevaluasi kualitas data yang ditambahkan oleh pengguna lain. Akumulasi database dengan catatan berbagai pengucapan frasa khas ucapan manusia dapat digunakan tanpa batasan dalam sistem pembelajaran mesin dan proyek penelitian.

Sumber: opennet.ru

Tambah komentar