Kemas Kini Suara Mozilla Common Voice 12.0

Mozilla telah mengemas kini set data Common Voicenya untuk memasukkan sampel sebutan daripada lebih 200 orang. Data diterbitkan sebagai domain awam (CC0). Set yang dicadangkan boleh digunakan dalam sistem pembelajaran mesin untuk membina model pengecaman pertuturan dan sintesis.

Berbanding kemas kini sebelum ini, jumlah bahan pertuturan dalam koleksi meningkat daripada 23.8 kepada 25.8 ribu jam pertuturan. Lebih daripada 88 ribu orang mengambil bahagian dalam penyediaan bahan dalam bahasa Inggeris, menentukan 3161 jam ucapan (terdapat 84 ribu peserta dan 3098 jam). Set untuk bahasa Belarus meliputi 7903 peserta dan 1419 jam bahan pertuturan (terdapat 6965 peserta dan 1217 jam), Rusia - 2815 peserta dan 229 jam (terdapat 2731 peserta dan 215 jam), Uzbekistan - 2092 peserta dan 262 jam ( terdapat 2025 peserta dan 258 jam), bahasa Ukraine - 780 peserta dan 87 jam (terdapat 759 peserta dan 87 jam).

Projek Common Voice bertujuan untuk mengatur kerja bersama untuk mengumpul pangkalan data corak suara yang mengambil kira kepelbagaian suara dan gaya pertuturan. Pengguna dijemput untuk menyuarakan frasa yang dipaparkan pada skrin atau menilai kualiti data yang ditambahkan oleh pengguna lain. Pangkalan data terkumpul dengan rekod pelbagai sebutan bagi frasa tipikal pertuturan manusia boleh digunakan tanpa sekatan dalam sistem pembelajaran mesin dan dalam projek penyelidikan.

Sumber: opennet.ru

Tambah komen