Kemas Kini Suara Mozilla Common Voice 8.0

Mozilla telah mengeluarkan kemas kini kepada set data Common Voicenya, yang termasuk sampel sebutan daripada hampir 200 orang. Data diterbitkan sebagai domain awam (CC0). Set yang dicadangkan boleh digunakan dalam sistem pembelajaran mesin untuk membina model pengecaman pertuturan dan sintesis. Berbanding dengan kemas kini sebelumnya, jumlah bahan ucapan dalam koleksi meningkat sebanyak 30% - dari 13.9 hingga 18.2 ribu jam ucapan. Bilangan bahasa yang disokong telah meningkat daripada 67 kepada 87.

Set untuk bahasa Rusia meliputi 2452 peserta dan 193 jam bahan pertuturan (terdapat 2136 peserta dan 173 jam), untuk bahasa Belarusia - 6160 peserta dan 987 jam (terdapat 3831 peserta dan 356 jam), untuk bahasa Ukraine - 684 peserta dan 76 jam (terdapat 615 peserta dan 66 jam). Lebih daripada 79 ribu orang mengambil bahagian dalam penyediaan bahan dalam bahasa Inggeris, menentukan 2886 jam ucapan yang disahkan (terdapat 75 ribu peserta dan 2637 jam).

Biar kami mengingatkan anda bahawa projek Common Voice bertujuan untuk mengatur kerja bersama untuk mengumpulkan pangkalan data corak suara yang mengambil kira kepelbagaian suara dan gaya pertuturan. Pengguna dijemput untuk menyuarakan frasa yang dipaparkan pada skrin atau menilai kualiti data yang ditambahkan oleh pengguna lain. Pangkalan data terkumpul dengan rekod pelbagai sebutan bagi frasa tipikal pertuturan manusia boleh digunakan tanpa sekatan dalam sistem pembelajaran mesin dan dalam projek penyelidikan. Menurut pengarang perpustakaan pengecaman pertuturan berterusan Vosk, kelemahan set Common Voice adalah berat sebelah bagi bahan suara (dominasi lelaki berumur 20-30 tahun, dan kekurangan bahan dengan suara wanita , kanak-kanak dan orang tua), kekurangan kebolehubahan dalam kamus (pengulangan frasa yang sama) dan pengedaran rakaman dalam format MP3 yang herot.

Selain itu, kita boleh perhatikan keluaran kit alat NVIDIA NeMo 1.6, yang menyediakan kaedah pembelajaran mesin untuk mencipta sistem pengecaman pertuturan, sintesis pertuturan dan pemprosesan bahasa semula jadi. NeMo termasuk model terlatih sedia untuk digunakan untuk sistem pembelajaran mesin berdasarkan rangka kerja PyTorch, yang disediakan oleh NVIDIA menggunakan data pertuturan Common Voice dan meliputi pelbagai bahasa, aksen dan bentuk pertuturan. Model ini mungkin berguna untuk penyelidik membangunkan sistem dialog berasaskan suara, platform transkripsi dan pusat panggilan automatik. Sebagai contoh, NVIDIA NeMo digunakan dalam perkhidmatan suara automatik MTS dan Sberbank. Kod NeMo ditulis dalam Python menggunakan PyTorch dan diedarkan di bawah lesen Apache 2.0.

Sumber: opennet.ru

Tambah komen