Pembaruan Suara Mozilla Common Voice 8.0

Mozilla telah merilis pembaruan pada kumpulan data Common Voice, yang mencakup sampel pengucapan dari hampir 200 orang. Data dipublikasikan sebagai domain publik (CC0). Kumpulan yang diusulkan dapat digunakan dalam sistem pembelajaran mesin untuk membangun model pengenalan dan sintesis ucapan. Dibandingkan pembaruan sebelumnya, volume materi pidato dalam koleksi meningkat 30% - dari 13.9 menjadi 18.2 ribu jam pidato. Jumlah bahasa yang didukung meningkat dari 67 menjadi 87.

Set untuk bahasa Rusia mencakup 2452 peserta dan 193 jam materi pidato (ada 2136 peserta dan 173 jam), untuk bahasa Belarusia - 6160 peserta dan 987 jam (ada 3831 peserta dan 356 jam), untuk bahasa Ukraina - 684 peserta dan 76 jam (ada 615 peserta dan 66 jam). Lebih dari 79 ribu orang mengikuti penyiapan materi dalam bahasa Inggris, mendiktekan 2886 jam pidato yang dikonfirmasi (ada 75 ribu peserta dan 2637 jam).

Izinkan kami mengingatkan Anda bahwa proyek Common Voice bertujuan untuk mengorganisir kerja sama untuk mengumpulkan database pola suara yang memperhitungkan keragaman suara dan gaya bicara. Pengguna diundang untuk menyuarakan frasa yang ditampilkan di layar atau mengevaluasi kualitas data yang ditambahkan oleh pengguna lain. Akumulasi database dengan catatan berbagai pengucapan frasa khas ucapan manusia dapat digunakan tanpa batasan dalam sistem pembelajaran mesin dan proyek penelitian. Menurut penulis perpustakaan pengenalan suara berkelanjutan Vosk, kelemahan dari rangkaian Common Voice adalah materi suara yang berat sebelah (dominasi laki-laki berusia 20-30 tahun, dan kurangnya materi dengan suara perempuan. , anak-anak dan orang tua), kurangnya variabilitas dalam kamus (pengulangan frasa yang sama) dan distribusi rekaman dalam format MP3 yang menyimpang.

Selain itu, kami dapat mencatat peluncuran toolkit NVIDIA NeMo 1.6, yang menyediakan metode pembelajaran mesin untuk membuat sistem pengenalan suara, sintesis ucapan, dan pemrosesan bahasa alami. NeMo menyertakan model terlatih siap pakai untuk sistem pembelajaran mesin berdasarkan kerangka kerja PyTorch, yang disiapkan oleh NVIDIA menggunakan data ucapan Common Voice dan mencakup berbagai bahasa, aksen, dan bentuk ucapan. Model ini mungkin berguna bagi peneliti yang mengembangkan sistem dialog berbasis suara, platform transkripsi, dan pusat panggilan otomatis. Misalnya, NVIDIA NeMo digunakan dalam layanan suara otomatis MTS dan Bank Tabungan. Kode NeMo ditulis dengan Python menggunakan PyTorch dan didistribusikan di bawah lisensi Apache 2.0.

Sumber: opennet.ru

Tambah komentar