NVIDIA menginvestasikan $1.5 juta dalam proyek Mozilla Common Voice

NVIDIA menginvestasikan $1.5 juta dalam proyek Mozilla Common Voice. Ketertarikan pada sistem pengenalan suara berasal dari prediksi bahwa dalam sepuluh tahun ke depan, teknologi suara akan menjadi salah satu cara utama orang berinteraksi dengan perangkat mulai dari komputer dan telepon hingga asisten digital dan kios.

Performa sistem suara sangat bergantung pada volume dan variasi data suara yang tersedia untuk melatih model pembelajaran mesin. Teknologi suara saat ini terutama berfokus pada pengenalan bahasa Inggris dan tidak mencakup beragam bahasa, aksen, dan pola bicara. Investasi ini akan membantu mempercepat pertumbuhan data suara publik, melibatkan lebih banyak komunitas dan relawan, dan memperluas jumlah staf proyek penuh waktu.

Izinkan kami mengingatkan Anda bahwa proyek Common Voice bertujuan untuk mengorganisir kerja sama untuk mengumpulkan database pola suara yang memperhitungkan keragaman suara dan gaya bicara. Pengguna diundang untuk menyuarakan frasa yang ditampilkan di layar atau mengevaluasi kualitas data yang ditambahkan oleh pengguna lain. Akumulasi database dengan catatan berbagai pengucapan frasa khas ucapan manusia dapat digunakan tanpa batasan dalam sistem pembelajaran mesin dan proyek penelitian.

Kumpulan Common Voice saat ini mencakup contoh pengucapan dari lebih dari 164 orang. Sekitar 9 ribu jam data suara telah terakumulasi dalam 60 bahasa berbeda. Set untuk bahasa Rusia mencakup 1412 peserta dan 111 jam materi pidato, dan untuk bahasa Ukraina - 459 peserta dan 30 jam. Sebagai perbandingan, lebih dari 66 ribu orang mengambil bagian dalam persiapan materi dalam bahasa Inggris, mendiktekan 1686 jam pidato terverifikasi. Kumpulan yang diusulkan dapat digunakan dalam sistem pembelajaran mesin untuk membangun model pengenalan dan sintesis ucapan. Data dipublikasikan sebagai domain publik (CC0).

Menurut penulis perpustakaan pengenalan suara berkelanjutan Vosk, kelemahan dari rangkaian Common Voice adalah materi suara yang berat sebelah (dominasi laki-laki berusia 20-30 tahun, dan kurangnya materi dengan suara perempuan. , anak-anak dan orang tua), kurangnya variabilitas dalam kamus (pengulangan frasa yang sama) dan distribusi rekaman dalam format MP3 yang terdistorsi.

Sumber: opennet.ru

Tambah komentar