NVIDIA melabur $1.5 juta dalam projek Mozilla Common Voice

NVIDIA melabur $1.5 juta dalam projek Mozilla Common Voice. Minat dalam sistem pengecaman pertuturan berpunca daripada ramalan bahawa dalam tempoh sepuluh tahun akan datang, teknologi suara akan menjadi salah satu cara utama orang berinteraksi dengan peranti daripada komputer dan telefon kepada pembantu digital dan kiosk.

Prestasi sistem suara sangat bergantung pada volum dan pelbagai data suara yang tersedia untuk melatih model pembelajaran mesin. Teknologi suara hari ini tertumpu terutamanya pada pengecaman bahasa Inggeris dan tidak meliputi pelbagai bahasa, loghat dan corak pertuturan. Pelaburan itu akan membantu mempercepatkan pertumbuhan data suara awam, melibatkan lebih ramai komuniti dan sukarelawan, dan mengembangkan bilangan kakitangan projek sepenuh masa.

Biar kami mengingatkan anda bahawa projek Common Voice bertujuan untuk mengatur kerja bersama untuk mengumpulkan pangkalan data corak suara yang mengambil kira kepelbagaian suara dan gaya pertuturan. Pengguna dijemput untuk menyuarakan frasa yang dipaparkan pada skrin atau menilai kualiti data yang ditambahkan oleh pengguna lain. Pangkalan data terkumpul dengan rekod pelbagai sebutan bagi frasa tipikal pertuturan manusia boleh digunakan tanpa sekatan dalam sistem pembelajaran mesin dan dalam projek penyelidikan.

Set Common Voice pada masa ini termasuk contoh sebutan daripada lebih 164 orang. Kira-kira 9 ribu jam data suara telah terkumpul dalam 60 bahasa yang berbeza. Set untuk bahasa Rusia meliputi 1412 peserta dan 111 jam bahan pertuturan, dan untuk bahasa Ukraine - 459 peserta dan 30 jam. Sebagai perbandingan, lebih daripada 66 ribu orang mengambil bahagian dalam penyediaan bahan dalam bahasa Inggeris, menentukan 1686 jam ucapan yang disahkan. Set yang dicadangkan boleh digunakan dalam sistem pembelajaran mesin untuk membina model pengecaman pertuturan dan sintesis. Data diterbitkan sebagai domain awam (CC0).

Menurut pengarang perpustakaan pengecaman pertuturan berterusan Vosk, kelemahan set Common Voice adalah berat sebelah bagi bahan suara (dominasi lelaki berumur 20-30 tahun, dan kekurangan bahan dengan suara wanita , kanak-kanak dan orang tua), kekurangan kebolehubahan dalam kamus (pengulangan frasa yang sama) dan pengedaran rakaman dalam format MP3 yang herot.

Sumber: opennet.ru

Tambah komen