NVIDIA investasi $ 1.5 juta dina proyék Mozilla Common Voice

NVIDIA investasi $ 1.5 juta dina proyék Mozilla Common Voice. Minat kana sistem pangakuan ucapan asalna tina prediksi yén dina sapuluh taun ka hareup, téknologi sora bakal janten salah sahiji cara utama jalma berinteraksi sareng alat mimitian ti komputer sareng telepon ka asisten digital sareng kios.

Kinerja sistem sora gumantung pisan kana volume sareng rupa-rupa data sora anu sayogi pikeun ngalatih modél pembelajaran mesin. Téknologi sora ayeuna utamina museurkeun kana pangenal basa Inggris sareng henteu nutupan rupa-rupa basa, aksen, sareng pola ucapan. Investasi bakal ngabantosan ngagancangkeun kamekaran data sora umum, ngiringan langkung seueur komunitas sareng sukarelawan, sareng ngalegaan jumlah staf proyék full-time.

Hayu urang ngingetan yén proyék Common Voice ditujukeun pikeun ngatur gawé babarengan pikeun ngumpulkeun database pola sora anu merhatikeun keragaman sora sareng gaya ucapan. Pamaké diondang kana frasa sora anu dipintonkeun dina layar atanapi ngévaluasi kualitas data anu ditambihan ku pangguna sanés. Database akumulasi sareng rékaman tina rupa-rupa lafal tina frasa khas ucapan manusa tiasa dianggo tanpa larangan dina sistem pembelajaran mesin sareng dina proyék panalungtikan.

The Common Voice set ayeuna kalebet conto lafal ti langkung ti 164 urang. Sakitar 9 rébu jam data sora parantos diakumulasi dina 60 basa anu béda. Set pikeun basa Rusia nyertakeun 1412 pamilon sarta 111 jam bahan pidato, sarta pikeun basa Ukraina - 459 pamilon sarta 30 jam. Pikeun babandingan, leuwih ti 66 sarébu urang nyandak bagian dina persiapan bahan dina basa Inggris, dictating 1686 jam ucapan diverifikasi. Susunan anu diusulkeun tiasa dianggo dina sistem pembelajaran mesin pikeun ngawangun modél pangenalan ucapan sareng sintésis. Data ieu diterbitkeun salaku domain publik (CC0).

Numutkeun panulis Vosk perpustakaan pangenalan ucapan kontinyu, kalemahan tina Common Voice set nyaéta hiji sisi bahan sora (predominance jalma lalaki umur 20-30 taun, sareng kurangna bahan sareng sora awéwé. , barudak jeung manula), kurangna variability dina kamus (pengulangan frase sarua) jeung ngadistribusikaeun rekaman dina format MP3 distorting.

sumber: opennet.ru

Tambahkeun komentar