Mozilla Sora Umum 8.0 Update

Mozilla geus ngarilis apdet kana datasets Common Voice na, nu ngawengku sampel lafal ti ampir 200 urang. Data ieu diterbitkeun salaku domain publik (CC0). Susunan anu diusulkeun tiasa dianggo dina sistem pembelajaran mesin pikeun ngawangun modél pangenalan ucapan sareng sintésis. Dibandingkeun update saméméhna, volume bahan ucapan dina kempelan ngaronjat ku 30% - ti 13.9 nepi ka 18.2 sarébu jam ucapan. Jumlah basa anu dirojong parantos ningkat tina 67 dugi ka 87.

Set pikeun basa Rusia nyertakeun 2452 pamilon sareng 193 jam bahan pidato (aya 2136 pamilon sareng 173 jam), pikeun basa Belarusian - 6160 pamilon sareng 987 jam (aya 3831 pamilon sareng 356 jam), pikeun basa Ukrania - 684 pamilon sareng 76 jam (aya 615 pamilon sareng 66 jam). Leuwih ti 79 sarébu urang nyandak bagian dina persiapan bahan dina basa Inggris, dictating 2886 jam ucapan dikonfirmasi (aya 75 sarébu pamilon sarta 2637 jam).

Hayu urang ngingetan yén proyék Common Voice ditujukeun pikeun ngatur gawé babarengan pikeun ngumpulkeun database pola sora anu merhatikeun keragaman sora sareng gaya ucapan. Pamaké diondang kana frasa sora anu dipintonkeun dina layar atanapi ngévaluasi kualitas data anu ditambihan ku pangguna sanés. Database akumulasi sareng rékaman tina rupa-rupa ngucapkeun frasa khas ucapan manusa tiasa dianggo tanpa larangan dina sistem pembelajaran mesin sareng dina proyék panalungtikan. Numutkeun panulis Vosk perpustakaan pangakuan ucapan kontinyu, kalemahan tina Common Voice set nyaéta hiji sisi bahan sora (predominance jalma lalaki 20-30 taun, sarta kurangna bahan jeung sora awéwé. , barudak jeung manula), kurangna variabilitas dina kamus (pengulangan frase sarua) jeung distribusi rekaman dina format MP3 distorting.

Salaku tambahan, urang tiasa nyatet sékrési toolkit NVIDIA NeMo 1.6, anu nyayogikeun metode diajar mesin pikeun nyiptakeun sistem pangenalan ucapan, sintésis ucapan sareng pamrosésan basa alami. NeMo kalebet modél terlatih anu siap dianggo pikeun sistem pembelajaran mesin dumasar kana kerangka PyTorch, disiapkeun ku NVIDIA nganggo data ucapan Common Voice sareng nutupan rupa-rupa basa, aksen sareng bentuk ucapan. Modél ieu tiasa mangpaat pikeun panalungtik ngamekarkeun sistem dialog dumasar-sora, platform transkripsi, sareng pusat telepon otomatis. Salaku conto, NVIDIA NeMo dianggo dina jasa sora otomatis MTS sareng Sberbank. Kodeu NeMo ditulis dina Python nganggo PyTorch sareng disebarkeun dina lisénsi Apache 2.0.

sumber: opennet.ru

Tambahkeun komentar