Mozilla Sora Umum 12.0 Update

Mozilla parantos ngamutahirkeun set data Common Voice na kalebet conto lafal ti langkung ti 200 urang. Data ieu diterbitkeun salaku domain publik (CC0). Susunan anu diusulkeun tiasa dianggo dina sistem pembelajaran mesin pikeun ngawangun modél pangenalan ucapan sareng sintésis.

Dibandingkeun update saméméhna, volume bahan ucapan dina kempelan ngaronjat tina 23.8 nepi ka 25.8 sarébu jam biantara. Leuwih ti 88 sarébu urang nyandak bagian dina persiapan bahan dina basa Inggris, dictating 3161 jam pidato (aya 84 sarébu pamilon sarta 3098 jam). Susunan pikeun basa Belarusian nyertakeun 7903 pamilon sareng 1419 jam bahan pidato (aya 6965 pamilon sareng 1217 jam), Rusia - 2815 pamilon sareng 229 jam (aya 2731 pamilon sareng 215 jam), Uzbek - 2092 pamilon sareng 262 jam ( aya 2025 pamilon jeung 258 jam), basa Ukraina - 780 pamilon jeung 87 jam (aya 759 pamilon jeung 87 jam).

Proyék Common Voice boga tujuan pikeun ngatur gawé babarengan pikeun ngumpulkeun database pola sora nu merhatikeun karagaman sora jeung gaya ucapan. Pamaké diondang kana frasa sora anu dipintonkeun dina layar atanapi ngévaluasi kualitas data anu ditambihan ku pangguna sanés. Database akumulasi sareng rékaman tina rupa-rupa ngucapkeun frasa khas ucapan manusa tiasa dianggo tanpa larangan dina sistem pembelajaran mesin sareng dina proyék panalungtikan.

sumber: opennet.ru

Tambahkeun komentar