Mozilla Sora Umum 9.0 Update

Mozilla geus ngarilis apdet kana datasets Common Voice na, nu ngawengku sampel lafal ti ampir 200 urang. Data ieu diterbitkeun salaku domain publik (CC0). Susunan anu diusulkeun tiasa dianggo dina sistem pembelajaran mesin pikeun ngawangun modél pangenalan ucapan sareng sintésis.

Dibandingkeun update saméméhna, volume bahan ucapan dina kempelan ngaronjat ku 10% - ti 18.2 nepi ka 20.2 sarébu jam ucapan. Jumlah basa anu dirojong parantos ningkat tina 87 dugi ka 93. Pikeun 27 basa, langkung ti 100 jam data ucapan parantos diakumulasi, sareng pikeun 9 - langkung ti 500 jam data ucapan. Pikeun 9 basa ogé mungkin pikeun ngahontal pangsa pidato awéwé sahenteuna 45%.

Leuwih ti 81 sarébu urang nyandak bagian dina persiapan bahan dina basa Inggris, dictating 2953 jam pidato (aya 79 sarébu pamilon sarta 2886 jam). Set pikeun basa Belarusian nyertakeun 6326 pamilon sareng 1054 jam bahan pidato (aya 6160 pamilon sareng 987 jam), Rusia - 2585 pamilon sareng 201 jam (aya 2452 pamilon sareng 193 jam), Uzbek - 1503 pamilon sareng 231 jam ( aya 1355 pamilon jeung 227 jam), basa Ukraina - 696 pamilon jeung 79 jam (aya 684 pamilon jeung 76 jam).

Proyék Common Voice boga tujuan pikeun ngatur gawé babarengan pikeun ngumpulkeun database pola sora nu merhatikeun karagaman sora jeung gaya ucapan. Pamaké diondang kana frasa sora anu dipintonkeun dina layar atanapi ngévaluasi kualitas data anu ditambihan ku pangguna sanés. Database akumulasi sareng rékaman tina rupa-rupa ngucapkeun frasa khas ucapan manusa tiasa dianggo tanpa larangan dina sistem pembelajaran mesin sareng dina proyék panalungtikan.

sumber: opennet.ru

Tambahkeun komentar