Mozilla wis ngrilis update kanggo kumpulan data Common Voice, sing kalebu conto lafal saka kira-kira 200 wong. Data kasebut diterbitake ing domain umum (CC0). Dataset sing diusulake bisa digunakake ing sistem pembelajaran mesin kanggo mbangun model pangenalan wicara lan sintesis.
Dibandhingake karo nganyari sadurunge, volume data wicara ing koleksi wis tambah 10%-saka 18.2 kanggo 20.2 ewu jam wicara. Jumlah basa sing didhukung wis tambah saka 87 dadi 93. Luwih saka 100 jam data wicara wis diklumpukake kanggo 27 basa, lan luwih saka 500 jam data wicara kanggo 9 basa. Kita uga entuk populasi basa wadon paling sethithik 45% kanggo 9 basa.
Luwih saka 81.000 wong melu nyiapake materi basa Inggris, ndhikte 2953 jam pidato (dibandhingake karo 79.000 peserta lan 2886 jam). Set basa Belarusia kalebu 6326 peserta lan 1054 jam materi pidato (dibandhingake karo 6160 peserta lan 987 jam), Rusia-2585 peserta lan 201 jam (dibandhingake karo 2452 peserta lan 193 jam), Uzbek-1503 peserta lan 231 jam lan 231 jam peserta (dibandhingake karo 2.452 peserta lan 193 jam). Ukrainia-696 peserta lan 79 jam (dibandhingake karo 684 peserta lan 76 jam).
Proyek Common Voice nduweni tujuan kanggo ngatur karya bebarengan kanggo nglumpukake basis data pola swara sing nimbang macem-macem swara lan gaya wicara. Pangguna diundang kanggo swara swara sing ditampilake ing layar utawa ngevaluasi kualitas data sing ditambahake dening pangguna liyane. Basis data akumulasi kanthi cathetan macem-macem lafal saka frasa khas ucapan manungsa bisa digunakake tanpa watesan ing sistem pembelajaran mesin lan ing proyek riset.
Source: opennet.ru
