Nganyari Mozilla Common Voice 9.0

Mozilla wis ngrilis update kanggo kumpulan data Common Voice, sing kalebu conto lafal saka meh 200 wong. Data kasebut diterbitake minangka domain publik (CC0). Set sing diusulake bisa digunakake ing sistem pembelajaran mesin kanggo mbangun model pangenalan wicara lan sintesis.

Dibandhingake karo nganyari sadurunge, volume materi pidato ing koleksi tambah 10% - saka 18.2 nganti 20.2 ewu jam pidato. Jumlah basa sing didhukung wis tambah saka 87 dadi 93. Kanggo 27 basa, luwih saka 100 jam data wicara wis diklumpukake, lan kanggo 9 - luwih saka 500 jam data wicara. Kanggo 9 basa uga bisa entuk panggabungan wicara wanita paling ora 45%.

Luwih saka 81 ewu wong melu nyiapake materi ing basa Inggris, ndhikte 2953 jam pidato (ana 79 ewu peserta lan 2886 jam). Set kanggo basa Belarusia kalebu 6326 peserta lan 1054 jam materi pidato (ana 6160 peserta lan 987 jam), Rusia - 2585 peserta lan 201 jam (ana 2452 peserta lan 193 jam), Uzbek - 1503 peserta lan 231 jam ( ana 1355 peserta lan 227 jam), basa Ukrainia - 696 peserta lan 79 jam (ana 684 peserta lan 76 jam).

Proyek Common Voice nduweni tujuan kanggo ngatur karya bebarengan kanggo nglumpukake basis data pola swara sing nimbang macem-macem swara lan gaya wicara. Pangguna diundang kanggo swara swara sing ditampilake ing layar utawa ngevaluasi kualitas data sing ditambahake dening pangguna liyane. Basis data akumulasi kanthi cathetan macem-macem lafal saka frasa khas ucapan manungsa bisa digunakake tanpa watesan ing sistem pembelajaran mesin lan ing proyek riset.

Source: opennet.ru

Add a comment