Nganyari Mozilla Common Voice 12.0

Mozilla wis nganyari dataset Common Voice kanggo nyakup conto lafal saka luwih saka 200 wong. Data kasebut diterbitake minangka domain publik (CC0). Set sing diusulake bisa digunakake ing sistem pembelajaran mesin kanggo mbangun model pangenalan wicara lan sintesis.

Dibandhingake karo nganyari sadurunge, volume materi pidato ing koleksi tambah saka 23.8 nganti 25.8 ewu jam pidato. Luwih saka 88 ewu wong melu nyiapake materi ing basa Inggris, ndhikte 3161 jam pidato (ana 84 ewu peserta lan 3098 jam). Set kanggo basa Belarusia kalebu 7903 peserta lan 1419 jam materi pidato (ana 6965 peserta lan 1217 jam), Rusia - 2815 peserta lan 229 jam (ana 2731 peserta lan 215 jam), Uzbek - 2092 peserta lan 262 jam ( ana 2025 peserta lan 258 jam), basa Ukrainia - 780 peserta lan 87 jam (ana 759 peserta lan 87 jam).

Proyek Common Voice nduweni tujuan kanggo ngatur karya bebarengan kanggo nglumpukake basis data pola swara sing nimbang macem-macem swara lan gaya wicara. Pangguna diundang kanggo swara swara sing ditampilake ing layar utawa ngevaluasi kualitas data sing ditambahake dening pangguna liyane. Basis data akumulasi kanthi cathetan macem-macem lafal saka frasa khas ucapan manungsa bisa digunakake tanpa watesan ing sistem pembelajaran mesin lan ing proyek riset.

Source: opennet.ru

Add a comment