Aktualizácia Mozilla Common Voice 12.0

Mozilla aktualizovala svoje súbory údajov Common Voice tak, aby obsahovali ukážky výslovnosti od viac ako 200 0 ľudí. Údaje sú zverejnené ako verejné dielo (CCXNUMX). Navrhované sady môžu byť použité v systémoch strojového učenia na vytváranie modelov rozpoznávania reči a syntézy.

V porovnaní s predchádzajúcou aktualizáciou sa objem rečového materiálu v zbierke zvýšil z 23.8 na 25.8 tisíc hodín reči. Na príprave materiálov v angličtine sa podieľalo viac ako 88-tisíc ľudí, ktorí nadiktovali 3161 hodín prejavu (z toho 84-tisíc účastníkov a 3098 hodín). Súbor pre bieloruský jazyk pokrýva 7903 účastníkov a 1419 hodín rečníckeho materiálu (zúčastnilo sa 6965 účastníkov a 1217 hodín), ruštinu - 2815 účastníkov a 229 hodín (2731 účastníkov a 215 hodín), uzbečtinu - 2092 účastníkov a 262 hodín ( bolo 2025 účastníkov a 258 hodín), ukrajinský jazyk - 780 účastníkov a 87 hodín (bolo 759 účastníkov a 87 hodín).

Cieľom projektu Common Voice je zorganizovať spoločnú prácu s cieľom zhromaždiť databázu hlasových vzorov, ktorá zohľadňuje rôznorodosť hlasov a štýlov reči. Používatelia sú pozývaní na hlasové frázy zobrazené na obrazovke alebo na vyhodnotenie kvality údajov pridaných inými používateľmi. Nahromadená databáza so záznamami rôznych výslovností typických fráz ľudskej reči môže byť bez obmedzení použitá v systémoch strojového učenia a vo výskumných projektoch.

Zdroj: opennet.ru

Pridať komentár