Mozilla Common Voice 19.0 Voice Update

A Mozilla frissítette Common Voice adatkészleteit, hogy több mint 200 0 ember kiejtési mintáit tartalmazza. Az adatokat közkincsként (CC31.8) teszik közzé. A javasolt készletek gépi tanulási rendszerekben használhatók beszédfelismerési és szintézis modellek felépítésére. Az előző frissítéshez képest a gyűjteményben lévő beszédanyag mennyisége 32.6-ról 20 ezer beszédórára nőtt, amelyből több mint 129 ezer óra ment át az ellenőrzési eljáráson. A támogatott nyelvek száma 131-ről XNUMX-re nőtt.

Az angol nyelvű anyagok elkészítésében 93.9 ezren vettek részt, 3587 óra beszédet diktálva (93.3 ezer résztvevő és 3554 óra volt). A fehérorosz nyelvű készlet 8444 résztvevőt és 1846 órányi beszédanyagot takar (8400 résztvevő volt és 1815 óra), az orosz - 3296 résztvevő és 278 óra (3241 résztvevő és 277 óra), az üzbég - 2200 résztvevő és 265 óra ( 2189 résztvevő volt és 265 óra), ukrán nyelv - 1104 résztvevő és 114 óra (1091 résztvevő és 113 óra).

A Common Voice projekt célja közös munka megszervezése a hangminták adatbázisának felhalmozására, amely figyelembe veszi a hangok és beszédstílusok sokféleségét. A felhasználók felkérést kapnak a képernyőn megjelenő kifejezések hangzására vagy a más felhasználók által hozzáadott adatok minőségének értékelésére. Az emberi beszéd tipikus kifejezéseinek különféle kiejtését tartalmazó felhalmozott adatbázis korlátozások nélkül használható gépi tanulási rendszerekben és kutatási projektekben.

Forrás: opennet.ru

Hozzászólás