Mozilla Common Voice 9.0 Voice Update

A Mozilla kiadott egy frissítést a Common Voice adatkészletéhez, amely közel 200 0 ember kiejtési mintáit tartalmazza. Az adatokat közkincsként (CCXNUMX) teszik közzé. A javasolt készletek gépi tanulási rendszerekben használhatók beszédfelismerési és szintézis modellek felépítésére.

Az előző frissítéshez képest a gyűjteményben található beszédanyag mennyisége 10%-kal nőtt - 18.2-ről 20.2 ezer beszédórára. A támogatott nyelvek száma 87-ről 93-ra nőtt. 27 nyelv esetében több mint 100 órányi beszédadat halmozódott fel, 9 esetében pedig több mint 500 órányi beszédadat. 9 nyelv esetében a női beszéd legalább 45%-os aránya is elérhető volt.

Az angol nyelvű anyagok elkészítésében több mint 81 ezren vettek részt, 2953 óra beszédet diktálva (79 ezer résztvevő és 2886 óra volt). A fehérorosz nyelvű készlet 6326 résztvevőt és 1054 óra beszédanyagot takar (6160 résztvevő volt és 987 óra), az orosz nyelvhez 2585 résztvevő és 201 óra (2452 résztvevő és 193 óra), az üzbég nyelvhez 1503 résztvevő és 231 óra ( 1355 résztvevő volt és 227 óra), ukrán nyelv - 696 résztvevő és 79 óra (684 résztvevő volt és 76 óra).

A Common Voice projekt célja közös munka megszervezése a hangminták adatbázisának felhalmozására, amely figyelembe veszi a hangok és beszédstílusok sokféleségét. A felhasználók felkérést kapnak a képernyőn megjelenő kifejezések hangzására vagy a más felhasználók által hozzáadott adatok minőségének értékelésére. Az emberi beszéd tipikus kifejezéseinek különféle kiejtését tartalmazó felhalmozott adatbázis korlátozások nélkül használható gépi tanulási rendszerekben és kutatási projektekben.

Forrás: opennet.ru

Hozzászólás