Mozilla Common Voice 9.0 eguneratzea

Mozillak bere Common Voice datu-multzoen eguneraketa bat kaleratu du, eta ia 200 pertsonaren ahoskera laginak biltzen ditu. Datuak domeinu publiko gisa argitaratzen dira (CC0). Proposatutako multzoak ikaskuntza automatikoko sistemetan erabil daitezke ahotsa ezagutzeko eta sintesi ereduak eraikitzeko.

Aurreko eguneraketarekin alderatuta, bildumako hizkera-materialaren bolumena % 10 handitu da - 18.2 izatetik 20.2 mila orduko hizkera. Onartutako hizkuntzen kopurua 87tik 93ra igo da. 27 hizkuntzetarako, 100 ordu baino gehiago hizketa-datuak metatu dira, eta 9 - 500 ordu baino gehiago hizketa-datuak. 9 hizkuntzetarako ere posible zen emakumezkoen hizkeraren kuota gutxienez % 45ekoa lortzea.

81 mila pertsona baino gehiagok parte hartu zuten ingelesezko materialak prestatzen, 2953 orduko hitzaldia emanez (79 mila parte-hartzaile izan ziren eta 2886 ordu). Bielorrusiako hizkuntzarako multzoak 6326 parte-hartzaile eta 1054 orduko hizketa-materiala hartzen ditu (6160 parte-hartzaile eta 987 ordu izan ziren), errusiera - 2585 parte-hartzaile eta 201 ordu (2452 parte-hartzaile izan ziren eta 193 ordu), uzbekera - 1503 parte-hartzaile eta 231 ordu ( 1355 parte-hartzaile izan ziren eta 227 ordu), ukrainar hizkuntza - 696 parte-hartzaile eta 79 ordu (684 parte-hartzaile izan ziren eta 76 ordu).

Common Voice proiektuak lan bateratua antolatzea du helburu, ahotsen eta hizketa-estiloen aniztasuna kontuan hartzen dituen ahots-ereduen datu-base bat pilatzeko. Erabiltzaileak pantailan bistaratzen diren ahots-esaldietara edo beste erabiltzaileek gehitutako datuen kalitatea ebaluatzera gonbidatzen dituzte. Giza hizkeraren ohiko esaldien hainbat ahoskeraren erregistroak dituen datu-base metatua mugarik gabe erabil daiteke ikaskuntza automatikoko sistemetan eta ikerketa proiektuetan.

Iturria: opennet.ru

Gehitu iruzkin berria