Mozilla Common Voice 12.0 eguneratzea

Mozillak bere Common Voice datu-multzoak eguneratu ditu 200 pertsona baino gehiagoren ahoskera-laginak sartzeko. Datuak domeinu publiko gisa argitaratzen dira (CC0). Proposatutako multzoak ikaskuntza automatikoko sistemetan erabil daitezke ahotsa ezagutzeko eta sintesi ereduak eraikitzeko.

Aurreko eguneraketarekin alderatuta, bildumako hizkera-materialaren bolumena 23.8 mila hizkera-ordutik 25.8ra igo da. 88 mila pertsona baino gehiagok hartu dute parte ingelesezko materialak prestatzen, 3161 orduko hitzaldia emanez (84 mila parte-hartzaile izan ziren eta 3098 ordu). Bielorrusiako hizkuntzarako multzoak 7903 parte-hartzaile eta 1419 orduko hizketa-materiala (6965 parte-hartzaile eta 1217 ordu izan ziren), errusiera - 2815 parte-hartzaile eta 229 ordu (2731 parte-hartzaile eta 215 ordu izan ziren), uzbekera - 2092 parte-hartzaile eta 262 ordu ( 2025 parte-hartzaile eta 258 ordu izan ziren), ukrainar hizkuntza - 780 parte-hartzaile eta 87 ordu (759 parte-hartzaile eta 87 ordu izan ziren).

Common Voice proiektuak lan bateratua antolatzea du helburu, ahotsen eta hizketa-estiloen aniztasuna kontuan hartzen dituen ahots-ereduen datu-base bat pilatzeko. Erabiltzaileak pantailan bistaratzen diren ahots-esaldietara edo beste erabiltzaileek gehitutako datuen kalitatea ebaluatzera gonbidatzen dituzte. Giza hizkeraren ohiko esaldien hainbat ahoskeraren erregistroak dituen datu-base metatua mugarik gabe erabil daiteke ikaskuntza automatikoko sistemetan eta ikerketa proiektuetan.

Iturria: opennet.ru

Gehitu iruzkin berria