Mozilla Common Voice 7.0 eguneratzea

NVIDIAk eta Mozillak beren Common Voice datu-multzoen eguneraketa bat kaleratu dute, 182 pertsonen hizkeraren laginak barne, duela 25 hilabete baino %6 gehiago. Datuak domeinu publiko gisa argitaratzen dira (CC0). Proposatutako multzoak ikaskuntza automatikoko sistemetan erabil daitezke ahotsa ezagutzeko eta sintesi ereduak eraikitzeko.

Aurreko eguneraketarekin alderatuta, bildumako hizkera-materialaren tamaina 9 mila ordutik 13.9 mila ordura igo da. Onartutako hizkuntzen kopurua 60tik 76ra igo da, bielorrusiera, kazakhera, uzbekera, bulgariera, armeniarra, azerbaigiana eta bashkir hizkuntzen laguntza barne. Errusiar hizkuntzarako multzoak 2136 parte-hartzaile eta 173 orduko hitzaldi-materiala hartzen ditu (1412 parte-hartzaile eta 111 ordu izan ziren), eta ukrainar hizkuntzarako - 615 parte-hartzaile eta 66 ordu (459 parte-hartzaile eta 30 ordu izan ziren).

75 mila pertsona baino gehiagok parte hartu zuten ingelesezko materialak prestatzen, 2637 orduko berbaldi baieztatuz (66 mila parte-hartzaile izan ziren eta 1686 ordu). Interesgarria da, metatutako datu kopuruari dagokionez bigarren tokian dagoen hizkuntza Ruanda da, eta horretarako 2260 ordu bildu dira. Ondoren, alemana (1040), katalana (920) eta esperantoa (840). Ahots-datuen tamaina dinamikoen handitzen ari direnen artean, Thailandiako hizkuntza (oinarria 20 aldiz handitu da, 12 ordutik 250 ordura), Luganda (8tik 80 ordura), esperantoa (100etik 840 ordura) eta Tamila ( 24tik 220 ordura).ordu).

Common Voice proiektuan parte hartzearen baitan, NVIDIAk prest egindako trebatutako ereduak prestatu zituen ikasketa automatikoko sistemetarako (PyTorch-ek onartzen dituena) bildutako datuetan oinarrituta. Ereduak NVIDIA NeMo tresna doako eta irekiaren parte gisa banatzen dira, adibidez, MTS eta Sberbank-en ahots-zerbitzu automatizatuetan dagoeneko erabiltzen dena. Ereduak hizketa-ezagutze, hizketa-sintesi eta hizkuntza naturalaren prozesatzeko sistemetan erabiltzeko pentsatuta daude, eta baliagarriak izan daitezke ahotsarekin aktibatutako elkarrizketa-sistemak, transkripzio-plataformak eta dei-zentro automatizatuak eraikitzen dituzten ikertzaileentzat. Aurretik eskuragarri zeuden proiektuetan ez bezala, argitaratutako ereduak ez dira ingeles hizkuntzaren aitorpenera mugatzen eta hainbat hizkuntza, azentu eta hizkera forma hartzen dituzte.

Gogora dezagun Common Voice egitasmoa lan bateratua antolatzera zuzenduta dagoela ahotsen eta hizketa-estiloen aniztasuna kontuan hartzen dituen ahots-ereduen datu-base bat pilatzeko. Erabiltzaileak pantailan bistaratzen diren ahots-esaldietara edo beste erabiltzaileek gehitutako datuen kalitatea ebaluatzera gonbidatzen dituzte. Giza hizkeraren ohiko esaldien hainbat ahoskeraren erregistroak dituen datu-base metatua mugarik gabe erabil daiteke ikaskuntza automatikoko sistemetan eta ikerketa proiektuetan.

Vosk etengabeko hizkera aitortzeko liburutegiaren egilearen arabera, Common Voice multzoaren desabantailak ahots-materialaren alde bakarrekoak dira (20-30 urteko gizonezkoen nagusitasuna eta emakumeen ahotsa duten material falta). , umeak eta adinekoak), hiztegiaren aldakortasun eza (esaldi berdinen errepikapena) eta grabazioak MP3 formatu distortsionagarrian banatzea.

Iturria: opennet.ru

Gehitu iruzkin berria