Mozilla Common Voice 8.0 eguneratzea

Mozillak bere Common Voice datu-multzoen eguneraketa bat kaleratu du, eta ia 200 pertsonaren ahoskera laginak biltzen ditu. Datuak domeinu publiko gisa argitaratzen dira (CC0). Proposatutako multzoak ikaskuntza automatikoko sistemetan erabil daitezke ahotsa ezagutzeko eta sintesi ereduak eraikitzeko. Aurreko eguneraketarekin alderatuta, bildumako hizkera-materialaren bolumena % 30 handitu da - 13.9tik 18.2 mila orduko hizketara. Onartutako hizkuntzen kopurua 67tik 87ra igo da.

Errusiar hizkuntzarako multzoak 2452 parte-hartzaile eta 193 orduko hizketa-materiala hartzen ditu (2136 parte-hartzaile eta 173 ordu izan ziren), bielorrusierarako - 6160 parte-hartzaile eta 987 ordu (3831 parte-hartzaile eta 356 ordu izan ziren), ukrainar hizkuntzarako - 684 parte hartzaile eta 76 ordu ( 615 parte hartzaile izan ziren eta 66 ordu). 79 mila pertsona baino gehiagok parte hartu zuten ingelesezko materialak prestatzen, 2886 orduko berbaldi baieztatuz (75 mila parte-hartzaile izan ziren eta 2637 ordu).

Gogora dezagun Common Voice egitasmoa lan bateratua antolatzera zuzenduta dagoela ahotsen eta hizketa-estiloen aniztasuna kontuan hartzen dituen ahots-ereduen datu-base bat pilatzeko. Erabiltzaileak pantailan bistaratzen diren ahots-esaldietara gonbidatzen dira edo beste erabiltzaileek gehitutako datuen kalitatea ebaluatzera. Giza hizkeraren ohiko esaldien hainbat ahoskeraren erregistroak dituen datu-base metatua mugarik gabe erabil daiteke ikaskuntza automatikoko sistemetan eta ikerketa proiektuetan. Vosk etengabeko hizkera ezagutzeko liburutegiaren egilearen arabera, Common Voice multzoaren desabantailak ahots-materialaren alde bakarrekoak dira (20-30 urte bitarteko gizonezkoen nagusitasuna eta emakumeen ahotsa duten material falta). , haurrak eta adinekoak), hiztegiaren aldakortasun eza (esaldi berdinen errepikapena) eta grabazioen banaketa MP3 formatu distortsionagarrian.

Gainera, NVIDIA NeMo 1.6 tresna-tresnaren kaleratzea nabarmendu dezakegu, ahotsa ezagutzeko sistemak, hizketa-sintesia eta hizkuntza naturala prozesatzeko makina ikasteko metodoak eskaintzen dituena. NeMo-k PyTorch esparruan oinarritutako ikaskuntza automatikoko sistemetarako prestatutako ereduak biltzen ditu, NVIDIAk Common Voice ahots-datuak erabiliz prestatuak eta hainbat hizkuntza, azentu eta hizkera-forma hartzen dituena. Ereduak baliagarriak izan daitezke ahotsean oinarritutako elkarrizketa-sistemak, transkripzio-plataformak eta dei-zentro automatizatuak garatzen dituzten ikertzaileentzat. Adibidez, NVIDIA NeMo MTS eta Sberbank-en ahots zerbitzu automatizatuetan erabiltzen da. NeMo kodea Python-en idatzita dago PyTorch erabiliz eta Apache 2.0 lizentziapean banatzen da.

Iturria: opennet.ru

Gehitu iruzkin berria