NVIDIAk 1.5 milioi dolar inbertitzen ditu Mozilla Common Voice proiektuan

NVIDIA 1.5 milioi dolar inbertitzen ari da Mozilla Common Voice proiektuan. Ahots-ezagutze sistemekiko interesa datozen hamar urteetan, ahots-teknologia ordenagailu eta telefonoetatik hasi eta laguntzaile digitaletara eta kioskoetara bitarteko gailuekin elkarreragiteko modu nagusietako bat bihurtuko den aurreikuspenetik dator.

Ahots sistemen errendimendua ikaskuntza automatikoko ereduak trebatzeko dauden ahots datuen bolumenaren eta barietatearen menpe dago. Gaur egungo ahots-teknologiak ingelesaren ezagutzan oinarritzen da batez ere, eta ez du hizkuntza, azentu eta hizketa-ereduen sorta zabala estaltzen. Inbertsioak ahots publikoko datuen hazkundea bizkortzen lagunduko du, komunitate eta boluntario gehiago parte hartzen du eta lanaldi osoko proiektuko langileen kopurua zabaltzen lagunduko du.

Gogora dezagun Common Voice egitasmoa lan bateratua antolatzera zuzenduta dagoela ahotsen eta hizketa-estiloen aniztasuna kontuan hartzen dituen ahots-ereduen datu-base bat pilatzeko. Erabiltzaileak pantailan bistaratzen diren ahots-esaldietara edo beste erabiltzaileek gehitutako datuen kalitatea ebaluatzera gonbidatzen dituzte. Giza hizkeraren ohiko esaldien hainbat ahoskeraren erregistroak dituen datu-base metatua mugarik gabe erabil daiteke ikaskuntza automatikoko sistemetan eta ikerketa proiektuetan.

Gaur egun, Common Voice multzoak 164 pertsona baino gehiagoren ahoskera-adibideak biltzen ditu. 9 mila ordu inguru ahots-datuak 60 hizkuntza ezberdinetan metatu dira. Errusiar hizkuntzarako multzoak 1412 parte-hartzaile eta 111 orduko hitzaldi-materiala hartzen ditu, eta ukrainar hizkuntzarako - 459 parte-hartzaile eta 30 ordu. Konparazio baterako, 66 mila pertsona baino gehiagok parte hartu zuten ingelesezko materialak prestatzen, 1686 ordu egiaztatutako hizkera aginduz. Proposatutako multzoak ikaskuntza automatikoko sistemetan erabil daitezke hizketa-ezagutze- eta sintesi-ereduak eraikitzeko. Datuak domeinu publiko gisa argitaratzen dira (CC0).

Vosk etengabeko hizkera aitortzeko liburutegiaren egilearen arabera, Common Voice multzoaren desabantailak ahots-materialaren alde bakarrekoak dira (20-30 urteko gizonezkoen nagusitasuna eta emakumeen ahotsa duten material falta). , umeak eta adinekoak), hiztegiaren aldakortasun eza (esaldi berdinen errepikapena) eta grabazioak MP3 formatu distortsionagarrian banatzea.

Iturria: opennet.ru

Gehitu iruzkin berria