Mozilla Common Voice 7.0 Voice Update

NVIDIA en Mozilla hawwe in update frijlitten oan har Common Voice datasets, dy't spraakmonsters fan 182 minsken omfetsje, 25% omheech fan 6 moannen lyn. De gegevens wurde publisearre as iepenbier domein (CC0). De foarstelde sets kinne brûkt wurde yn masine-learsystemen om modellen foar spraakherkenning en synteze te bouwen.

Yn ferliking mei de foarige fernijing is de grutte fan it spraakmateriaal yn 'e kolleksje ferhege fan 9 nei 13.9 tûzen oeren spraak. It oantal stipe talen is tanommen fan 60 nei 76, ynklusyf foar it earst stipe foar Wyt-Russysk, Kazachsk, Oezbeksk, Bulgaarsk, Armeensk, Azerbeidzjaansk en Bashkir-talen. De set foar de Russyske taal beslacht 2136 dielnimmers en 173 oeren spraakmateriaal (d'r wiene 1412 dielnimmers en 111 oeren), en foar de Oekraynske taal - 615 dielnimmers en 66 oeren (d'r wiene 459 dielnimmers en 30 oeren).

Mear as 75 tûzen minsken namen diel oan de tarieding fan materialen yn it Ingelsk, diktearre 2637 oeren fan befêstige spraak (d'r wiene 66 tûzen dielnimmers en 1686 oeren). Nijsgjirrich is dat de taal op it twadde plak yn termen fan it bedrach fan sammele gegevens is Rwanda, dêr't 2260 oeren binne sammele. Dêrnei folgen it Dútsk (1040), Katalaansk (920) en Esperanto (840). Under de meast dynamysk fergrutsjen fan de grutte fan stimgegevens binne de Taiske taal (20-fâldige ferheging fan 'e basis, fan 12 nei 250 oeren), Luganda (fan 8 nei 80 oeren), Esperanto (fan 100 nei 840 oeren) en Tamil ( fan 24 oant 220 oeren).

As ûnderdiel fan har dielname oan it Common Voice-projekt, hat NVIDIA klearmakke oplaat modellen foar masine-learsystemen taret (stipe troch PyTorch) basearre op de sammele gegevens. De modellen wurde ferspraat as ûnderdiel fan 'e fergese en iepen NVIDIA NeMo toolkit, dy't bygelyks al brûkt wurdt yn' e automatisearre stimtsjinsten fan MTS en Sberbank. De modellen binne bedoeld foar gebrûk yn spraakherkenning, spraaksynteze en natuerlike taalferwurkingssystemen, en kinne nuttich wêze foar ûndersikers dy't stim-aktivearre dialoochsystemen, transkripsjeplatfoarms en automatisearre opropsintra bouwe. Oars as earder beskikbere projekten, binne de publisearre modellen net beheind ta Ingelske taalerkenning en dekke in ferskaat oan talen, aksinten en foarmen fan spraak.

Lit ús jo herinnerje dat it Common Voice-projekt rjochte is op it organisearjen fan mienskiplik wurk om in databank fan stimpatroanen te sammeljen dy't rekken hâldt mei it ferskaat oan stimmen en spraakstilen. Brûkers wurde útnoege foar stimfrases werjûn op it skerm of evaluearje de kwaliteit fan gegevens tafoege troch oare brûkers. De opboude databank mei records fan ferskate útspraken fan typyske sinnen fan minsklike spraak kin brûkt wurde sûnder beheiningen yn masine-learsystemen en yn ûndersyksprojekten.

Neffens de skriuwer fan 'e Vosk-bibleteek foar trochgeande spraakherkenning binne de neidielen fan' e Common Voice-set de iensidichens fan it stimmateriaal (it oerwicht fan manlike minsken 20-30 jier âld, en it gebrek oan materiaal mei de stimmen fan froulju , bern en âlderein), it gebrek oan fariabiliteit yn it wurdboek (herhelling fan deselde sinnen) en it fersprieden fan opnames yn it ferfoarmjende MP3-formaat.

Boarne: opennet.ru

Add a comment