Mozilla Common Voice 8.0 Voice Update

Mozilla hat in update útbrocht oan har Common Voice datasets, dy't útspraakmonsters omfetsje fan hast 200 minsken. De gegevens wurde publisearre as iepenbier domein (CC0). De foarstelde sets kinne brûkt wurde yn masine-learsystemen om modellen foar spraakherkenning en synteze te bouwen. Yn ferliking mei de foarige update is it folume fan spraakmateriaal yn 'e kolleksje mei 30% ferhege - fan 13.9 nei 18.2 tûzen oeren spraak. It oantal stipe talen is tanommen fan 67 nei 87.

De set foar de Russyske taal beslacht 2452 dielnimmers en 193 oeren spraakmateriaal (d'r wiene 2136 dielnimmers en 173 oeren), foar de Wyt-Russyske taal - 6160 dielnimmers en 987 oeren (der wiene 3831 dielnimmers en 356 oeren), foar de Oekraynske taal - 684 dielnimmers en 76 oeren (d'r wiene 615 dielnimmers en 66 oeren). Mear as 79 tûzen minsken namen diel oan 'e tarieding fan materialen yn it Ingelsk, dikteare 2886 oeren fan befêstige spraak (d'r wiene 75 tûzen dielnimmers en 2637 oeren).

Lit ús jo herinnerje dat it Common Voice-projekt rjochte is op it organisearjen fan mienskiplik wurk om in databank fan stimpatroanen te sammeljen dy't rekken hâldt mei it ferskaat oan stimmen en spraakstilen. Brûkers wurde útnoege foar stimfrases werjûn op it skerm of evaluearje de kwaliteit fan gegevens tafoege troch oare brûkers. De opboude databank mei records fan ferskate útspraken fan typyske sinnen fan minsklike spraak kin sûnder beheiningen brûkt wurde yn masine-learsystemen en yn ûndersyksprojekten. Neffens de skriuwer fan 'e Vosk-bibleteek foar trochgeande spraakherkenning binne de neidielen fan' e Common Voice-set de iensidichheid fan it stimmateriaal (de oerwicht fan manlike minsken 20-30 jier âld, en it gebrek oan materiaal mei de stimmen fan froulju , bern en âlderein), it gebrek oan fariabiliteit yn it wurdboek (herhelling fan deselde útdrukkingen) en de fersprieding fan opnames yn it ferfoarmjende MP3-formaat.

Derneist kinne wy ​​​​opmerke dat de frijlitting fan 'e NVIDIA NeMo 1.6 toolkit is, dy't masine learmetoaden leveret foar it meitsjen fan spraakherkenningssystemen, spraaksynteze en natuerlike taalferwurking. NeMo omfettet klear te brûken oplaat modellen foar masine-learsystemen basearre op it PyTorch-ramt, taret troch NVIDIA mei Common Voice-spraakgegevens en beslacht in ferskaat oan talen, aksinten en foarmen fan spraak. De modellen kinne nuttich wêze foar ûndersikers dy't stim-basearre dialoochsystemen, transkripsjeplatfoarms en automatisearre opropsintra ûntwikkelje. Bygelyks, NVIDIA NeMo wurdt brûkt yn automatisearre stim tsjinsten fan MTS en Sberbank. De NeMo-koade is skreaun yn Python mei PyTorch en ferspraat ûnder de Apache 2.0-lisinsje.

Boarne: opennet.ru

Add a comment