NVIDIA ynvestearret $ 1.5 miljoen yn Mozilla Common Voice-projekt

NVIDIA ynvestearret $ 1.5 miljoen yn it Mozilla Common Voice-projekt. Belang yn spraakherkenningssystemen komt út 'e foarsizzing dat stimtechnology yn' e kommende tsien jier ien fan 'e wichtichste manieren wurde sil wêrop minsken ynteraksje mei apparaten fariearjend fan kompjûters en tillefoans oant digitale assistinten en kiosken.

De prestaasjes fan stimsystemen binne heul ôfhinklik fan it folume en ferskaat oan stimgegevens dy't beskikber binne foar training fan masine-learmodellen. De hjoeddeiske stimtechnology rjochtet him primêr op Ingelske taalherkenning en beslacht net it grutte oanbod fan talen, aksinten en spraakpatroanen. De ynvestearring sil helpe om de groei fan iepenbiere stimgegevens te fersnellen, mear mienskippen en frijwilligers yn te nimmen, en it oantal fulltime projektpersoniel útwreidzje.

Lit ús jo herinnerje dat it Common Voice-projekt rjochte is op it organisearjen fan mienskiplik wurk om in databank fan stimpatroanen te sammeljen dy't rekken hâldt mei it ferskaat oan stimmen en spraakstilen. Brûkers wurde útnoege foar stimfrases werjûn op it skerm of evaluearje de kwaliteit fan gegevens tafoege troch oare brûkers. De opboude databank mei records fan ferskate útspraken fan typyske sinnen fan minsklike spraak kin brûkt wurde sûnder beheiningen yn masine-learsystemen en yn ûndersyksprojekten.

De Common Voice-set omfettet op it stuit útspraakfoarbylden fan mear dan 164 minsken. Sawat 9 tûzen oeren stimgegevens binne sammele yn 60 ferskillende talen. De set foar de Russyske taal beslacht 1412 dielnimmers en 111 oeren spraakmateriaal, en foar de Oekraynske taal - 459 dielnimmers en 30 oeren. Foar fergeliking, mear as 66 tûzen minsken namen diel oan de tarieding fan materialen yn it Ingelsk, dictating 1686 oeren fan ferifiearre spraak. De foarstelde sets kinne brûkt wurde yn masine-learsystemen om modellen foar spraakherkenning en synteze te bouwen. De gegevens wurde publisearre as iepenbier domein (CC0).

Neffens de skriuwer fan 'e Vosk-bibleteek foar trochgeande spraakherkenning binne de neidielen fan' e Common Voice-set de iensidichens fan it stimmateriaal (it oerwicht fan manlike minsken 20-30 jier âld, en it gebrek oan materiaal mei de stimmen fan froulju , bern en âlderein), it gebrek oan fariabiliteit yn it wurdboek (herhelling fan deselde sinnen) en it fersprieden fan opnames yn it ferfoarmjende MP3-formaat.

Boarne: opennet.ru

Add a comment