Mozilla Common Voice 8.0-opdatering

Mozilla het 'n opdatering van sy Common Voice-datastelle vrygestel, wat uitspraakmonsters van byna 200 0 mense insluit. Die data word as publieke domein (CC30) gepubliseer. Die voorgestelde stelle kan in masjienleerstelsels gebruik word om spraakherkenning en sintesemodelle te bou. In vergelyking met die vorige opdatering, het die volume spraakmateriaal in die versameling met 13.9% toegeneem - van 18.2 tot 67 duisend ure se spraak. Die aantal ondersteunde tale het van 87 tot XNUMX toegeneem.

Die stel vir die Russiese taal dek 2452 deelnemers en 193 uur se spraakmateriaal (daar was 2136 deelnemers en 173 uur), vir die Wit-Russiese taal - 6160 deelnemers en 987 uur (daar was 3831 deelnemers en 356 uur), vir die OekraΓ―ens taal - 684 deelnemers en 76 uur (daar was 615 deelnemers en 66 uur). Meer as 79 duisend mense het deelgeneem aan die voorbereiding van materiaal in Engels, wat 2886 uur se bevestigde toespraak dikteer (daar was 75 duisend deelnemers en 2637 uur).

Kom ons herinner u daaraan dat die Common Voice-projek daarop gemik is om gesamentlike werk te organiseer om 'n databasis van stempatrone op te bou wat die diversiteit van stemme en spraakstyle in ag neem. Gebruikers word uitgenooi om frases te stem wat op die skerm vertoon word of om die kwaliteit van data wat deur ander gebruikers bygevoeg is, te evalueer. Die opgehoopte databasis met rekords van verskeie uitsprake van tipiese frases van menslike spraak kan sonder beperkings in masjienleerstelsels en in navorsingsprojekte gebruik word. Volgens die skrywer van die Vosk deurlopende spraakherkenningsbiblioteek is die nadele van die Common Voice-stel die eensydigheid van die stemmateriaal (die oorheersing van manlike mense 20-30 jaar oud, en die gebrek aan materiaal met die stemme van vroue , kinders en bejaardes), die gebrek aan wisselvalligheid in die woordeboek (herhaling van dieselfde frases) en die verspreiding van opnames in die verdraaiende MP3-formaat.

Daarbenewens kan ons kennis neem van die vrystelling van die NVIDIA NeMo 1.6-gereedskapstel, wat masjienleermetodes bied vir die skep van spraakherkenningstelsels, spraaksintese en natuurlike taalverwerking. NeMo bevat gereed-vir-gebruik opgeleide modelle vir masjienleerstelsels gebaseer op die PyTorch-raamwerk, voorberei deur NVIDIA deur gebruik te maak van Common Voice-spraakdata en wat 'n verskeidenheid tale, aksente en vorme van spraak dek. Die modelle kan nuttig wees vir navorsers wat stemgebaseerde dialoogstelsels, transkripsieplatforms en outomatiese oproepsentrums ontwikkel. Byvoorbeeld, NVIDIA NeMo word gebruik in outomatiese stemdienste van MTS en Sberbank. Die NeMo-kode word in Python geskryf met PyTorch en versprei onder die Apache 2.0-lisensie.

Bron: opennet.ru

Voeg 'n opmerking