Mozilla Common Voice 7.0-opdatering

NVIDIA en Mozilla het 'n opdatering van hul Common Voice-datastelle vrygestel, wat 182 25 mense se spraakmonsters insluit, 6% meer as 0 maande gelede. Die data word as publieke domein (CCXNUMX) gepubliseer. Die voorgestelde stelle kan in masjienleerstelsels gebruik word om spraakherkenning en sintesemodelle te bou.

In vergelyking met die vorige opdatering, het die grootte van die toespraakmateriaal in die versameling van 9 tot 13.9 duisend uur se toespraak toegeneem. Die aantal ondersteunde tale het van 60 tot 76 toegeneem, insluitend vir die eerste keer ondersteuning vir Wit-Russies, Kazaks, Oezbeeks, Bulgaars, Armeens, Azerbeidjans en Basjkir-tale. Die stel vir die Russiese taal dek 2136 deelnemers en 173 uur se spraakmateriaal (daar was 1412 deelnemers en 111 uur), en vir die Oekraïens - 615 deelnemers en 66 uur (daar was 459 deelnemers en 30 uur).

Meer as 75 duisend mense het deelgeneem aan die voorbereiding van materiaal in Engels, wat 2637 66 uur se bevestigde toespraak dikteer (daar was 1686 duisend deelnemers en 2260 1040 ure). Interessant genoeg is die taal in die tweede plek wat die hoeveelheid opgehoopte data betref, Rwanda, waarvoor 920 ure ingesamel is. Dit word gevolg deur Duits (840), Katalaans (20) en Esperanto (12). Van die mees dinamies toenemende die grootte van stemdata is die Thaise taal (250-voudige toename in die basis, van 8 tot 80 uur), Luganda (van 100 tot 840 uur), Esperanto (van 24 tot 220 uur) en Tamil ( van XNUMX tot XNUMX uur).

As deel van sy deelname aan die Common Voice-projek, het NVIDIA gereedgemaakte opgeleide modelle vir masjienleerstelsels (ondersteun deur PyTorch) voorberei op grond van die versamelde data. Die modelle word versprei as deel van die gratis en oop NVIDIA NeMo-gereedskapstel, wat byvoorbeeld reeds in die outomatiese stemdienste van MTS en Sberbank gebruik word. Die modelle is bedoel vir gebruik in spraakherkenning, spraaksintese en natuurlike taalverwerkingstelsels, en kan nuttig wees vir navorsers wat stemgeaktiveerde dialoogstelsels, transkripsieplatforms en outomatiese oproepsentrums bou. Anders as voorheen beskikbare projekte, is die gepubliseerde modelle nie beperk tot Engelse taalherkenning nie en dek 'n verskeidenheid tale, aksente en vorme van spraak.

Laat ons jou daaraan herinner dat die Common Voice-projek daarop gemik is om gesamentlike werk te organiseer om 'n databasis van stempatrone op te bou wat die diversiteit van stemme en spraakstyle in ag neem. Gebruikers word uitgenooi om frases te stem wat op die skerm vertoon word of om die kwaliteit van data wat deur ander gebruikers bygevoeg is, te evalueer. Die opgehoopte databasis met rekords van verskeie uitsprake van tipiese frases van menslike spraak kan sonder beperkings in masjienleerstelsels en in navorsingsprojekte gebruik word.

Volgens die skrywer van die Vosk deurlopende spraakherkenningsbiblioteek is die nadele van die Common Voice-stel die eensydigheid van die stemmateriaal (die oorheersing van manlike mense 20-30 jaar oud, en die gebrek aan materiaal met die stemme van vroue , kinders en bejaardes), die gebrek aan wisselvalligheid in die woordeboek (herhaling van dieselfde frases) en die verspreiding van opnames in die verdraaiende MP3-formaat.

Bron: opennet.ru

Voeg 'n opmerking