Mozilla Common Voice 9.0-opdatering

Mozilla het 'n opdatering van sy Common Voice-datastelle vrygestel, wat uitspraakmonsters van byna 200 0 mense insluit. Die data word as publieke domein (CCXNUMX) gepubliseer. Die voorgestelde stelle kan in masjienleerstelsels gebruik word om spraakherkenning en sintesemodelle te bou.

In vergelyking met die vorige opdatering, het die volume spraakmateriaal in die versameling met 10% toegeneem - van 18.2 tot 20.2 duisend ure se spraak. Die aantal ondersteunde tale het toegeneem van 87 tot 93. Vir 27 tale is meer as 100 uur se spraakdata opgehoop, en vir 9 - meer as 500 uur se spraakdata. Vir 9 tale was dit ook moontlik om 'n aandeel van vroulike spraak van minstens 45% te behaal.

Meer as 81 duisend mense het deelgeneem aan die voorbereiding van materiaal in Engels, wat 2953 ure se toespraak dikteer (daar was 79 duisend deelnemers en 2886 ure). Die stel vir die Wit-Russiese taal dek 6326 deelnemers en 1054 uur se toespraakmateriaal (daar was 6160 deelnemers en 987 uur), Russies - 2585 deelnemers en 201 uur (daar was 2452 deelnemers en 193 uur), Oezbeeks - 1503 deelnemers en 231 uur ( daar was 1355 deelnemers en 227 uur), OekraΓ―ens taal - 696 deelnemers en 79 uur (daar was 684 deelnemers en 76 uur).

Die Common Voice-projek het ten doel om gesamentlike werk te organiseer om 'n databasis van stempatrone te versamel wat die diversiteit van stemme en spraakstyle in ag neem. Gebruikers word uitgenooi om frases te stem wat op die skerm vertoon word of om die kwaliteit van data wat deur ander gebruikers bygevoeg is, te evalueer. Die opgehoopte databasis met rekords van verskeie uitsprake van tipiese frases van menslike spraak kan sonder beperkings in masjienleerstelsels en in navorsingsprojekte gebruik word.

Bron: opennet.ru

Voeg 'n opmerking