Mozilla Common Voice 12.0-opdatering

Mozilla het sy Common Voice-datastelle opgedateer om uitspraakmonsters van meer as 200 0 mense in te sluit. Die data word as publieke domein (CCXNUMX) gepubliseer. Die voorgestelde stelle kan in masjienleerstelsels gebruik word om spraakherkenning en sintesemodelle te bou.

In vergelyking met die vorige opdatering, het die volume spraakmateriaal in die versameling van 23.8 tot 25.8 duisend uur se spraak toegeneem. Meer as 88 duisend mense het deelgeneem aan die voorbereiding van materiaal in Engels, wat 3161 84 ure se toespraak dikteer (daar was 3098 duisend deelnemers en 7903 1419 ure). Die stel vir die Wit-Russiese taal dek 6965 deelnemers en 1217 uur se spraakmateriaal (daar was 2815 deelnemers en 229 uur), Russies - 2731 deelnemers en 215 uur (daar was 2092 deelnemers en 262 uur), Oezbeeks - 2025 deelnemers en 258 uur ( daar was 780 deelnemers en 87 uur), OekraΓ―ens taal - 759 deelnemers en 87 uur (daar was XNUMX deelnemers en XNUMX uur).

Die Common Voice-projek het ten doel om gesamentlike werk te organiseer om 'n databasis van stempatrone te versamel wat die diversiteit van stemme en spraakstyle in ag neem. Gebruikers word uitgenooi om frases te stem wat op die skerm vertoon word of om die kwaliteit van data wat deur ander gebruikers bygevoeg is, te evalueer. Die opgehoopte databasis met rekords van verskeie uitsprake van tipiese frases van menslike spraak kan sonder beperkings in masjienleerstelsels en in navorsingsprojekte gebruik word.

Bron: opennet.ru

Voeg 'n opmerking