Mozilla Common Voice 12.0-update

Mozilla heeft zijn Common Voice-datasets bijgewerkt met uitspraakvoorbeelden van meer dan 200 mensen. De gegevens worden gepubliceerd als publiek domein (CC0). De voorgestelde sets kunnen worden gebruikt in machine learning-systemen om modellen voor spraakherkenning en synthese te bouwen.

Vergeleken met de vorige update is het volume spraakmateriaal in de collectie toegenomen van 23.8 naar 25.8 duizend uur spraak. Meer dan 88 duizend mensen namen deel aan de voorbereiding van materiaal in het Engels, waarbij 3161 uur aan spraak werd gedicteerd (er waren 84 duizend deelnemers en 3098 uur). De set voor de Wit-Russische taal omvat 7903 deelnemers en 1419 uur spraakmateriaal (er waren 6965 deelnemers en 1217 uur), Russisch - 2815 deelnemers en 229 uur (er waren 2731 deelnemers en 215 uur), Oezbeeks - 2092 deelnemers en 262 uur ( er waren 2025 deelnemers en 258 uur), Oekraïense taal - 780 deelnemers en 87 uur (er waren 759 deelnemers en 87 uur).

Het Common Voice-project heeft tot doel gezamenlijk werk te organiseren om een ​​database van stempatronen op te bouwen die rekening houdt met de diversiteit van stemmen en spraakstijlen. Gebruikers worden uitgenodigd om zinnen uit te spreken die op het scherm worden weergegeven of om de kwaliteit van de door andere gebruikers toegevoegde gegevens te beoordelen. De verzamelde database met records van verschillende uitspraken van typische menselijke uitdrukkingen kan zonder beperkingen worden gebruikt in machine learning-systemen en in onderzoeksprojecten.

Bron: opennet.ru

Voeg een reactie