🥇Mozilla Common Voice 12.0-update

Mozilla heeft zijn Common Voice-datasets bijgewerkt, die uitspraakvoorbeelden van meer dan 200 mensen bevatten. De data is gepubliceerd als publiek domein (CC0). De voorgestelde datasets kunnen worden gebruikt in machine learning-systemen om spraakherkennings- en synthesemodellen te bouwen.

Vergeleken met de vorige update is het volume aan spraakmateriaal in de collectie toegenomen van 23.8 naar 25.8 uur. Meer dan 88 mensen namen deel aan de voorbereiding van het materiaal in het Engels, waarbij ze 3161 uur spraakmateriaal dicteerden (er waren 84 deelnemers en 3098 uur). De set voor het Wit-Russisch bevat 7903 deelnemers en 1419 uur spraakmateriaal (er waren 6965 deelnemers en 1217 uur), Russisch - 2815 deelnemers en 229 uur (er waren 2731 deelnemers en 215 uur), Oezbeeks - 2092 deelnemers en 262 uur (er waren 2025 deelnemers en 258 uur), Oekraïens - 780 deelnemers en 87 uur (er waren 759 deelnemers en 87 uur).

Het Common Voice-project heeft tot doel gezamenlijk werk te organiseren om een database van stempatronen op te bouwen die rekening houdt met de diversiteit van stemmen en spraakstijlen. Gebruikers worden uitgenodigd om zinnen uit te spreken die op het scherm worden weergegeven of om de kwaliteit van de door andere gebruikers toegevoegde gegevens te beoordelen. De verzamelde database met records van verschillende uitspraken van typische menselijke uitdrukkingen kan zonder beperkingen worden gebruikt in machine learning-systemen en in onderzoeksprojecten.

Bron: opennet.ru

Mozilla Common Voice 12.0-update

Yuri Gagarin