Mozilla Common Voice 12.0 Stemmeopdatering

Mozilla har opdateret sine Common Voice-datasæt til at inkludere udtaleprøver fra over 200 personer. Dataene er publiceret som public domain (CC0). De foreslåede sæt kan bruges i maskinlæringssystemer til at bygge talegenkendelse og syntesemodeller.

Sammenlignet med den tidligere opdatering steg mængden af ​​talemateriale i samlingen fra 23.8 til 25.8 tusinde timers tale. Mere end 88 tusinde mennesker deltog i udarbejdelsen af ​​materialer på engelsk, hvilket dikterede 3161 timers tale (der var 84 tusinde deltagere og 3098 timer). Sættet til det hviderussiske sprog dækker 7903 deltagere og 1419 timers talemateriale (der var 6965 deltagere og 1217 timer), russisk - 2815 deltagere og 229 timer (der var 2731 deltagere og 215 timer), usbekisk - 2092 deltagere og 262 timer ( der var 2025 deltagere og 258 timer), ukrainsk sprog - 780 deltagere og 87 timer (der var 759 deltagere og 87 timer).

Common Voice-projektet har til formål at organisere fælles arbejde for at akkumulere en database over stemmemønstre, der tager højde for mangfoldigheden af ​​stemmer og talestile. Brugere inviteres til at stemme sætninger vist på skærmen eller evaluere kvaliteten af ​​data tilføjet af andre brugere. Den akkumulerede database med registreringer af forskellige udtaler af typiske sætninger af menneskelig tale kan bruges uden begrænsninger i maskinlæringssystemer og i forskningsprojekter.

Kilde: opennet.ru

Tilføj en kommentar