🥇Mozilla Common Voice 9.0-opdatering

Mozilla har udgivet en opdatering til sine Common Voice-datasæt, som inkluderer udtaleeksempler fra omkring 200 personer. Dataene er offentliggjort som public domain (CC0). De foreslåede datasæt kan bruges i maskinlæringssystemer til at bygge modeller for talegenkendelse og syntese.

Sammenlignet med den forrige opdatering er mængden af talemateriale i samlingen steget med 10 % - fra 18.2 til 20.2 tusinde timer tale. Antallet af understøttede sprog er steget fra 87 til 93. Der er indsamlet mere end 27 timer taledata for 100 sprog og mere end 9 timer taledata for 500 sprog. For 9 sprog var det også muligt at opnå en andel af kvindelig tale på mindst 45 %.

Mere end 81 tusinde mennesker deltog i udarbejdelsen af materialer på engelsk, hvor 2953 timers tale blev dikteret (der var 79 tusinde deltagere og 2886 timer). Materialet for hviderussisk omfatter 6326 deltagere og 1054 timers talemateriale (der var 6160 deltagere og 987 timer), russisk - 2585 deltagere og 201 timer (der var 2452 deltagere og 193 timer), usbekisk - 1503 deltagere og 231 timer (der var 1355 deltagere og 227 timer), ukrainsk - 696 deltagere og 79 timer (der var 684 deltagere og 76 timer).

Common Voice-projektet har til formål at organisere fælles arbejde for at akkumulere en database over stemmemønstre, der tager højde for mangfoldigheden af stemmer og talestile. Brugere inviteres til at stemme sætninger vist på skærmen eller evaluere kvaliteten af data tilføjet af andre brugere. Den akkumulerede database med registreringer af forskellige udtaler af typiske sætninger af menneskelig tale kan bruges uden begrænsninger i maskinlæringssystemer og i forskningsprojekter.

Kilde: opennet.ru

Mozilla Common Voice 9.0 Stemmeopdatering