Mozilla Common Voice 9.0 Röstuppdatering

Mozilla har släppt en uppdatering av sina Common Voice-datauppsättningar, som inkluderar uttalsprov från nästan 200 0 personer. Uppgifterna publiceras som allmän egendom (CCXNUMX). De föreslagna uppsättningarna kan användas i maskininlärningssystem för att bygga taligenkännings- och syntesmodeller.

Jämfört med den tidigare uppdateringen ökade volymen talmaterial i samlingen med 10% - från 18.2 till 20.2 tusen timmars tal. Antalet språk som stöds har ökat från 87 till 93. För 27 språk har mer än 100 timmars taldata ackumulerats, och för 9 - mer än 500 timmars taldata. För 9 språk var det också möjligt att uppnå en andel kvinnligt tal på minst 45 %.

Mer än 81 tusen personer deltog i förberedelserna av material på engelska, vilket dikterade 2953 timmars tal (det var 79 tusen deltagare och 2886 timmar). Uppsättningen för det vitryska språket omfattar 6326 deltagare och 1054 timmars talmaterial (det var 6160 deltagare och 987 timmar), ryska - 2585 deltagare och 201 timmar (det var 2452 deltagare och 193 timmar), uzbekiska - 1503 deltagare och 231 timmar ( det var 1355 deltagare och 227 timmar), ukrainska språket - 696 deltagare och 79 timmar (det var 684 deltagare och 76 timmar).

Projektet Common Voice syftar till att organisera ett gemensamt arbete för att ackumulera en databas med röstmönster som tar hänsyn till mångfalden av röster och talstilar. Användare uppmanas att röstfraser som visas på skärmen eller utvärdera kvaliteten på data som lagts till av andra användare. Den ackumulerade databasen med register över olika uttal av typiska fraser av mänskligt tal kan användas utan begränsningar i maskininlärningssystem och i forskningsprojekt.

Källa: opennet.ru

Lägg en kommentar