Mozilla Common Voice 12.0 Röstuppdatering

Mozilla har uppdaterat sina Common Voice-datauppsättningar för att inkludera uttalsprov från över 200 0 personer. Uppgifterna publiceras som allmän egendom (CCXNUMX). De föreslagna uppsättningarna kan användas i maskininlärningssystem för att bygga taligenkännings- och syntesmodeller.

Jämfört med den tidigare uppdateringen ökade volymen talmaterial i samlingen från 23.8 till 25.8 tusen timmar tal. Mer än 88 tusen personer deltog i förberedelserna av material på engelska, vilket dikterade 3161 timmars tal (det var 84 tusen deltagare och 3098 timmar). Uppsättningen för det vitryska språket omfattar 7903 deltagare och 1419 timmars talmaterial (det var 6965 deltagare och 1217 timmar), ryska - 2815 deltagare och 229 timmar (det var 2731 deltagare och 215 timmar), uzbekiska - 2092 deltagare och 262 timmar ( det var 2025 deltagare och 258 timmar), ukrainska språket - 780 deltagare och 87 timmar (det var 759 deltagare och 87 timmar).

Projektet Common Voice syftar till att organisera ett gemensamt arbete för att ackumulera en databas med röstmönster som tar hänsyn till mångfalden av röster och talstilar. Användare uppmanas att röstfraser som visas på skärmen eller utvärdera kvaliteten på data som lagts till av andra användare. Den ackumulerade databasen med register över olika uttal av typiska fraser av mänskligt tal kan användas utan begränsningar i maskininlärningssystem och i forskningsprojekt.

Källa: opennet.ru

Lägg en kommentar