Mozilla Common Voice 8.0 Röstuppdatering

Mozilla har avslöjat en uppdatering av Common Voice-röstdataset, som inkluderar uttalsexempel från cirka 200 0 personer. Data släppt som allmän egendom (CC30). De föreslagna uppsättningarna kan användas i maskininlärningssystem för att bygga taligenkännings- och syntesmodeller. Jämfört med den senaste uppdateringen har volymen talmaterial i samlingen ökat med 13.9% - från 18.2 till 67 tusen timmars tal. Antalet språk som stöds har ökat från 87 till XNUMX.

Uppsättningen för det ryska språket innehåller 2452 deltagare och 193 timmars talmaterial (det var 2136 deltagare och 173 timmar), för det vitryska språket - 6160 deltagare och 987 timmar (det var 3831 deltagare och 356 timmar), för det ukrainska språket - 684 deltagare och 76 timmar (det var 615 deltagare och 66 timmar). Mer än 79 tusen personer deltog i förberedelserna av material på engelska, vilket dikterade 2886 timmars bekräftat tal (det var 75 tusen deltagare och 2637 timmar).

Kom ihåg att Common Voice-projektet syftar till att organisera ett gemensamt arbete för att ackumulera en databas med röstmönster som tar hänsyn till all mångfald av röster och talsätt. Användare uppmanas att tala ut fraser som visas på skärmen eller utvärdera kvaliteten på data som lagts till av andra användare. Den ackumulerade databasen med register över olika uttal av typiska fraser av mänskligt tal utan begränsningar kan användas i maskininlärningssystem och i forskningsprojekt. Enligt författaren till Vosks kontinuerliga taligenkänningsbibliotek är nackdelarna med Common Voice-uppsättningen ensidigheten i röstmaterialet (övervikten av män 20-30 år gamla och bristen på material med kvinnors röst, barn och äldre), bristen på ordförrådsvariabilitet (upprepning av samma fraser) och distribution av inspelningarna i det förvrängda MP3-formatet.

Dessutom kan vi notera lanseringen av NVIDIA NeMo 1.6-verktygssatsen, som tillhandahåller maskininlärningsmetoder för att skapa system för taligenkänning, talsyntes och informationsbehandling i naturligt språk. NeMo inkluderar förbyggda, utbildade PyTorch-baserade maskininlärningsmodeller framtagna av NVIDIA med Common Voice-taldata och täcker olika språk, accenter och talformer. Modellerna kan vara användbara för forskare som bygger röstdialogsystem, transkriptionsplattformar och automatiserade callcenter. Till exempel används NVIDIA NeMo i automatiserade rösttjänster från MTS och Sberbank. NeMo-koden är skriven i Python med PyTorch och distribueras under Apache 2.0-licensen.

Källa: opennet.ru

Lägg en kommentar