Mozilla Common Voice 7.0 Röstuppdatering

NVIDIA och Mozilla har släppt en uppdatering av sina Common Voice-datauppsättningar, som inkluderar 182 25 personers talprover, en ökning med 6 % från för 0 månader sedan. Uppgifterna publiceras som allmän egendom (CCXNUMX). De föreslagna uppsättningarna kan användas i maskininlärningssystem för att bygga taligenkännings- och syntesmodeller.

Jämfört med den tidigare uppdateringen har storleken på talmaterialet i samlingen ökat från 9 till 13.9 tusen timmar tal. Antalet stödda språk har ökat från 60 till 76, inklusive för första gången stöd för vitryska, kazakiska, uzbekiska, bulgariska, armeniska, azerbajdzjanska och bashkiriska språk. Uppsättningen för det ryska språket omfattar 2136 deltagare och 173 timmars talmaterial (det var 1412 deltagare och 111 timmar), och för det ukrainska språket - 615 deltagare och 66 timmar (det var 459 deltagare och 30 timmar).

Mer än 75 tusen personer deltog i förberedelserna av material på engelska, vilket dikterade 2637 timmars bekräftat tal (det var 66 tusen deltagare och 1686 timmar). Intressant nog är språket på andra plats när det gäller mängden ackumulerad data är Rwanda, för vilket 2260 timmar har samlats in. Detta följs av tyska (1040), katalanska (920) och esperanto (840). Bland de mest dynamiskt ökande röstdata är det thailändska språket (20-faldig ökning av basen, från 12 till 250 timmar), Luganda (från 8 till 80 timmar), esperanto (från 100 till 840 timmar) och tamil ( från 24 till 220 timmar).

Som en del av sitt deltagande i Common Voice-projektet förberedde NVIDIA färdiga utbildade modeller för maskininlärningssystem (stödda av PyTorch) baserade på insamlad data. Modellerna distribueras som en del av den fria och öppna NVIDIA NeMo-verktygssatsen, som till exempel redan används i MTS och Sberbanks automatiserade rösttjänster. Modellerna är avsedda att användas i taligenkänning, talsyntes och naturliga språkbehandlingssystem och kan vara användbara för forskare som bygger röstaktiverade dialogsystem, transkriptionsplattformar och automatiserade callcenter. Till skillnad från tidigare tillgängliga projekt är de publicerade modellerna inte begränsade till engelska språkigenkänning och täcker en mängd olika språk, accenter och former av tal.

Låt oss påminna dig om att Common Voice-projektet syftar till att organisera gemensamt arbete för att samla en databas med röstmönster som tar hänsyn till mångfalden av röster och talstilar. Användare uppmanas att röstfraser som visas på skärmen eller utvärdera kvaliteten på data som lagts till av andra användare. Den ackumulerade databasen med register över olika uttal av typiska fraser av mänskligt tal kan användas utan begränsningar i maskininlärningssystem och i forskningsprojekt.

Enligt författaren till Vosks kontinuerliga taligenkänningsbibliotek är nackdelarna med Common Voice-uppsättningen ensidigheten i röstmaterialet (övervikten av manliga människor 20-30 år gamla och bristen på material med kvinnors röster , barn och äldre), bristen på variation i ordboken (upprepning av samma fraser) och distributionen av inspelningar i det förvrängande MP3-formatet.

Källa: opennet.ru

Lägg en kommentar