NVIDIA investerar 1.5 miljoner dollar i Mozilla Common Voice-projektet

NVIDIA investerar 1.5 miljoner dollar i Mozilla Common Voice-projektet. Intresset för taligenkänningssystem härrör från förutsägelsen att rösttekniken under de kommande tio åren kommer att bli ett av de viktigaste sätten för människor att interagera med enheter, allt från datorer och telefoner till digitala assistenter och kiosker.

Prestandan hos röstsystem är starkt beroende av volymen och variationen av röstdata som är tillgängliga för träning av maskininlärningsmodeller. Dagens röstteknologi fokuserar främst på engelska språkigenkänning och täcker inte det stora utbudet av språk, accenter och talmönster. Investeringen kommer att hjälpa till att påskynda tillväxten av offentlig röstdata, engagera fler samhällen och volontärer och utöka antalet heltidsanställda projektpersonal.

Låt oss påminna dig om att Common Voice-projektet syftar till att organisera gemensamt arbete för att samla en databas med röstmönster som tar hänsyn till mångfalden av röster och talstilar. Användare uppmanas att röstfraser som visas på skärmen eller utvärdera kvaliteten på data som lagts till av andra användare. Den ackumulerade databasen med register över olika uttal av typiska fraser av mänskligt tal kan användas utan begränsningar i maskininlärningssystem och i forskningsprojekt.

Uppsättningen Common Voice innehåller för närvarande uttalsexempel från över 164 9 personer. Cirka 60 tusen timmar röstdata har samlats på 1412 olika språk. Uppsättningen för det ryska språket omfattar 111 deltagare och 459 timmars talmaterial, och för det ukrainska språket - 30 deltagare och 66 timmar. Som jämförelse deltog mer än 1686 tusen människor i beredningen av material på engelska, vilket dikterade 0 timmars verifierat tal. De föreslagna uppsättningarna kan användas i maskininlärningssystem för att bygga taligenkännings- och syntesmodeller. Uppgifterna publiceras som allmän egendom (CCXNUMX).

Enligt författaren till Vosks kontinuerliga taligenkänningsbibliotek är nackdelarna med Common Voice-uppsättningen ensidigheten i röstmaterialet (övervikten av manliga människor 20-30 år gamla och bristen på material med kvinnors röster , barn och äldre), bristen på variation i ordboken (upprepning av samma fraser) och distributionen av inspelningar i det förvrängande MP3-formatet.

Källa: opennet.ru

Lägg en kommentar