NVIDIA investerer 1.5 millioner dollar i Mozilla Common Voice-prosjektet

NVIDIA investerer 1.5 millioner dollar i Mozilla Common Voice-prosjektet. Interessen for talegjenkjenningssystemer stammer fra spådommen om at stemmeteknologi i løpet av de neste ti årene vil bli en av hovedmåtene folk samhandler med enheter som spenner fra datamaskiner og telefoner til digitale assistenter og kiosker.

Ytelsen til talesystemer er svært avhengig av volumet og variasjonen av stemmedata som er tilgjengelig for trening av maskinlæringsmodeller. Dagens stemmeteknologi fokuserer først og fremst på engelsk språkgjenkjenning og dekker ikke det store utvalget av språk, aksenter og talemønstre. Investeringen vil bidra til å akselerere veksten av offentlige stemmedata, engasjere flere lokalsamfunn og frivillige, og utvide antallet heltidsansatte prosjektansatte.

La oss minne om at Common Voice-prosjektet har som mål å organisere felles arbeid for å akkumulere en database med stemmemønstre som tar hensyn til mangfoldet av stemmer og talestiler. Brukere inviteres til å stemme fraser som vises på skjermen eller evaluere kvaliteten på data som er lagt til av andre brukere. Den akkumulerte databasen med registreringer av ulike uttaler av typiske uttrykk for menneskelig tale kan brukes uten begrensninger i maskinlæringssystemer og i forskningsprosjekter.

Common Voice-settet inkluderer for tiden uttaleeksempler fra over 164 9 personer. Rundt 60 tusen timer med taledata har blitt samlet på 1412 forskjellige språk. Settet for det russiske språket dekker 111 deltakere og 459 timer med talemateriale, og for det ukrainske språket - 30 deltakere og 66 timer. Til sammenligning deltok mer enn 1686 tusen mennesker i utarbeidelsen av materiell på engelsk, og dikterte 0 timer med bekreftet tale. De foreslåtte settene kan brukes i maskinlæringssystemer for å bygge talegjenkjennings- og syntesemodeller. Dataene er publisert som offentlig eiendom (CCXNUMX).

I følge forfatteren av Vosks kontinuerlige talegjenkjenningsbibliotek er ulempene med Common Voice-settet ensidigheten til stemmematerialet (overvekten av menn i alderen 20-30 år, og mangelen på materiale med stemmene til kvinner). , barn og eldre), mangelen på variasjon i ordboken (repetisjon av de samme frasene) og distribusjon av opptak i det forvrengende MP3-formatet.

Kilde: opennet.ru

Legg til en kommentar