NVIDIA investerer 1.5 millioner dollars i Mozilla Common Voice-projektet

NVIDIA investerer 1.5 millioner dollars i Mozilla Common Voice-projektet. Interessen for talegenkendelsessystemer stammer fra forudsigelsen om, at stemmeteknologi i løbet af de næste ti år vil blive en af ​​de vigtigste måder, folk interagerer med enheder lige fra computere og telefoner til digitale assistenter og kiosker.

Ydeevnen af ​​stemmesystemer er meget afhængig af mængden og variationen af ​​stemmedata, der er tilgængelige til træning af maskinlæringsmodeller. Dagens stemmeteknologi fokuserer primært på engelsk sproggenkendelse og dækker ikke det store udvalg af sprog, accenter og talemønstre. Investeringen vil hjælpe med at accelerere væksten af ​​offentlige stemmedata, engagere flere lokalsamfund og frivillige og udvide antallet af fuldtidsprojektmedarbejdere.

Lad os minde dig om, at Common Voice-projektet har til formål at organisere fælles arbejde for at opbygge en database over stemmemønstre, der tager højde for mangfoldigheden af ​​stemmer og talestile. Brugere inviteres til at stemme sætninger vist på skærmen eller evaluere kvaliteten af ​​data tilføjet af andre brugere. Den akkumulerede database med registreringer af forskellige udtaler af typiske sætninger i menneskelig tale kan bruges uden begrænsninger i maskinlæringssystemer og i forskningsprojekter.

Common Voice-sættet indeholder i øjeblikket udtaleeksempler fra over 164 personer. Omkring 9 tusind timers stemmedata er blevet akkumuleret på 60 forskellige sprog. Sættet til det russiske sprog dækker 1412 deltagere og 111 timers talemateriale, og for det ukrainske sprog - 459 deltagere og 30 timer. Til sammenligning deltog mere end 66 tusinde mennesker i udarbejdelsen af ​​materialer på engelsk, hvilket dikterede 1686 timers verificeret tale. De foreslåede sæt kan bruges i maskinlæringssystemer til at bygge talegenkendelse og syntesemodeller. Dataene er publiceret som public domain (CC0).

Ifølge forfatteren af ​​Vosks kontinuerte talegenkendelsesbibliotek er ulemperne ved Common Voice-sættet stemmematerialets ensidighed (overvægten af ​​mandlige mennesker i alderen 20-30 år og manglen på materiale med kvinders stemmer). , børn og ældre), den manglende variabilitet i ordbogen (gentagelse af de samme sætninger) og distributionen af ​​optagelser i det forvrængende MP3-format.

Kilde: opennet.ru

Tilføj en kommentar