Mozilla Common Voice 7.0 Voice Update

Az NVIDIA és a Mozilla frissítést adott ki Common Voice adatkészletéhez, amely 182 25 ember beszédmintáját tartalmazza, ami 6%-kal több, mint 0 hónappal ezelőtt. Az adatokat közkincsként (CCXNUMX) teszik közzé. A javasolt készletek gépi tanulási rendszerekben használhatók beszédfelismerési és szintézis modellek felépítésére.

Az előző frissítéshez képest a gyűjtemény beszédanyagának mérete 9-ről 13.9 ezer beszédórára nőtt. A támogatott nyelvek száma 60-ról 76-ra nőtt, beleértve a fehérorosz, kazah, üzbég, bolgár, örmény, azerbajdzsáni és baskír nyelvek támogatását is. Az orosz nyelv készlete 2136 résztvevőt és 173 óra beszédanyagot takar (1412 résztvevő és 111 óra), az ukrán nyelv esetében pedig 615 résztvevő és 66 óra (459 résztvevő és 30 óra).

Az angol nyelvű anyagok elkészítésében több mint 75 ezren vettek részt, 2637 óra konfirmált beszédet diktálva (66 ezer résztvevő és 1686 óra volt). Érdekes módon a felhalmozott adatok mennyiségét tekintve a második helyen álló nyelv Ruanda, amelyre 2260 órát gyűjtöttek össze. Ezt követi a német (1040), a katalán (920) és az eszperantó (840). A legdinamikusabban növekvő hangadatok közé tartozik a thai nyelv (20-szoros növekedés az alapban, 12-ről 250 órára), a luganda (8-ról 80 órára), az eszperantó (100-ról 840 órára) és a tamil ( 24 és 220 óra között).

A Common Voice projektben való részvétele keretében az NVIDIA az összegyűjtött adatok alapján kész betanított modelleket készített gépi tanulási rendszerek számára (PyTorch támogatásával). A modellek az ingyenes és nyílt NVIDIA NeMo eszközkészlet részeként kerülnek terjesztésre, amelyet például az MTS és a Sberbank automatizált hangszolgáltatásaiban már használnak. A modelleket beszédfelismerő, beszédszintézis és természetes nyelvi feldolgozó rendszerekben való használatra szánják, és hasznosak lehetnek a hangvezérelt párbeszédrendszereket, átírási platformokat és automatizált call centereket építő kutatók számára. A korábban elérhető projektekkel ellentétben a közzétett modellek nem korlátozódnak az angol nyelv felismerésére, és sokféle nyelvet, akcentust és beszédformát fednek le.

Emlékeztetünk arra, hogy a Common Voice projekt célja közös munka megszervezése a hangminták adatbázisának felhalmozására, amely figyelembe veszi a hangok és beszédstílusok sokféleségét. A felhasználók felkérést kapnak a képernyőn megjelenő kifejezések hangzására vagy a más felhasználók által hozzáadott adatok minőségének értékelésére. Az emberi beszéd tipikus kifejezéseinek különféle kiejtését tartalmazó felhalmozott adatbázis korlátozások nélkül használható gépi tanulási rendszerekben és kutatási projektekben.

A Vosk folyamatos beszédfelismerő könyvtár szerzője szerint a Common Voice készlet hátránya a hanganyag egyoldalúsága (a 20-30 éves férfiak túlsúlya, illetve a női hangok hiányossága). , gyerekek és idősek), a szótár variabilitásának hiánya (azonos kifejezések ismétlése) és a felvételek torzító MP3 formátumú terjesztése.

Forrás: opennet.ru

Hozzászólás