Mozilla Common Voice 8.0 Voice Update

A Mozilla kiadott egy frissítést a Common Voice adatkészletéhez, amely közel 200 0 ember kiejtési mintáit tartalmazza. Az adatokat közkincsként (CC30) teszik közzé. A javasolt készletek gépi tanulási rendszerekben használhatók beszédfelismerési és szintézis modellek felépítésére. Az előző frissítéshez képest a gyűjteményben található beszédanyag mennyisége 13.9%-kal nőtt - 18.2-ről 67 ezer beszédórára. A támogatott nyelvek száma 87-ről XNUMX-re nőtt.

Az orosz nyelv készlete 2452 résztvevőt és 193 óra beszédanyagot takar (2136 résztvevő volt és 173 óra), a fehérorosz nyelvre - 6160 résztvevő és 987 óra (3831 résztvevő és 356 óra volt), az ukrán nyelvre - 684 résztvevő és 76 óra (615 résztvevő volt és 66 óra). Az angol nyelvű anyagok elkészítésében több mint 79 ezren vettek részt, 2886 óra konfirmált beszédet diktálva (75 ezer résztvevő és 2637 óra volt).

Emlékeztetünk arra, hogy a Common Voice projekt célja a közös munka megszervezése a hangminták adatbázisának felhalmozására, amely figyelembe veszi a hangok és beszédstílusok sokféleségét. A felhasználók felkérést kapnak a képernyőn megjelenő kifejezések hangzására vagy a más felhasználók által hozzáadott adatok minőségének értékelésére. Az emberi beszéd tipikus kifejezéseinek különféle kiejtését tartalmazó felhalmozott adatbázis korlátozások nélkül használható gépi tanulási rendszerekben és kutatási projektekben. A Vosk folyamatos beszédfelismerő könyvtár szerzője szerint a Common Voice készlet hátránya a hanganyag egyoldalúsága (a 20-30 éves férfiak túlsúlya, illetve a női hangok anyagának hiánya). , gyerekek és idősek), a szótár változékonyságának hiánya (ugyanolyan kifejezések ismétlése) és a felvételek torzító MP3 formátumú terjesztése.

Emellett megjegyezhetjük az NVIDIA NeMo 1.6 eszközkészlet megjelenését, amely gépi tanulási módszereket biztosít beszédfelismerő rendszerek létrehozásához, beszédszintézishez és természetes nyelvi feldolgozáshoz. A NeMo a PyTorch keretrendszerre épülő gépi tanulási rendszerek számára használatra kész, betanított modelleket tartalmaz, amelyeket az NVIDIA készített a Common Voice beszédadatok felhasználásával, és számos nyelvet, akcentust és beszédformát takar. A modellek hasznosak lehetnek a hangalapú párbeszédrendszereket, transzkripciós platformokat és automatizált call centereket fejlesztő kutatók számára. Például az NVIDIA NeMo-t az MTS és a Sberbank automatizált hangszolgáltatásaiban használják. A NeMo kód Python nyelven íródott a PyTorch segítségével, és az Apache 2.0 licenc alatt kerül terjesztésre.

Forrás: opennet.ru

Hozzászólás