Az NVIDIA 1.5 millió dollárt fektet be a Mozilla Common Voice projektbe

Az NVIDIA 1.5 millió dollárt fektet be a Mozilla Common Voice projektbe. A beszédfelismerő rendszerek iránti érdeklődés abból a jóslatból ered, hogy a következő tíz évben a hangtechnológia lesz az egyik fő módja annak, hogy az emberek interakcióba lépjenek az eszközökkel, a számítógépektől a telefonoktól a digitális asszisztensekig és a kioszkokig.

A hangrendszerek teljesítménye nagymértékben függ a betanító gépi tanulási modellekhez rendelkezésre álló hangadatok mennyiségétől és sokféleségétől. A mai hangtechnológia elsősorban az angol nyelv felismerésére összpontosít, és nem fedi le a nyelvek, akcentusok és beszédminták hatalmas skáláját. A beruházás elősegíti a nyilvános hangadatok növekedésének felgyorsítását, több közösség és önkéntes bevonását, valamint a projekt teljes munkaidőben foglalkoztatott személyzetének bővítését.

Emlékeztetünk arra, hogy a Common Voice projekt célja közös munka megszervezése a hangminták adatbázisának felhalmozására, amely figyelembe veszi a hangok és beszédstílusok sokféleségét. A felhasználók felkérést kapnak a képernyőn megjelenő kifejezések hangzására vagy a más felhasználók által hozzáadott adatok minőségének értékelésére. Az emberi beszéd tipikus kifejezéseinek különféle kiejtését tartalmazó felhalmozott adatbázis korlátozások nélkül használható gépi tanulási rendszerekben és kutatási projektekben.

A Common Voice készlet jelenleg több mint 164 9 embertől tartalmaz kiejtési példákat. Körülbelül 60 ezer órányi hangadat halmozódott fel 1412 különböző nyelven. Az orosz nyelv készlete 111 résztvevőt és 459 órányi beszédanyagot, az ukrán nyelvre pedig 30 résztvevőt és 66 órát tartalmaz. Összehasonlításképpen: az angol nyelvű anyagok elkészítésében több mint 1686 ezren vettek részt, 0 óra ellenőrzött beszédet diktálva. A javasolt készletek gépi tanulási rendszerekben használhatók beszédfelismerési és szintézis modellek felépítésére. Az adatokat közkincsként (CCXNUMX) teszik közzé.

A Vosk folyamatos beszédfelismerő könyvtár szerzője szerint a Common Voice készlet hátránya a hanganyag egyoldalúsága (a 20-30 éves férfiak túlsúlya, illetve a női hangok hiányossága). , gyerekek és idősek), a szótár variabilitásának hiánya (azonos kifejezések ismétlése) és a felvételek torzító MP3 formátumú terjesztése.

Forrás: opennet.ru

Hozzászólás