NVIDIA į „Mozilla Common Voice“ projektą investuoja 1.5 mln

NVIDIA į „Mozilla Common Voice“ projektą investuoja 1.5 mln. Susidomėjimas kalbos atpažinimo sistemomis kyla dėl prognozės, kad per ateinančius dešimt metų balso technologijos taps vienu iš pagrindinių būdų, kaip žmonės bendrauja su įrenginiais – nuo ​​kompiuterių ir telefonų iki skaitmeninių asistentų ir kioskų.

Balso sistemų našumas labai priklauso nuo balso duomenų apimties ir įvairovės, skirtos mokyti mašininio mokymosi modelius. Šiuolaikinės balso technologijos daugiausia orientuotos į anglų kalbos atpažinimą ir neapima daugybės kalbų, akcentų ir kalbos modelių. Investicijos padės paspartinti viešųjų balso duomenų augimą, įtraukti daugiau bendruomenių ir savanorių bei išplėsti etatinių projektų darbuotojų skaičių.

Priminsime, kad projektas „Bendras balsas“ skirtas organizuoti bendrą darbą, kaupiant balso raštų duomenų bazę, kurioje atsižvelgiama į balsų ir kalbėjimo stilių įvairovę. Vartotojai kviečiami išgirsti ekrane rodomas frazes arba įvertinti kitų vartotojų pridėtų duomenų kokybę. Sukaupta duomenų bazė su įvairių tipinių žmogaus kalbos frazių tarimo įrašais gali būti be apribojimų naudojama mašininio mokymosi sistemose ir tyrimų projektuose.

„Common Voice“ rinkinyje šiuo metu yra daugiau nei 164 9 žmonių tarimo pavyzdžių. Sukaupta apie 60 tūkstančius valandų balso duomenų 1412 skirtingų kalbų. Rusų kalbos rinkinys apima 111 dalyvių ir 459 valandų kalbos medžiagos, o ukrainiečių kalbai - 30 dalyvius ir 66 valandų. Palyginimui, rengiant medžiagą anglų kalba dalyvavo daugiau nei 1686 tūkst. žmonių, padiktuodami 0 valandas patikrintos kalbos. Siūlomi rinkiniai gali būti naudojami mašininio mokymosi sistemose, kuriant kalbos atpažinimo ir sintezės modelius. Duomenys skelbiami kaip viešasis domenas (CCXNUMX).

Nepertraukiamo kalbos atpažinimo bibliotekos „Vosk“ autoriaus teigimu, „Common Voice“ rinkinio trūkumai yra balso medžiagos vienpusiškumas (vyrauja 20-30 metų amžiaus žmonės, trūksta medžiagos su moterų balsais). , vaikai ir pagyvenę žmonės), žodyno kintamumo trūkumas (tų pačių frazių kartojimas) ir įrašų platinimas iškreipiančiu MP3 formatu.

Šaltinis: opennet.ru

Добавить комментарий