„Mozilla Common Voice 8.0“ balso naujinimas

„Mozilla“ išleido savo „Common Voice“ duomenų rinkinių atnaujinimą, kuriame yra beveik 200 0 žmonių tarimo pavyzdžiai. Duomenys skelbiami kaip viešasis domenas (CC30). Siūlomi rinkiniai gali būti naudojami mašininio mokymosi sistemose, kuriant kalbos atpažinimo ir sintezės modelius. Palyginti su ankstesniu atnaujinimu, kalbinės medžiagos apimtis rinkinyje padidėjo 13.9% – nuo ​​18.2 iki 67 tūkst. Palaikomų kalbų skaičius padidėjo nuo 87 iki XNUMX.

Rusų kalbos rinkinys apima 2452 dalyvius ir 193 valandas kalbos medžiagos (buvo 2136 dalyviai ir 173 valandos), baltarusių kalbai - 6160 dalyvių ir 987 valandas (buvo 3831 dalyvis ir 356 valandos), ukrainiečių kalbai - 684 dalyviai ir 76 valandos (buvo 615 dalyvių ir 66 valandos). Rengiant medžiagą anglų kalba dalyvavo daugiau nei 79 tūkst. žmonių, kurie padiktavo 2886 valandas patvirtintos kalbos (dalyvių buvo 75 tūkst. ir 2637 val.).

Priminsime, kad projektas „Bendras balsas“ skirtas organizuoti bendrą darbą, kaupiant balso raštų duomenų bazę, kurioje atsižvelgiama į balsų ir kalbėjimo stilių įvairovę. Vartotojai kviečiami išgirsti ekrane rodomas frazes arba įvertinti kitų vartotojų pridėtų duomenų kokybę. Sukaupta duomenų bazė su įvairių tipinių žmogaus kalbos frazių tarimo įrašais gali būti be apribojimų naudojama mašininio mokymosi sistemose ir tyrimų projektuose. Nepertraukiamo kalbos atpažinimo bibliotekos „Vosk“ autoriaus teigimu, „Common Voice“ rinkinio trūkumai yra balso medžiagos vienpusiškumas (vyrauja 20-30 metų amžiaus žmonės, trūksta medžiagos su moterų balsais). , vaikai ir pagyvenę žmonės), žodyno kintamumo stoka (tų pačių frazių kartojimas) ir įrašų platinimas iškreipiančiu MP3 formatu.

Be to, galime atkreipti dėmesį į NVIDIA NeMo 1.6 įrankių rinkinio išleidimą, kuriame pateikiami mašininio mokymosi metodai kalbos atpažinimo sistemoms kurti, kalbos sintezei ir natūralios kalbos apdorojimui. „NeMo“ apima paruoštus naudoti mašininio mokymosi sistemų modelius, pagrįstus „PyTorch“ sistema, paruoštus NVIDIA, naudodama „Common Voice“ kalbos duomenis ir apimančius įvairias kalbas, akcentus ir kalbos formas. Modeliai gali būti naudingi mokslininkams, kuriantiems balsu pagrįstas dialogo sistemas, transkripcijos platformas ir automatizuotus skambučių centrus. Pavyzdžiui, NVIDIA NeMo naudojama automatizuotose MTS ir Sberbank balso paslaugose. NeMo kodas parašytas Python naudojant PyTorch ir platinamas pagal Apache 2.0 licenciją.

Šaltinis: opennet.ru

Добавить комментарий