„Mozilla Common Voice 16.0“ balso naujinimas

„Mozilla“ atnaujino savo „Common Voice“ duomenų rinkinius, įtraukdama daugiau nei 200 0 žmonių tarimo pavyzdžius. Duomenys skelbiami kaip viešasis domenas (CC28.7). Siūlomi rinkiniai gali būti naudojami mašininio mokymosi sistemose, kuriant kalbos atpažinimo ir sintezės modelius. Palyginti su ankstesniu atnaujinimu, kalbinės medžiagos apimtis kolekcijoje padidėjo nuo 30.3 iki 19.7 tūkstančio kalbų valandų, iš kurių 114 tūkstančio valandų praėjo patikrinimo procedūra. Palaikomų kalbų skaičius išaugo nuo 120 iki XNUMX (pridėta jidiš, latgalių, ligūrų, osetinų, telugų ir Vakarų Sierra Pueblan Nahuatl).

Rengiant medžiagą anglų kalba dalyvavo 90.67 tūkst. žmonių, diktuojant 3438 kalbos valandas (dalyvių buvo 88.9 tūkst. ir 3347 val.). Baltarusų kalbos rinkinys apima 8249 dalyvius ir 1641 valandą kalbos medžiagos (buvo 8205 dalyviai ir 1632 val.), rusų - 3133 dalyvius ir 265 valandas (buvo 3053 dalyviai ir 260 valandų), uzbekų - 2151 dalyvis ir 264 valandas ( buvo 2141 dalyvis ir 263 val.), ukrainiečių kalba - 1058 dalyviai ir 108 valandos (buvo 1024 dalyviai ir 105 valandos).

Projektu „Bendras balsas“ siekiama organizuoti bendrą darbą, siekiant kaupti balso modelių duomenų bazę, kurioje būtų atsižvelgiama į balsų ir kalbėjimo stilių įvairovę. Vartotojai kviečiami išgirsti ekrane rodomas frazes arba įvertinti kitų vartotojų pridėtų duomenų kokybę. Sukaupta duomenų bazė su įvairių tipinių žmogaus kalbos frazių tarimo įrašais gali būti be apribojimų naudojama mašininio mokymosi sistemose ir tyrimų projektuose.

Šaltinis: opennet.ru

Pirkite patikimą prieglobą svetainėms su DDoS apsauga, VPS VDS serveriais 🔥 Įsigykite patikimą svetainių talpinimą su DDoS apsauga, VPS VDS serveriais | ProHoster