Mozilla Common Voice 12.0 atjauninājums

Mozilla ir atjauninājusi savas Common Voice datu kopas, iekļaujot izrunas paraugus no vairāk nekā 200 0 cilvēku. Dati tiek publicēti kā publiskais domēns (CCXNUMX). Ierosinātās kopas var izmantot mašīnmācīšanās sistēmās, lai izveidotu runas atpazīšanas un sintēzes modeļus.

Salīdzinot ar iepriekšējo atjauninājumu, runas materiāla apjoms krājumā palielinājās no 23.8 līdz 25.8 tūkstošiem runas stundu. Materiālu sagatavošanā angļu valodā piedalījās vairāk nekā 88 tūkstoši cilvēku, diktējot 3161 runas stundu (bija 84 tūkstoši dalībnieku un 3098 stundas). Baltkrievu valodas komplekts aptver 7903 dalībniekus un 1419 stundas runas materiāla (bija 6965 dalībnieki un 1217 stundas), krievu valodai - 2815 dalībnieki un 229 stundas (bija 2731 dalībnieks un 215 stundas), uzbeku valodai - 2092 dalībnieki un 262 stundas ( bija 2025 dalībnieki un 258 stundas), ukraiņu valoda - 780 dalībnieki un 87 stundas (bija 759 dalībnieki un 87 stundas).

Projekta Common Voice mērķis ir organizēt kopīgu darbu, lai uzkrātu balss modeļu datubāzi, kurā ņemta vērā balsu un runas stilu dažādība. Lietotāji tiek aicināti izrunāt ekrānā redzamās frāzes vai novērtēt citu lietotāju pievienoto datu kvalitāti. Uzkrāto datu bāzi ar dažādu cilvēka runas tipisku frāžu dažādu izrunu ierakstiem var bez ierobežojumiem izmantot mašīnmācības sistēmās un pētniecības projektos.

Avots: opennet.ru

Pievieno komentāru