Mozilla Common Voice 9.0 atjauninājums

Mozilla ir izlaidusi atjauninājumu savām Common Voice datu kopām, kas ietver izrunas paraugus no gandrīz 200 0 cilvēku. Dati tiek publicēti kā publiskais domēns (CCXNUMX). Ierosinātās kopas var izmantot mašīnmācīšanās sistēmās, lai izveidotu runas atpazīšanas un sintēzes modeļus.

Salīdzinot ar iepriekšējo atjauninājumu, runas materiāla apjoms krājumā palielinājās par 10% - no 18.2 līdz 20.2 tūkstošiem runas stundu. Atbalstīto valodu skaits ir pieaudzis no 87 līdz 93. Par 27 valodām ir uzkrāti vairāk nekā 100 stundu runas dati, bet 9 - vairāk nekā 500 stundu runas datu. 9 valodās bija iespējams sasniegt arī sieviešu runas daļu vismaz 45%.

Materiālu sagatavošanā angļu valodā piedalījās vairāk nekā 81 tūkstotis cilvēku, diktējot 2953 runas stundas (bija 79 tūkstoši dalībnieku un 2886 stundas). Baltkrievu valodas komplektā ietilpst 6326 dalībnieki un 1054 stundas runas materiāla (bija 6160 dalībnieki un 987 stundas), krievu valodai - 2585 dalībnieki un 201 stunda (bija 2452 dalībnieki un 193 stundas), uzbeku valodai - 1503 dalībnieki un 231 stunda ( bija 1355 dalībnieki un 227 stundas), ukraiņu valoda - 696 dalībnieki un 79 stundas (bija 684 dalībnieki un 76 stundas).

Projekta Common Voice mērķis ir organizēt kopīgu darbu, lai uzkrātu balss modeļu datubāzi, kurā ņemta vērā balsu un runas stilu dažādība. Lietotāji tiek aicināti izrunāt ekrānā redzamās frāzes vai novērtēt citu lietotāju pievienoto datu kvalitāti. Uzkrāto datu bāzi ar dažādu cilvēka runas tipisku frāžu dažādu izrunu ierakstiem var bez ierobežojumiem izmantot mašīnmācības sistēmās un pētniecības projektos.

Avots: opennet.ru

Pievieno komentāru