Mozilla ir atjauninÄjusi savas Common Voice runas datu kopas, kas ietver runas paraugus no vairÄk nekÄ 200 000 cilvÄku. Dati ir publicÄti publiskajÄ domÄnÄ (CC0). Datu kopas var izmantot maŔīnmÄcīŔanÄs sistÄmÄs, lai veidotu runas atpazīŔanas un sintÄzes modeļus.
SalÄ«dzinot ar iepriekÅ”Äjo atjauninÄjumu, runas materiÄla apjoms krÄjumÄ ir palielinÄjies no 23.8 tÅ«kstoÅ”iem lÄ«dz 25.8 tÅ«kstoÅ”iem runas stundu. Angļu valodas materiÄlu sagatavoÅ”anÄ piedalÄ«jÄs vairÄk nekÄ 88 tÅ«kstoÅ”i cilvÄku, diktÄjot 3161 runas stundu (iepriekÅ” ā 84 tÅ«kstoÅ”i dalÄ«bnieku un 3098 stundas). Baltkrievu valodas komplektÄ iekļauti 7903 dalÄ«bnieki un 1419 runas materiÄla stundas (iepriekÅ” ā 6965 dalÄ«bnieki un 1217 stundas), krievu valodas komplektÄ ā 2815 dalÄ«bnieki un 229 stundas (iepriekÅ” ā 2731 dalÄ«bnieks un 215 stundas), uzbeku valodas komplektÄ ā 2092 dalÄ«bnieki un 262 stundas (iepriekÅ” ā 2025 dalÄ«bnieki un 258 stundas), bet ukraiÅu valodas komplektÄ ā 780 dalÄ«bnieki un 87 stundas (iepriekÅ” ā 759 dalÄ«bnieki un 87 stundas).
Projekta Common Voice mÄrÄ·is ir organizÄt kopÄ«gu darbu, lai uzkrÄtu balss modeļu datubÄzi, kurÄ Åemta vÄrÄ balsu un runas stilu dažÄdÄ«ba. LietotÄji tiek aicinÄti izrunÄt ekrÄnÄ redzamÄs frÄzes vai novÄrtÄt citu lietotÄju pievienoto datu kvalitÄti. UzkrÄto datu bÄzi ar dažÄdu cilvÄka runas tipisku frÄžu dažÄdu izrunu ierakstiem var bez ierobežojumiem izmantot maŔīnmÄcÄ«bas sistÄmÄs un pÄtniecÄ«bas projektos.
Avots: opennet.ru
