Mozilla 200 0 ga yaqin odamning talaffuz namunalarini o'z ichiga olgan Common Voice ma'lumotlar to'plamining yangilanishini chiqardi. Ma'lumotlar jamoat mulki sifatida e'lon qilinadi (CCXNUMX). Tavsiya etilgan to'plamlardan nutqni aniqlash va sintez modellarini yaratish uchun mashinani o'rganish tizimlarida foydalanish mumkin.
Oldingi yangilanish bilan solishtirganda, to'plamdagi nutq materialining hajmi 10 foizga oshdi - 18.2 dan 20.2 ming soat nutq. Qo'llab-quvvatlanadigan tillar soni 87 tadan 93 taga ko'paydi. 27 ta til uchun 100 soatdan ortiq nutq ma'lumotlari, 9 tasi uchun esa 500 soatdan ortiq nutq ma'lumotlari to'plangan. 9 tilda ayollar nutqining kamida 45% ulushiga erishish mumkin edi.
Ingliz tilidagi materiallarni tayyorlashda 81 soat nutq so'zlagan (2953 ming ishtirokchi va 79 soat) 2886 mingdan ortiq kishi ishtirok etdi. Belorus tili bo'yicha to'plam 6326 ishtirokchi va 1054 soat nutq materialini (6160 ishtirokchi va 987 soat), rus tili - 2585 ishtirokchi va 201 soat (2452 ishtirokchi va 193 soat), o'zbek tili - 1503 ishtirokchi va 231 soatni o'z ichiga oladi. 1355 ishtirokchi va 227 soat), ukrain tili - 696 ishtirokchi va 79 soat (684 ishtirokchi va 76 soat).
“Common Voice” loyihasi ovozlar va nutq uslublarining xilma-xilligini hisobga oladigan ovoz namunalari bazasini to‘plash bo‘yicha qo‘shma ishlarni tashkil etishga qaratilgan. Foydalanuvchilar ekranda ko'rsatilgan ovozli iboralarga taklif qilinadi yoki boshqa foydalanuvchilar tomonidan qo'shilgan ma'lumotlar sifatini baholaydi. Inson nutqining tipik iboralarining turli talaffuzlari yozuvlari bilan to'plangan ma'lumotlar bazasidan mashinani o'rganish tizimlarida va tadqiqot loyihalarida cheklovlarsiz foydalanish mumkin.
Manba: opennet.ru
