Mozilla Common Voice 12.0 Жаңыртуу

Mozilla 200 0ден ашуун адамдын айтылышынын үлгүлөрүн камтуу үчүн Common Voice маалымат топтомун жаңыртты. Маалыматтар коомдук домен (CCXNUMX) катары жарыяланат. Сунушталган топтомдор кепти таануу жана синтез моделдерин куруу үчүн машиналык үйрөнүү системаларында колдонулушу мүмкүн.

Мурдагы жа-цыртууга салыштырганда жыйнактагы кеп материалдарынын келему 23.8ден 25.8 миц саатка чейин кебейду. Материалдарды англис тилинде даярдоого 88 миңден ашык адам катышып, 3161 саат сөз сүйлөдү (84 миң катышуучу жана 3098 саат болгон). Белорус тили боюнча комплект 7903 катышуучу жана 1419 саат кеп материалды камтыйт (6965 катышуучу жана 1217 саат), орус тили - 2815 катышуучу жана 229 саат (2731 катышуучу жана 215 саат), өзбек - 2092 катышуучу жана 262 саат ( 2025 катышуучу жана 258 саат), украин тили - 780 катышуучу жана 87 саат (759 катышуучу жана 87 саат болгон).

“Жалпы үн” долбоору үндөрдүн жана сүйлөө стилинин көп түрдүүлүгүн эске алган үн үлгүлөрүнүн маалымат базасын топтоо боюнча биргелешкен иштерди уюштурууга багытталган. Колдонуучулар экранда көрсөтүлгөн үн сөз айкаштарына же башка колдонуучулар тарабынан кошулган маалыматтардын сапатына баа берүүгө чакырылат. Адам сүйлөөчү типтүү сөз айкаштарынын ар кандай айтылышынын жазуулары бар топтолгон маалымат базасы машиналык окутуу системаларында жана илимий долбоорлордо чектөөсүз колдонулушу мүмкүн.

Source: opennet.ru

Комментарий кошуу