Mozilla 200 0ге жакын адамдын айтылышынын үлгүлөрүн камтыган Common Voice маалымат топтомунун жаңыртуусун чыгарды. Маалыматтар коомдук домен (CC30) катары жарыяланат. Сунушталган топтомдор кепти таануу жана синтез моделдерин куруу үчүн машиналык үйрөнүү системаларында колдонулушу мүмкүн. Мурунку жаңыртууга салыштырмалуу жыйнактагы кеп материалынын көлөмү 13.9%га – 18.2дан 67 миң саатка чейин өстү. Колдоого алынган тилдердин саны 87ден XNUMXге чейин көбөйдү.
Орус тили боюнча комплект 2452 катышуучуну жана 193 саат кеп материалды камтыйт (2136 катышуучу жана 173 саат), белорус тили боюнча - 6160 катышуучу жана 987 саат (3831 катышуучу жана 356 саат), украин тили үчүн - 684 катышуучу жана 76 саат (615 катышуучу жана 66 саат болгон). Материалдарды англис тилинде даярдоого 79 миңден ашык адам катышты, алар 2886 саат тастыкталган сөздү диктант кылышты (75 миң катышуучу жана 2637 саат болду).
Эске сала кетсек, “Жалпы үн” долбоору үндөрдүн жана сүйлөө стилинин көп түрдүүлүгүн эске алган үн үлгүлөрүнүн маалымат базасын топтоо боюнча биргелешкен иштерди уюштурууга багытталган. Колдонуучулар экранда көрсөтүлгөн үн сөз айкаштарына же башка колдонуучулар тарабынан кошулган маалыматтардын сапатына баа берүүгө чакырылат. Адам сүйлөөчү типтүү сөз айкаштарынын ар кандай айтылышынын жазуулары бар топтолгон маалымат базасы машиналык окутуу системаларында жана илимий долбоорлордо чектөөсүз колдонулушу мүмкүн. Vosk үзгүлтүксүз кеп таануу китепканасынын авторунун айтымында, Common Voice топтомунун кемчиликтери үн материалынын бир жактуулугу (20-30 жаштагы эркектердин басымдуулук кылышы жана аялдардын үнү жазылган материалдардын жетишсиздиги) болуп саналат. , балдар жана карылар), сөздүктүн вариациясынын жоктугу (бир эле сөз айкаштарын кайталоо) жана MP3 форматындагы бурмаланган жазууларды таратуу.
Кошумчалай кетсек, NVIDIA NeMo 1.6 инструменталдык комплектинин чыгарылышын белгилей кетсек болот, анда кеп таануу системаларын түзүү, кеп синтези жана табигый тилди иштетүү үчүн машина үйрөнүү ыкмалары каралган. NeMo Common Voice кеп маалыматтарын колдонуу менен NVIDIA тарабынан даярдалган жана ар кандай тилдерди, акценттерди жана кеп формаларын камтыган PyTorch алкагына негизделген машина үйрөнүү системалары үчүн колдонууга даяр үйрөтүлгөн моделдерди камтыйт. Моделдер үнгө негизделген диалог системаларын, транскрипция платформаларын жана автоматташтырылган чалуу борборлорун иштеп чыгуучу изилдөөчүлөр үчүн пайдалуу болушу мүмкүн. Мисалы, NVIDIA NeMo МТС жана Сбербанктын автоматташтырылган үн кызматтарында колдонулат. NeMo коду PyTorch аркылуу Python тилинде жазылган жана Apache 2.0 лицензиясы боюнча таратылган.
Source: opennet.ru
