Компания Mozilla обновила наборы голосовых данных Common Voice, включающие примеры произношения более 200 тысяч человек. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи.
По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился с 23.8 до 25.8 тысяч часов речи. В подготовке материалов на английском языке приняли участие более 88 тысяч человек, надиктовавших 3161 час речи (было 84 тысячи участников и 3098 часов). Набор для белорусского языка охватывает 7903 участников и 1419 часов речевого материала (было — 6965 участников и 1217 часов), русского языка — 2815 участников и 229 часов (было 2731 участник и 215 часов), узбекского — 2092 участника и 262 часа (было 2025 участников и 258 часов), украинского языка — 780 участников и 87 часов (было 759 участников и 87 часов).
គម្រោង Common Voice មានគោលបំណងរៀបចំការងាររួមគ្នាដើម្បីប្រមូលផ្តុំមូលដ្ឋានទិន្នន័យនៃគំរូសំឡេងដែលគិតគូរពីភាពចម្រុះនៃសំឡេង និងរចនាប័ទ្មការនិយាយ។ អ្នកប្រើត្រូវបានអញ្ជើញឱ្យប្រើឃ្លាសំឡេងដែលបង្ហាញលើអេក្រង់ ឬវាយតម្លៃគុណភាពទិន្នន័យដែលបានបន្ថែមដោយអ្នកប្រើផ្សេងទៀត។ មូលដ្ឋានទិន្នន័យដែលបានប្រមូលផ្តុំជាមួយនឹងកំណត់ត្រានៃការបញ្ចេញសំឡេងផ្សេងៗនៃឃ្លាធម្មតានៃការនិយាយរបស់មនុស្សអាចត្រូវបានប្រើដោយគ្មានការរឹតបន្តឹងនៅក្នុងប្រព័ន្ធរៀនម៉ាស៊ីន និងក្នុងគម្រោងស្រាវជ្រាវ។
ប្រភព: opennet.ru