Компания Mozilla представила обновление наборов голосовых данных Common Voice, включающих примеры произношения около 200 тысяч человек. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи.
По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился на 10% — с 18.2 до 20.2 тысяч часов речи. Число поддерживаемых языков возросло с 87 до 93. Для 27 языков накоплено более 100 часов речевых данных, а для 9 — более 500 часов речевых данных. Для 9 языков также удалось добиться доли женской речи, составляющей как минимум 45%.
В подготовке материалов на английском языке приняли участие более 81 тысяч человек, надиктовавших 2953 часов речи (было 79 тысяч участников и 2886 часов). Набор для белорусского языка охватывает 6326 участников и 1054 часа речевого материала (было — 6160 участников и 987 часов), русского языка — 2585 участников и 201 час (было 2452 участника и 193 часа), узбекского — 1503 участника и 231 час (было 1355 участников и 227 часов), украинского языка — 696 участников и 79 часов (было 684 участника и 76 часов).
គម្រោង Common Voice មានគោលបំណងរៀបចំការងាររួមគ្នាដើម្បីប្រមូលផ្តុំមូលដ្ឋានទិន្នន័យនៃគំរូសំឡេងដែលគិតគូរពីភាពចម្រុះនៃសំឡេង និងរចនាប័ទ្មការនិយាយ។ អ្នកប្រើត្រូវបានអញ្ជើញឱ្យប្រើឃ្លាសំឡេងដែលបង្ហាញលើអេក្រង់ ឬវាយតម្លៃគុណភាពទិន្នន័យដែលបានបន្ថែមដោយអ្នកប្រើផ្សេងទៀត។ មូលដ្ឋានទិន្នន័យដែលបានប្រមូលផ្តុំជាមួយនឹងកំណត់ត្រានៃការបញ្ចេញសំឡេងផ្សេងៗនៃឃ្លាធម្មតានៃការនិយាយរបស់មនុស្សអាចត្រូវបានប្រើដោយគ្មានការរឹតបន្តឹងនៅក្នុងប្រព័ន្ធរៀនម៉ាស៊ីន និងក្នុងគម្រោងស្រាវជ្រាវ។
ប្រភព: opennet.ru