ការធ្វើបច្ចុប្បន្នភាព Mozilla Common Voice 7.0

Компании NVIDIA и Mozilla представили обновление наборов голосовых данных, собранных в результате инициативы Common Voice и включающих примеры произношения 182 тысяч людей, что на 25% больше, чем 6 месяцев назад. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи.

По сравнению с прошлым обновлением размер объём речевого материала в коллекции увеличился с 9 до 13.9 тысяч часов речи. Число поддерживаемых языков возросло с 60 до 76, в том числе впервые добавлена поддержка Белорусского, Казахского, Узбекского, Болгарского, Армянского, Азербайджанского и Башкирского языков. Набор для русского языка охватывает 2136 участников и 173 часа речевого материала (было 1412 участников и 111 часов), а для украинского языка — 615 участников и 66 часов (было 459 участников и 30 часов).

В подготовке материалов на английском языке приняли участие более 75 тысяч человек, надиктовавших 2637 часов подтверждённой речи (было 66 тысяч участников и 1686 часов). Интересно, что на втором месте по размеру накопленных данных язык руанда, для которого собрано 2260 часов. Затем следуют немецкий (1040), каталонский (920) и эсперанто (840). Из наиболее динамично наращивающих размер голосовых данных языков называются тайский язык (рост базы в 20 раз, с 12 до 250 часов), луганда (с 8 до 80 часов), эсперанто (со 100 до 840 часов) и тамильский язык (с 24 до 220 часов).

В рамках своего участия в проекте Common Voice компания NVIDIA подготовила на базе собранных данных готовые натренированные модели для систем машинного обучения (поддерживается PyTorch). Модели распространяются в составе бесплатного и открытого инструментария NVIDIA NeMo, который, например, уже используется в автоматизированных голосовых сервисах МТС и Сбербанка. Модели ориентированы на использование в системах распознавания речи, синтеза речи и обработки информации на естественном языке, и могут оказаться полезными для исследователей, занимающихся созданием голосовых диалоговых систем, платформ для транскрипции и автоматизированных колл-центров. В отличие от доступных ранее проектов, опубликованные модели не ограничиваются распознанием английского языка и охватывают различные языки, акценты и формы речи.

ចូរយើងរំលឹកអ្នកថា គម្រោង Common Voice មានគោលបំណងរៀបចំការងាររួមគ្នា ដើម្បីប្រមូលផ្តុំមូលដ្ឋានទិន្នន័យនៃគំរូសំឡេង ដែលគិតគូរពីភាពចម្រុះនៃសំឡេង និងរចនាប័ទ្មការនិយាយ។ អ្នក​ប្រើ​ត្រូវ​បាន​អញ្ជើញ​ឱ្យ​ប្រើ​ឃ្លា​សំឡេង​ដែល​បង្ហាញ​លើ​អេក្រង់ ឬ​វាយ​តម្លៃ​គុណភាព​ទិន្នន័យ​ដែល​បាន​បន្ថែម​ដោយ​អ្នក​ប្រើ​ផ្សេង​ទៀត។ មូលដ្ឋានទិន្នន័យដែលបានប្រមូលផ្តុំជាមួយនឹងកំណត់ត្រានៃការបញ្ចេញសំឡេងផ្សេងៗនៃឃ្លាធម្មតានៃការនិយាយរបស់មនុស្សអាចត្រូវបានប្រើដោយគ្មានការរឹតបន្តឹងនៅក្នុងប្រព័ន្ធរៀនម៉ាស៊ីន និងក្នុងគម្រោងស្រាវជ្រាវ។

យោងតាមអ្នកនិពន្ធនៃបណ្ណាល័យ Vosk ការទទួលស្គាល់ការនិយាយជាបន្ត គុណវិបត្តិនៃសំណុំសំឡេងទូទៅគឺភាពម្ខាងនៃសម្ភារៈសំឡេង (ភាពលេចធ្លោរបស់មនុស្សប្រុសអាយុ 20-30 ឆ្នាំ និងកង្វះសម្ភារៈជាមួយសំឡេងរបស់ស្ត្រី។ កុមារ និងមនុស្សចាស់) កង្វះនៃការប្រែប្រួលនៅក្នុងវចនានុក្រម (ពាក្យដដែលៗនៃឃ្លាដដែល) និងការចែកចាយការថតសំឡេងជាទម្រង់ MP3 ដែលខូចទ្រង់ទ្រាយ។

ប្រភព: opennet.ru

បន្ថែមមតិយោបល់