NVIDIA envesti 1.5 milyon dola nan pwojè Mozilla Common Voice

Компания NVIDIA инвестирует 1.5 млн долларов в проект Mozilla Common Voice. Интерес к системам распознавания речи связан с прогнозом, что в следующие десять лет голосовые технологии станут одним из основных способов взаимодействия людей с различными устройствами, от компьютеров и телефонов, до цифровых ассистентов и киосков для продажи товаров.

Качество работы голосовых систем сильно зависит от объёма и разнообразия голосовых данных, доступных для тренировки моделей машинного обучения. Сегодняшние голосовые технологии в основном сосредоточены на распознании английского языка и не охватывают огромное количество языков, акцентов и моделей речи. Инвестиции помогут ускорить наращивание объёма общедоступных голосовых данных, привлечь к работе больше сообществ и волонтёров, а также расширить число сотрудников, занимающихся проектом в основное рабочее время.

Ann raple w ke pwojè Common Voice la vize òganize travay ansanm pou akimile yon baz done modèl vwa ki pran an kont divèsite vwa ak estil lapawòl. Itilizatè yo envite pou vwa fraz ki parèt sou ekran an oswa evalye kalite done lòt itilizatè yo ajoute. Ka baz done a akimile ak dosye sou pwononsyasyon divès kalite fraz tipik nan lapawòl moun ka itilize san restriksyon nan sistèm aprantisaj machin ak nan pwojè rechèch.

В настоящее время набор Common Voice включает примеры произношения более 164 тысяч людей. Накоплено около 9 тысяч часов голосовых данных на 60 различных языках. Набор для русского языка охватывает 1412 участников и 111 часов речевого материала, а для украинского языка — 459 участников и 30 часов. Для сравнения в подготовке материалов на английском языке приняли участие более 66 тысяч человек, надиктовавших 1686 часов подтверждённой речи. Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. Данные опубликованы как общественное достояние (CC0).

Dapre otè a nan bibliyotèk la Vosk kontinyèl rekonesans lapawòl, dezavantaj yo nan seri a vwa komen yo se yon sèl-sidedness nan materyèl la vwa (dominans nan moun gason 20-30 ane fin vye granmoun, ak mank de materyèl ak vwa yo nan fanm yo). , timoun ak granmoun aje), mank de varyab nan diksyonè a (repetisyon nan fraz yo menm) ak distribisyon an nan anrejistreman nan fòma MP3 ki defòme.

Sous: opennet.ru

Add nouvo kòmantè