NVIDIA investește 1.5 milioane de dolari în proiectul Mozilla Common Voice

Компания NVIDIA инвестирует 1.5 млн долларов в проект Mozilla Common Voice. Интерес к системам распознавания речи связан с прогнозом, что в следующие десять лет голосовые технологии станут одним из основных способов взаимодействия людей с различными устройствами, от компьютеров и телефонов, до цифровых ассистентов и киосков для продажи товаров.

Качество работы голосовых систем сильно зависит от объёма и разнообразия голосовых данных, доступных для тренировки моделей машинного обучения. Сегодняшние голосовые технологии в основном сосредоточены на распознании английского языка и не охватывают огромное количество языков, акцентов и моделей речи. Инвестиции помогут ускорить наращивание объёма общедоступных голосовых данных, привлечь к работе больше сообществ и волонтёров, а также расширить число сотрудников, занимающихся проектом в основное рабочее время.

Să vă reamintim că proiectul Common Voice are ca scop organizarea de lucrări comune pentru acumularea unei baze de date de modele de voce care ține cont de diversitatea vocilor și stilurilor de vorbire. Utilizatorii sunt invitați să afișeze fraze vocale pe ecran sau să evalueze calitatea datelor adăugate de alți utilizatori. Baza de date acumulată cu înregistrări ale diferitelor pronunții ale frazelor tipice ale vorbirii umane poate fi utilizată fără restricții în sistemele de învățare automată și în proiecte de cercetare.

В настоящее время набор Common Voice включает примеры произношения более 164 тысяч людей. Накоплено около 9 тысяч часов голосовых данных на 60 различных языках. Набор для русского языка охватывает 1412 участников и 111 часов речевого материала, а для украинского языка — 459 участников и 30 часов. Для сравнения в подготовке материалов на английском языке приняли участие более 66 тысяч человек, надиктовавших 1686 часов подтверждённой речи. Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. Данные опубликованы как общественное достояние (CC0).

Potrivit autorului bibliotecii Vosk de recunoaștere continuă a vorbirii, dezavantajele setului Common Voice sunt caracterul unilateral al materialului vocal (predominanța bărbaților cu vârsta de 20-30 de ani și lipsa de material cu vocile femeilor). , copii și vârstnici), lipsa de variabilitate în dicționar (repetarea acelorași fraze) și distribuirea înregistrărilor în format MP3 deformator.

Sursa: opennet.ru

Adauga un comentariu