NVIDIAk 1.5 milioi dolar inbertitzen ditu Mozilla Common Voice proiektuan

Компания NVIDIA инвестирует 1.5 млн долларов в проект Mozilla Common Voice. Интерес к системам распознавания речи связан с прогнозом, что в следующие десять лет голосовые технологии станут одним из основных способов взаимодействия людей с различными устройствами, от компьютеров и телефонов, до цифровых ассистентов и киосков для продажи товаров.

Качество работы голосовых систем сильно зависит от объёма и разнообразия голосовых данных, доступных для тренировки моделей машинного обучения. Сегодняшние голосовые технологии в основном сосредоточены на распознании английского языка и не охватывают огромное количество языков, акцентов и моделей речи. Инвестиции помогут ускорить наращивание объёма общедоступных голосовых данных, привлечь к работе больше сообществ и волонтёров, а также расширить число сотрудников, занимающихся проектом в основное рабочее время.

Gogora dezagun Common Voice egitasmoa lan bateratua antolatzera zuzenduta dagoela ahotsen eta hizketa-estiloen aniztasuna kontuan hartzen dituen ahots-ereduen datu-base bat pilatzeko. Erabiltzaileak pantailan bistaratzen diren ahots-esaldietara edo beste erabiltzaileek gehitutako datuen kalitatea ebaluatzera gonbidatzen dituzte. Giza hizkeraren ohiko esaldien hainbat ahoskeraren erregistroak dituen datu-base metatua mugarik gabe erabil daiteke ikaskuntza automatikoko sistemetan eta ikerketa proiektuetan.

В настоящее время набор Common Voice включает примеры произношения более 164 тысяч людей. Накоплено около 9 тысяч часов голосовых данных на 60 различных языках. Набор для русского языка охватывает 1412 участников и 111 часов речевого материала, а для украинского языка — 459 участников и 30 часов. Для сравнения в подготовке материалов на английском языке приняли участие более 66 тысяч человек, надиктовавших 1686 часов подтверждённой речи. Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. Данные опубликованы как общественное достояние (CC0).

Vosk etengabeko hizkera aitortzeko liburutegiaren egilearen arabera, Common Voice multzoaren desabantailak ahots-materialaren alde bakarrekoak dira (20-30 urteko gizonezkoen nagusitasuna eta emakumeen ahotsa duten material falta). , umeak eta adinekoak), hiztegiaren aldakortasun eza (esaldi berdinen errepikapena) eta grabazioak MP3 formatu distortsionagarrian banatzea.

Iturria: opennet.ru

Gehitu iruzkin berria