NVIDIA investerer 1.5 millioner dollars i Mozilla Common Voice-projektet

Компания NVIDIA инвестирует 1.5 млн долларов в проект Mozilla Common Voice. Интерес к системам распознавания речи связан с прогнозом, что в следующие десять лет голосовые технологии станут одним из основных способов взаимодействия людей с различными устройствами, от компьютеров и телефонов, до цифровых ассистентов и киосков для продажи товаров.

Качество работы голосовых систем сильно зависит от объёма и разнообразия голосовых данных, доступных для тренировки моделей машинного обучения. Сегодняшние голосовые технологии в основном сосредоточены на распознании английского языка и не охватывают огромное количество языков, акцентов и моделей речи. Инвестиции помогут ускорить наращивание объёма общедоступных голосовых данных, привлечь к работе больше сообществ и волонтёров, а также расширить число сотрудников, занимающихся проектом в основное рабочее время.

Lad os minde dig om, at Common Voice-projektet har til formål at organisere fælles arbejde for at opbygge en database over stemmemønstre, der tager højde for mangfoldigheden af ​​stemmer og talestile. Brugere inviteres til at stemme sætninger vist på skærmen eller evaluere kvaliteten af ​​data tilføjet af andre brugere. Den akkumulerede database med registreringer af forskellige udtaler af typiske sætninger i menneskelig tale kan bruges uden begrænsninger i maskinlæringssystemer og i forskningsprojekter.

В настоящее время набор Common Voice включает примеры произношения более 164 тысяч людей. Накоплено около 9 тысяч часов голосовых данных на 60 различных языках. Набор для русского языка охватывает 1412 участников и 111 часов речевого материала, а для украинского языка — 459 участников и 30 часов. Для сравнения в подготовке материалов на английском языке приняли участие более 66 тысяч человек, надиктовавших 1686 часов подтверждённой речи. Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. Данные опубликованы как общественное достояние (CC0).

Ifølge forfatteren af ​​Vosks kontinuerte talegenkendelsesbibliotek er ulemperne ved Common Voice-sættet stemmematerialets ensidighed (overvægten af ​​mandlige mennesker i alderen 20-30 år og manglen på materiale med kvinders stemmer). , børn og ældre), den manglende variabilitet i ordbogen (gentagelse af de samme sætninger) og distributionen af ​​optagelser i det forvrængende MP3-format.

Kilde: opennet.ru

Tilføj en kommentar