NVIDIA investéiert $ 1.5 Milliounen am Mozilla Common Voice Projet

Компания NVIDIA инвестирует 1.5 млн долларов в проект Mozilla Common Voice. Интерес к системам распознавания речи связан с прогнозом, что в следующие десять лет голосовые технологии станут одним из основных способов взаимодействия людей с различными устройствами, от компьютеров и телефонов, до цифровых ассистентов и киосков для продажи товаров.

Качество работы голосовых систем сильно зависит от объёма и разнообразия голосовых данных, доступных для тренировки моделей машинного обучения. Сегодняшние голосовые технологии в основном сосредоточены на распознании английского языка и не охватывают огромное количество языков, акцентов и моделей речи. Инвестиции помогут ускорить наращивание объёма общедоступных голосовых данных, привлечь к работе больше сообществ и волонтёров, а также расширить число сотрудников, занимающихся проектом в основное рабочее время.

Loosst eis Iech drun erënneren datt de Common Voice Projet zielt fir gemeinsam Aarbecht ze organiséieren fir eng Datebank vu Stëmmmuster ze sammelen déi d'Diversitéit vu Stëmmen a Riedstiler berücksichtegt. D'Benotzer ginn invitéiert op Stëmm Sätze déi um Bildschierm ugewise ginn oder d'Qualitéit vun den Donnéeën vun anere Benotzer evaluéieren. Déi akkumuléiert Datebank mat Opzeechnunge vu verschiddene Aussoe vun typesche Sätze vu mënschlecher Ried kann ouni Restriktiounen a Maschinnléieresystemer an a Fuerschungsprojeten benotzt ginn.

В настоящее время набор Common Voice включает примеры произношения более 164 тысяч людей. Накоплено около 9 тысяч часов голосовых данных на 60 различных языках. Набор для русского языка охватывает 1412 участников и 111 часов речевого материала, а для украинского языка — 459 участников и 30 часов. Для сравнения в подготовке материалов на английском языке приняли участие более 66 тысяч человек, надиктовавших 1686 часов подтверждённой речи. Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. Данные опубликованы как общественное достояние (CC0).

Laut dem Auteur vun der Vosk kontinuéierlecher Riederkennungsbibliothéik sinn d'Nodeeler vum Common Voice Set d'Eenseitegkeet vum Stëmmmaterial (d'Prédominatioun vu männleche Leit 20-30 Joer al, an de Mangel u Material mat de Stëmme vu Fraen , Kanner an eeler Leit), de Mangel u Verännerlechkeet am Wierderbuch (Wiederholung vun de selwechte Sätze) an d'Verdeelung vun Opzeechnungen am verzerrten MP3-Format.

Source: opennet.ru

Setzt e Commentaire