NVIDIA đầu tư 1.5 triệu USD vào dự án Mozilla Common Voice

Компания NVIDIA инвестирует 1.5 млн долларов в проект Mozilla Common Voice. Интерес к системам распознавания речи связан с прогнозом, что в следующие десять лет голосовые технологии станут одним из основных способов взаимодействия людей с различными устройствами, от компьютеров и телефонов, до цифровых ассистентов и киосков для продажи товаров.

Качество работы голосовых систем сильно зависит от объёма и разнообразия голосовых данных, доступных для тренировки моделей машинного обучения. Сегодняшние голосовые технологии в основном сосредоточены на распознании английского языка и не охватывают огромное количество языков, акцентов и моделей речи. Инвестиции помогут ускорить наращивание объёма общедоступных голосовых данных, привлечь к работе больше сообществ и волонтёров, а также расширить число сотрудников, занимающихся проектом в основное рабочее время.

Hãy để chúng tôi nhắc bạn rằng dự án Common Voice nhằm mục đích tổ chức công việc chung để tích lũy cơ sở dữ liệu về các mẫu giọng nói có tính đến sự đa dạng của giọng nói và phong cách nói. Người dùng được mời nói các cụm từ hiển thị trên màn hình hoặc đánh giá chất lượng dữ liệu do người dùng khác thêm vào. Cơ sở dữ liệu tích lũy với các bản ghi cách phát âm khác nhau của các cụm từ điển hình trong giọng nói của con người có thể được sử dụng mà không bị hạn chế trong các hệ thống học máy và trong các dự án nghiên cứu.

В настоящее время набор Common Voice включает примеры произношения более 164 тысяч людей. Накоплено около 9 тысяч часов голосовых данных на 60 различных языках. Набор для русского языка охватывает 1412 участников и 111 часов речевого материала, а для украинского языка — 459 участников и 30 часов. Для сравнения в подготовке материалов на английском языке приняли участие более 66 тысяч человек, надиктовавших 1686 часов подтверждённой речи. Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. Данные опубликованы как общественное достояние (CC0).

Theo tác giả thư viện nhận dạng giọng nói liên tục Vosk, nhược điểm của bộ Common Voice là chất liệu giọng nói một chiều (ưu tiên nam giới 20-30 tuổi, thiếu chất liệu giọng nói nữ). , trẻ em và người già), sự thiếu đa dạng trong từ điển (lặp lại các cụm từ giống nhau) và việc phân phối các bản ghi âm ở định dạng MP3 bị bóp méo.

Nguồn: opennet.ru

Thêm một lời nhận xét