NVIDIA нь Mozilla Common Voice төсөлд 1.5 сая долларын хөрөнгө оруулалт хийжээ

Компания NVIDIA инвестирует 1.5 млн долларов в проект Mozilla Common Voice. Интерес к системам распознавания речи связан с прогнозом, что в следующие десять лет голосовые технологии станут одним из основных способов взаимодействия людей с различными устройствами, от компьютеров и телефонов, до цифровых ассистентов и киосков для продажи товаров.

Качество работы голосовых систем сильно зависит от объёма и разнообразия голосовых данных, доступных для тренировки моделей машинного обучения. Сегодняшние голосовые технологии в основном сосредоточены на распознании английского языка и не охватывают огромное количество языков, акцентов и моделей речи. Инвестиции помогут ускорить наращивание объёма общедоступных голосовых данных, привлечь к работе больше сообществ и волонтёров, а также расширить число сотрудников, занимающихся проектом в основное рабочее время.

“Common Voice” төсөл нь дуу хоолой, ярианы хэв маягийн олон талт байдлыг харгалзан дуу хоолойны хэв маягийн мэдээллийн санг бүрдүүлэх хамтарсан ажлыг зохион байгуулах зорилготой гэдгийг сануулъя. Хэрэглэгчдийг дэлгэцэн дээр харуулсан дуут хэллэг эсвэл бусад хэрэглэгчдийн нэмсэн өгөгдлийн чанарыг үнэлэхийг урьж байна. Хүний ярианы ердийн хэллэгүүдийн янз бүрийн дуудлагын бүртгэл бүхий хуримтлагдсан мэдээллийн санг машин сургалтын систем болон судалгааны төслүүдэд хязгаарлалтгүйгээр ашиглах боломжтой.

В настоящее время набор Common Voice включает примеры произношения более 164 тысяч людей. Накоплено около 9 тысяч часов голосовых данных на 60 различных языках. Набор для русского языка охватывает 1412 участников и 111 часов речевого материала, а для украинского языка — 459 участников и 30 часов. Для сравнения в подготовке материалов на английском языке приняли участие более 66 тысяч человек, надиктовавших 1686 часов подтверждённой речи. Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. Данные опубликованы как общественное достояние (CC0).

Vosk тасралтгүй яриа таних номын сангийн зохиогчийн үзэж байгаагаар Common Voice багцын сул тал нь дуу хоолойны материалын нэг талыг барьсан байдал (20-30 насны эрэгтэй хүмүүсийн давамгайлал, эмэгтэйчүүдийн дуу хоолойтой материал хомс) юм. , хүүхэд, өндөр настан), толь бичигт хувьсах чадвар дутмаг (ижил хэллэгийг давтах), бичлэгийг гажуудуулсан MP3 форматаар тараах.

Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх