NVIDIA ṣe idoko-owo $ 1.5 million ni iṣẹ akanṣe Ohun Wọpọ Mozilla

Компания NVIDIA инвестирует 1.5 млн долларов в проект Mozilla Common Voice. Интерес к системам распознавания речи связан с прогнозом, что в следующие десять лет голосовые технологии станут одним из основных способов взаимодействия людей с различными устройствами, от компьютеров и телефонов, до цифровых ассистентов и киосков для продажи товаров.

Качество работы голосовых систем сильно зависит от объёма и разнообразия голосовых данных, доступных для тренировки моделей машинного обучения. Сегодняшние голосовые технологии в основном сосредоточены на распознании английского языка и не охватывают огромное количество языков, акцентов и моделей речи. Инвестиции помогут ускорить наращивание объёма общедоступных голосовых данных, привлечь к работе больше сообществ и волонтёров, а также расширить число сотрудников, занимающихся проектом в основное рабочее время.

Jẹ ki a leti pe iṣẹ akanṣe Ohun Wọpọ ni ifọkansi lati ṣeto iṣẹ apapọ lati ṣajọpọ data data ti awọn ilana ohun ti o ṣe akiyesi oniruuru ti awọn ohun ati awọn ọna ọrọ. A pe awọn olumulo si awọn gbolohun ọrọ ti o han loju iboju tabi ṣe iṣiro didara data ti a ṣafikun nipasẹ awọn olumulo miiran. Ibi ipamọ data ti a kojọpọ pẹlu awọn igbasilẹ ti ọpọlọpọ awọn pronunciations ti awọn gbolohun ọrọ aṣoju ti ọrọ eniyan le ṣee lo laisi awọn ihamọ ninu awọn eto ẹkọ ẹrọ ati ni awọn iṣẹ akanṣe iwadi.

В настоящее время набор Common Voice включает примеры произношения более 164 тысяч людей. Накоплено около 9 тысяч часов голосовых данных на 60 различных языках. Набор для русского языка охватывает 1412 участников и 111 часов речевого материала, а для украинского языка — 459 участников и 30 часов. Для сравнения в подготовке материалов на английском языке приняли участие более 66 тысяч человек, надиктовавших 1686 часов подтверждённой речи. Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. Данные опубликованы как общественное достояние (CC0).

Gẹgẹbi onkọwe ti ile-ikawe idanimọ ọrọ ti Vosk lemọlemọfún, awọn aila-nfani ti ṣeto ohun ti o wọpọ jẹ apa kan ti ohun elo ohun (ipo ti awọn ọkunrin ti o jẹ ọdun 20-30, ati aini ohun elo pẹlu awọn ohun ti awọn obinrin , awọn ọmọde ati awọn agbalagba), aisi iyipada ninu iwe-itumọ (atunṣe awọn gbolohun ọrọ kanna) ati pinpin awọn igbasilẹ ni ọna kika MP3 ti o ni iyipada.

orisun: opennet.ru

Fi ọrọìwòye kun