🥇Amazon опубликовал набор данных для понимания речи на 51 языке

Компания Amazon опубликовала под лицензией CC BY 4.0 набор данных «MASSIVE» (Multilingual Amazon SLURP for Slot Filling, Intent Classification, and Virtual-assistant Evaluation), модели для систем машинного обучения и инструментарий для тренировки собственных моделей, которые можно использовать для понимания информации на естественном языке (NLU, Natural Language Understanding). Набор включает более миллиона аннотированных и классифицированных текстовых высказываний, подготовленных для 51 языка.

В качестве эталона для построения набора MASSIVE была использована коллекция SLURP, изначально доступная для английского языка, которая была локализована на 50 других языков с привлечением профессиональных переводчиков. Применяемая в голосовом помощнике Alexa технология понимания информации на естественном языке (NLU) вначале преобразует речь в текст, после чего применяет к тексту несколько NLU-моделей, анализирующих наличие ключевых слов для определения сути заданного пользователем вопроса.

Одной из целей создания и публикации набора является адаптация голосовых помощников для обработки информации сразу на нескольких языках, а также стимулирование сторонних разработчиков к созданию приложений и сервисов, расширяющих возможности голосовых помощников. Чтобы привлечь внимание разработчиков Amazon учредил конкурс по созданию лучшей универсальной модели, использующей опубликованный набор данных.

В настоящее время голосовые помощники поддерживают лишь несколько языков и применяет модели машинного обучения, привязанные к конкретному языку. Проект MASSIVE нацелен на устранение этого недостатка путём создания универсальных моделей и систем машинного обучения, способных разбирать и обрабатывать информацию на разных языках.

Источник: opennet.ru