Amazon опублікував набір даних для розуміння мови 51 мовою

Компанія Amazon опублікувала під ліцензією CC BY 4.0 набір даних «MASSIVE» (Multilingual Amazon SLURP for Slot Filling, Intent Classification та Virtual-assistant Evaluation), моделі для систем машинного навчання та інструментарій для тренування власних моделей, які можна використовувати для розуміння інформації на природною мовою (NLU, Natural Language Understanding). Набір включає понад мільйон анотованих та класифікованих текстових висловлювань, підготовлених для 51 мови.

Як зразок для побудови набору MASSIVE була використана колекція SLURP, спочатку доступна для англійської мови, яка була локалізована 50 іншими мовами із залученням професійних перекладачів. Технологія розуміння інформації природною мовою (NLU), що застосовується в голосовому помічнику Alexa, спочатку перетворює мову в текст, після чого застосовує до тексту кілька NLU-моделей, що аналізують наявність ключових слів для визначення суті заданого користувачем питання.

Однією з цілей створення та публікації набору є адаптація голосових помічників для обробки інформації відразу кількома мовами, а також стимулювання сторонніх розробників до створення додатків та сервісів, які розширюють можливості голосових помічників. Щоб привернути увагу розробників Amazon заснував конкурс зі створення найкращої універсальної моделі, яка використовує опублікований набір даних.

В даний час голосові помічники підтримують лише кілька мов та застосовує моделі машинного навчання, прив'язані до конкретної мови. Проект MASSIVE націлений на усунення цього недоліку шляхом створення універсальних моделей та систем машинного навчання, здатних розбирати та обробляти інформацію різними мовами.

Джерело: opennet.ru

Додати коментар або відгук