Amazon a publié un ensemble de données pour comprendre la parole dans 51 langues

Amazon a publié sous licence CC BY 4.0 l'ensemble de données « MASSIVE » (Multilingual Amazon SLURP for Slot Filling, Intent Classification, and Virtual-assistant Evaluation), des modèles pour les systèmes d'apprentissage automatique et des outils pour former vos propres modèles qui peuvent être utilisés pour comprendre des informations sur le langage naturel (NLU, Natural Language Understanding). L'ensemble comprend plus d'un million d'énoncés textuels annotés et classifiés, préparés pour 51 langues.

La collection SLURP, initialement disponible en anglais, a servi de référence pour construire l'ensemble MASSIVE, qui a été localisé dans 50 autres langues à l'aide de traducteurs professionnels. La technologie de compréhension du langage naturel (NLU) d'Alexa convertit d'abord la parole en texte, puis applique plusieurs modèles NLU au texte qui analysent la présence de mots-clés pour déterminer l'essence de la question de l'utilisateur.

L'un des objectifs de la création et de la publication de l'ensemble est d'adapter les assistants vocaux pour traiter les informations dans plusieurs langues à la fois, ainsi que d'encourager les développeurs tiers à créer des applications et des services qui étendent les capacités des assistants vocaux. Pour attirer l'attention des développeurs, Amazon a lancé un concours visant à créer le meilleur modèle générique à partir d'un ensemble de données publié.

Actuellement, les assistants vocaux ne prennent en charge que quelques langues et utilisent des modèles d'apprentissage automatique liés à une langue spécifique. Le projet MASSIVE vise à éliminer cette lacune en créant des modèles universels et des systèmes d'apprentissage automatique capables d'analyser et de traiter des informations dans différentes langues.

Source: opennet.ru

Ajouter un commentaire