Amazon veröffentlicht Sprachverständnis-Datensatz in 51 Sprachen

Amazon hat unter einer CC BY 4.0-Lizenz den Datensatz „MASSIVE“ (Multilingual Amazon SLURP for Slot Filling, Intent Classification, and Virtual-assistant Evaluation), Modelle für maschinelle Lernsysteme und Tools zum Trainieren eigener Modelle veröffentlicht, die dazu verwendet werden können Informationen über natürliche Sprache verstehen (NLU, Natural Language Understanding). Das Set umfasst mehr als eine Million kommentierte und klassifizierte Textäußerungen, die für 51 Sprachen erstellt wurden.

Die ursprünglich für Englisch verfügbare SLURP-Sammlung diente als Referenz für den Aufbau des MASSIVE-Sets, das mithilfe professioneller Übersetzer in 50 weitere Sprachen lokalisiert wurde. Die NLU-Technologie (Natural Language Understanding) von Alexa wandelt zunächst Sprache in Text um und wendet dann mehrere NLU-Modelle auf den Text an, die das Vorhandensein von Schlüsselwörtern analysieren, um den Kern der Frage des Benutzers zu bestimmen.

Eines der Ziele bei der Erstellung und Veröffentlichung des Sets besteht darin, Sprachassistenten so anzupassen, dass sie Informationen in mehreren Sprachen gleichzeitig verarbeiten können, und Drittentwickler zu ermutigen, Anwendungen und Dienste zu erstellen, die die Fähigkeiten von Sprachassistenten erweitern. Um die Aufmerksamkeit der Entwickler zu erregen, startete Amazon einen Wettbewerb, bei dem es darum ging, anhand eines veröffentlichten Datensatzes das beste generische Modell zu erstellen.

Derzeit unterstützen Sprachassistenten nur wenige Sprachen und nutzen maschinelle Lernmodelle, die an eine bestimmte Sprache gebunden sind. Das MASSIVE-Projekt zielt darauf ab, diesen Mangel zu beseitigen, indem universelle Modelle und maschinelle Lernsysteme geschaffen werden, die in der Lage sind, Informationen in verschiedenen Sprachen zu analysieren und zu verarbeiten.

Source: opennet.ru

Kommentar hinzufügen