Facebook veröffentlicht ein maschinelles Übersetzungsmodell, das 200 Sprachen unterstützt

Facebook (in der Russischen Föderation verboten) hat die Entwicklungen des NLLB-Projekts (No Language Left Behind) veröffentlicht, das darauf abzielt, ein universelles maschinelles Lernmodell für die direkte Übersetzung von Texten von einer Sprache in eine andere zu schaffen und dabei die Zwischenübersetzung ins Englische zu umgehen. Das vorgeschlagene Modell deckt mehr als 200 Sprachen ab, darunter seltene Sprachen afrikanischer und australischer Völker. Das ultimative Ziel des Projekts besteht darin, allen Menschen ein Kommunikationsmittel bereitzustellen, unabhängig von der Sprache, die sie sprechen.

Das Modell ist unter einer Creative-Commons-BY-NC-4.0-Lizenz lizenziert, die das Kopieren, Weiterverteilen, Anpassen und abgeleitete Werke erlaubt, vorausgesetzt, Sie geben den Namen an, behalten die Lizenz bei und verwenden sie nur für nichtkommerzielle Zwecke. Tools zum Arbeiten mit Modellen werden unter der MIT-Lizenz bereitgestellt. Um die Entwicklung mithilfe des NLLB-Modells anzuregen, wurde beschlossen, 200 US-Dollar für die Gewährung von Zuschüssen an Forscher bereitzustellen.

Um die Erstellung von Projekten mit dem vorgeschlagenen Modell zu vereinfachen, werden der Code von Anwendungen zum Testen und Bewerten der Qualität von Modellen (FLORES-200, NLLB-MD, Toxicity-200), Code für Trainingsmodelle und Encoder basierend auf der LASER3-Bibliothek ( Language-Agnostic SEntence) sind zusätzlich Open Source. Darstellung). Das endgültige Modell wird in zwei Versionen angeboten – vollständig und verkürzt. Die gekürzte Version benötigt weniger Ressourcen und eignet sich zum Testen und Einsatz in Forschungsprojekten.

Im Gegensatz zu anderen Übersetzungssystemen, die auf maschinellen Lernsystemen basieren, zeichnet sich die Lösung von Facebook dadurch aus, dass sie ein allgemeines Modell für alle 200 Sprachen bietet, das alle Sprachen abdeckt und nicht die Verwendung separater Modelle für jede Sprache erfordert. Die Übersetzung erfolgt direkt von der Ausgangssprache in die Zielsprache, ohne Zwischenübersetzung ins Englische. Um universelle Übersetzungssysteme zu schaffen, wird zusätzlich ein LID-Modell (Language IDentification) vorgeschlagen, das es ermöglicht, die verwendete Sprache zu bestimmen. Diese. Das System kann automatisch erkennen, in welcher Sprache die Informationen bereitgestellt werden, und diese in die Sprache des Benutzers übersetzen.

Die Übersetzung wird in jede Richtung und zwischen allen 200 unterstützten Sprachen unterstützt. Um die Qualität der Übersetzung zwischen beliebigen Sprachen zu bestätigen, wurde der FLORES-200-Referenztestsatz erstellt, der zeigte, dass das NLLB-200-Modell in Bezug auf die Übersetzungsqualität den zuvor vorgeschlagenen auf maschinellem Lernen basierenden Forschungssystemen bei der Verwendung im Durchschnitt 44 % überlegen ist BLEU-Metriken zum Vergleich maschineller Übersetzung mit standardmäßiger menschlicher Übersetzung. Bei seltenen afrikanischen Sprachen und indischen Dialekten erreicht die Qualitätsüberlegenheit 70 %. Auf einer speziell vorbereiteten Demo-Site ist es möglich, die Qualität der Übersetzung visuell zu beurteilen.

Source: opennet.ru

Kommentar hinzufügen