Το Facebook δημοσίευσε ένα μοντέλο για αυτόματη μετάφραση που υποστηρίζει 200 ​​γλώσσες

Το Facebook (απαγορευμένο στη Ρωσική Ομοσπονδία) δημοσίευσε τις εξελίξεις του έργου NLLB (No Language Left Behind), με στόχο τη δημιουργία ενός καθολικού μοντέλου μηχανικής εκμάθησης για άμεση μετάφραση κειμένου από τη μια γλώσσα στην άλλη, παρακάμπτοντας την ενδιάμεση μετάφραση στα αγγλικά. Το προτεινόμενο μοντέλο καλύπτει περισσότερες από 200 γλώσσες, συμπεριλαμβανομένων σπάνιων αφρικανικών και αυστραλιανών γλωσσών. Ο απώτερος στόχος του έργου είναι να παρέχει ένα μέσο επικοινωνίας για όλους τους ανθρώπους, ανεξάρτητα από τη γλώσσα που μιλούν.

Το μοντέλο διατίθεται με άδεια Creative Commons BY-NC 4.0, η οποία επιτρέπει την αντιγραφή, τη διανομή, τη συμπερίληψη στα έργα σας και τη δημιουργία παράγωγων έργων, αλλά υπόκειται σε απόδοση, διατήρηση άδειας και χρήση μόνο για μη εμπορικούς σκοπούς. Το Εργαλείο Μοντελοποίησης έχει άδεια χρήσης βάσει της άδειας MIT. Για την τόνωση της ανάπτυξης χρησιμοποιώντας το μοντέλο NLLB, αποφασίστηκε να διατεθούν 200 χιλιάδες δολάρια για την παροχή επιχορηγήσεων σε ερευνητές.

Για να απλοποιηθεί η δημιουργία έργων χρησιμοποιώντας το προτεινόμενο μοντέλο, τον κώδικα εφαρμογών που χρησιμοποιείται για τη δοκιμή και αξιολόγηση της ποιότητας των μοντέλων (FLORES-200, NLLB-MD, Toxicity-200), τον κώδικα για μοντέλα εκπαίδευσης και κωδικοποιητές που βασίζονται στη βιβλιοθήκη LASER3 (Αναπαράσταση Γλώσσας-Αγνωστικιστικής πρότασης). Το τελικό μοντέλο προσφέρεται σε δύο εκδόσεις - πλήρη και μειωμένη. Η μειωμένη έκδοση απαιτεί λιγότερους πόρους και είναι κατάλληλη για δοκιμή και χρήση σε ερευνητικά έργα.

Σε αντίθεση με άλλα συστήματα μετάφρασης που βασίζονται σε μηχανική μάθηση, η λύση του Facebook είναι αξιοσημείωτη επειδή προσφέρει ένα κοινό μοντέλο και για τις 200 γλώσσες, που καλύπτει όλες τις γλώσσες και δεν απαιτεί ξεχωριστά μοντέλα για κάθε γλώσσα. Η μετάφραση πραγματοποιείται απευθείας από την πηγή στη γλώσσα-στόχο, χωρίς ενδιάμεση μετάφραση στα αγγλικά. Για τη δημιουργία καθολικών μεταφραστικών συστημάτων, προτείνεται ένα πρόσθετο μοντέλο LID (Language IDentification), το οποίο επιτρέπει τον προσδιορισμό της γλώσσας που χρησιμοποιείται. Εκείνοι. το σύστημα μπορεί να αναγνωρίσει αυτόματα τη γλώσσα στην οποία παρέχονται οι πληροφορίες και να τις μεταφράσει στη γλώσσα του χρήστη.

Η μετάφραση υποστηρίζεται προς οποιαδήποτε κατεύθυνση, μεταξύ οποιασδήποτε από τις 200 υποστηριζόμενες γλώσσες. Για να επιβεβαιωθεί η ποιότητα της μετάφρασης μεταξύ οποιωνδήποτε γλωσσών, ετοιμάστηκε το σετ δοκιμής αναφοράς FLORES-200, το οποίο έδειξε ότι το μοντέλο NLLB-200, όσον αφορά την ποιότητα μετάφρασης, είναι κατά μέσο όρο 44% ανώτερο από τα προηγούμενα προτεινόμενα ερευνητικά συστήματα που βασίζονται στη μηχανική μάθηση. όταν χρησιμοποιείτε μετρήσεις BLEU που συγκρίνουν τη μηχανική μετάφραση με την τυπική ανθρώπινη μετάφραση. Για τις σπάνιες αφρικανικές γλώσσες και τις ινδικές διαλέκτους, η υπεροχή σε ποιότητα φτάνει το 70%. Είναι της μόδας να αξιολογείτε οπτικά την ποιότητα της μετάφρασης σε έναν ειδικά προετοιμασμένο ιστότοπο επίδειξης.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο