Facebook publică un model de traducere automată care acceptă 200 de limbi

Facebook (interzis în Federația Rusă) a publicat evoluțiile proiectului NLLB (No Language Left Behind), care vizează crearea unui model universal de învățare automată pentru traducerea directă a textului dintr-o limbă în alta, ocolind traducerea intermediară în engleză. Modelul propus acoperă peste 200 de limbi, inclusiv limbi rare ale popoarelor africane și australiene. Scopul final al proiectului este de a oferi un mijloc de comunicare pentru orice popor, indiferent de limba pe care o vorbesc.

Modelul este licențiat sub o licență Creative Commons BY-NC 4.0, care permite copierea, redistribuirea, personalizarea și lucrările derivate, cu condiția să acordați atribuire, să mențineți licența și să o utilizați numai în scopuri necomerciale. Instrumentele pentru lucrul cu modelele sunt furnizate sub licența MIT. Pentru a stimula dezvoltarea folosind modelul NLLB, s-a decis alocarea de 200 de mii de dolari pentru a oferi granturi cercetătorilor.

Pentru a simplifica crearea proiectelor folosind modelul propus, codul de aplicații utilizat pentru testarea și evaluarea calității modelelor (FLORES-200, NLLB-MD, Toxicity-200), codul de antrenament al modelelor și codificatoarele bazate pe biblioteca LASER3 ( Language-Agnostic Sentence) sunt în plus open source. Reprezentare). Modelul final este oferit în două versiuni - complet și scurtat. Versiunea scurtată necesită mai puține resurse și este potrivită pentru testare și utilizare în proiecte de cercetare.

Spre deosebire de alte sisteme de traducere bazate pe sisteme de învățare automată, soluția Facebook se remarcă prin faptul că oferă un model general pentru toate cele 200 de limbi, care acoperă toate limbile și nu necesită utilizarea de modele separate pentru fiecare limbă. Traducerea se realizează direct din limba sursă în limba țintă, fără traducere intermediară în limba engleză. Pentru a crea sisteme universale de traducere, este propus suplimentar un model LID (Language IDentification), care face posibilă determinarea limbii utilizate. Acestea. sistemul poate recunoaște automat în ce limbă sunt furnizate informațiile și le poate traduce în limba utilizatorului.

Traducerea este acceptată în orice direcție, între oricare dintre cele 200 de limbi acceptate. Pentru a confirma calitatea traducerii între orice limbă, a fost pregătit setul de teste de referință FLORES-200, care a arătat că modelul NLLB-200 în ceea ce privește calitatea traducerii este în medie cu 44% superior sistemelor de cercetare bazate pe învățarea automată propuse anterior atunci când se utilizează Valori BLEU care compară traducerea automată cu traducerea umană standard. Pentru limbile africane rare și dialectele indiene, superioritatea calității ajunge la 70%. Este posibil să se evalueze vizual calitatea traducerii pe un site demo special pregătit.

Sursa: opennet.ru

Adauga un comentariu