Az Orosz Föderációban betiltott Facebook közzétette az NLLB (No Language Left Behind) projekt fejlesztéseit, amelynek célja egy univerzális gépi tanulási modell létrehozása a szövegek egyik nyelvről a másikra történő közvetlen fordítására, megkerülve az angolra történő köztes fordítást. A javasolt modell több mint 200 nyelvet fed le, köztük az afrikai és ausztrál népek ritka nyelveit. A projekt végső célja, hogy kommunikációs eszközt biztosítson minden ember számára, függetlenül attól, hogy milyen nyelven beszélnek.
A modell licence a Creative Commons BY-NC 4.0 licenc alatt áll, amely lehetővé teszi a művek másolását, újraterjesztését, testreszabását és származékos munkáit, feltéve, hogy Ön megadja a forrásmegjelölést, fenntartja a licencet, és csak nem kereskedelmi célokra használja. A modellekkel való munkavégzéshez szükséges eszközöket az MIT licence biztosítja. Az NLLB-modell segítségével történő fejlesztés ösztönzésére úgy döntöttek, hogy 200 ezer dollárt különítenek el a kutatók támogatására.
A javasolt modellt használó projektek létrehozásának egyszerűsítése érdekében a modellek tesztelésére és minőségének értékelésére szolgáló alkalmazások kódja (FLORES-200, NLLB-MD, Toxicity-200), a LASER3 könyvtáron alapuló képzési modellek és kódolók kódja ( Language-Agnostic SEtence) emellett nyílt forráskódú. Képviselet). A végleges modellt két változatban kínálják - teljes és rövidített. A rövidített változat kevesebb erőforrást igényel, és alkalmas tesztelésre és kutatási projektekben történő felhasználásra.
Más, gépi tanulási rendszereken alapuló fordítórendszerekkel ellentétben a Facebook megoldása figyelemre méltó, hogy mind a 200 nyelvhez egy általános modellt kínál, amely minden nyelvet lefed, és nem igényli minden nyelvhez külön modell használatát. A fordítás közvetlenül a forrásnyelvről a célnyelvre történik, közbenső fordítás nélkül angolra. Az univerzális fordítórendszerek létrehozásához egy LID modell (Language Identification) is javasolt, amely lehetővé teszi a használt nyelv meghatározását. Azok. a rendszer automatikusan felismeri, hogy az információt milyen nyelven szolgáltatja, és le tudja fordítani a felhasználó nyelvére.
A fordítás bármely irányba támogatott, a 200 támogatott nyelv bármelyike között. A nyelvek közötti fordítás minőségének igazolására elkészítettük a FLORES-200 referencia tesztkészletet, amely kimutatta, hogy az NLLB-200 modell a fordítás minőségét tekintve átlagosan 44%-kal jobb a korábban javasolt gépi tanuláson alapuló kutatási rendszereknél. A BLEU mérőszámai összehasonlítják a gépi fordítást a szabványos emberi fordítással. Ritka afrikai nyelvek és indiai dialektusok esetében a minőségi fölény eléri a 70%-ot. Lehetőség van a fordítás minőségének vizuális értékelésére egy speciálisan elkészített bemutató oldalon.
Forrás: opennet.ru