A Facebook gépi fordítási modellt tesz közzé, amely 200 nyelvet támogat

Az Orosz Föderációban betiltott Facebook közzétette az NLLB (No Language Left Behind) projekt fejlesztéseit, amelynek célja egy univerzális gépi tanulási modell létrehozása a szövegek egyik nyelvről a másikra történő közvetlen fordítására, megkerülve az angolra történő köztes fordítást. A javasolt modell több mint 200 nyelvet fed le, köztük az afrikai és ausztrál népek ritka nyelveit. A projekt végső célja, hogy kommunikációs eszközt biztosítson minden ember számára, függetlenül attól, hogy milyen nyelven beszélnek.

A modell licence a Creative Commons BY-NC 4.0 licenc alatt áll, amely lehetővé teszi a művek másolását, újraterjesztését, testreszabását és származékos munkáit, feltéve, hogy Ön megadja a forrásmegjelölést, fenntartja a licencet, és csak nem kereskedelmi célokra használja. A modellekkel való munkavégzéshez szükséges eszközöket az MIT licence biztosítja. Az NLLB-modell segítségével történő fejlesztés ösztönzésére úgy döntöttek, hogy 200 ezer dollárt különítenek el a kutatók támogatására.

A javasolt modellt használó projektek létrehozásának egyszerűsítése érdekében a modellek tesztelésére és minőségének értékelésére szolgáló alkalmazások kódja (FLORES-200, NLLB-MD, Toxicity-200), a LASER3 könyvtáron alapuló képzési modellek és kódolók kódja ( Language-Agnostic SEtence) emellett nyílt forráskódú. Képviselet). A végleges modellt két változatban kínálják - teljes és rövidített. A rövidített változat kevesebb erőforrást igényel, és alkalmas tesztelésre és kutatási projektekben történő felhasználásra.

Más, gépi tanulási rendszereken alapuló fordítórendszerekkel ellentétben a Facebook megoldása figyelemre méltó, hogy mind a 200 nyelvhez egy általános modellt kínál, amely minden nyelvet lefed, és nem igényli minden nyelvhez külön modell használatát. A fordítás közvetlenül a forrásnyelvről a célnyelvre történik, közbenső fordítás nélkül angolra. Az univerzális fordítórendszerek létrehozásához egy LID modell (Language Identification) is javasolt, amely lehetővé teszi a használt nyelv meghatározását. Azok. a rendszer automatikusan felismeri, hogy az információt milyen nyelven szolgáltatja, és le tudja fordítani a felhasználó nyelvére.

A fordítás bármely irányba támogatott, a 200 támogatott nyelv bármelyike ​​között. A nyelvek közötti fordítás minőségének igazolására elkészítettük a FLORES-200 referencia tesztkészletet, amely kimutatta, hogy az NLLB-200 modell a fordítás minőségét tekintve átlagosan 44%-kal jobb a korábban javasolt gépi tanuláson alapuló kutatási rendszereknél. A BLEU mérőszámai összehasonlítják a gépi fordítást a szabványos emberi fordítással. Ritka afrikai nyelvek és indiai dialektusok esetében a minőségi fölény eléri a 70%-ot. Lehetőség van a fordítás minőségének vizuális értékelésére egy speciálisan elkészített bemutató oldalon.

Forrás: opennet.ru

Hozzászólás