Facebook publiserer maskinoversettelsesmodell som støtter 200 språk

Facebook (forbudt i den russiske føderasjonen) har publisert utviklingen av NLLB (No Language Left Behind)-prosjektet, som tar sikte på å lage en universell maskinlæringsmodell for direkte oversettelse av tekst fra ett språk til et annet, utenom mellomliggende oversettelse til engelsk. Den foreslåtte modellen dekker mer enn 200 språk, inkludert sjeldne språk fra afrikanske og australske folk. Det endelige målet med prosjektet er å gi et middel for kommunikasjon for alle mennesker, uavhengig av språket de snakker.

Modellen er lisensiert under en Creative Commons BY-NC 4.0-lisens, som tillater kopiering, redistribuering, tilpasning og avledede verk, forutsatt at du gir attribusjon, vedlikeholder lisensen og bruker den kun til ikke-kommersielle formål. Verktøy for å jobbe med modeller leveres under MIT-lisensen. For å stimulere til utvikling ved hjelp av NLLB-modellen ble det besluttet å bevilge 200 tusen dollar til å gi tilskudd til forskere.

For å forenkle opprettelsen av prosjekter ved hjelp av den foreslåtte modellen, koden for applikasjoner som brukes til å teste og vurdere kvaliteten på modellene (FLORES-200, NLLB-MD, Toxicity-200), koden for treningsmodeller og kodere basert på LASER3-biblioteket ( Language-Agnostic SEntence) er i tillegg åpen kildekode. Representasjon). Den endelige modellen tilbys i to versjoner - full og forkortet. Den forkortede versjonen krever færre ressurser og egner seg for testing og bruk i forskningsprosjekter.

I motsetning til andre oversettelsessystemer basert på maskinlæringssystemer, er Facebooks løsning bemerkelsesverdig ved at den tilbyr én generell modell for alle 200 språk, som dekker alle språk og ikke krever bruk av separate modeller for hvert språk. Oversettelsen utføres direkte fra kildespråket til målspråket, uten mellomliggende oversettelse til engelsk. For å lage universelle oversettelsessystemer, er det i tillegg foreslått en LID-modell (Language IDentification), som lar en bestemme språket som brukes. De. systemet kan automatisk gjenkjenne på hvilket språk informasjonen er gitt og oversette den til brukerens språk.

Oversettelse støttes i alle retninger, mellom alle de 200 støttede språkene. For å bekrefte kvaliteten på oversettelsen mellom alle språk, ble FLORES-200 referansetestsettet utarbeidet, som viste at NLLB-200-modellen når det gjelder oversettelseskvalitet i gjennomsnitt er 44 % bedre enn tidligere foreslåtte maskinlæringsbaserte forskningssystemer ved bruk BLEU-beregninger som sammenligner maskinoversettelse med standard menneskelig oversettelse. For sjeldne afrikanske språk og indiske dialekter når kvalitetsoverlegenheten 70%. Det er mulig å visuelt evaluere kvaliteten på oversettelsen på en spesiallaget demoside.

Kilde: opennet.ru

Legg til en kommentar