Facebook har udgivet en model til maskinoversættelse, der understøtter 200 sprog

Facebook (forbudt i Den Russiske Føderation) har offentliggjort udviklingen af ​​NLLB-projektet (No Language Left Behind), der har til formål at skabe en universel maskinlæringsmodel til direkte oversættelse af tekst fra et sprog til et andet, uden at den mellemliggende oversættelse til engelsk. Den foreslåede model dækker mere end 200 sprog, herunder sjældne afrikanske og australske sprog. Det ultimative mål med projektet er at skabe et kommunikationsmiddel for alle mennesker, uanset hvilket sprog de taler.

Modellen er tilgængelig under en Creative Commons BY-NC 4.0-licens, som tillader kopiering, distribution, inklusion i dine projekter og oprettelse af afledte værker, men med forbehold for tilskrivning, bibeholdelse af licensen og kun brug til ikke-kommercielle formål. Modelleringsværktøjet er licenseret under MIT-licensen. For at stimulere udviklingen ved hjælp af NLLB-modellen blev det besluttet at bevilge 200 tusind dollars til at yde bevillinger til forskere.

For at forenkle oprettelsen af ​​projekter ved hjælp af den foreslåede model, koden for applikationer, der bruges til at teste og evaluere kvaliteten af ​​modeller (FLORES-200, NLLB-MD, Toxicity-200), koden til træningsmodeller og indkodere baseret på LASER3-biblioteket (Sprog-agnostisk sætningsrepræsentation). Den endelige model tilbydes i to versioner - fuld og reduceret. Den reducerede version kræver færre ressourcer og er velegnet til test og brug i forskningsprojekter.

I modsætning til andre maskinlæringsbaserede oversættelsessystemer er Facebooks løsning bemærkelsesværdig ved at tilbyde én fælles model for alle 200 sprog, der dækker alle sprog og ikke kræver separate modeller for hvert sprog. Oversættelse udføres direkte fra kilden til målsproget, uden mellemliggende oversættelse til engelsk. For at skabe universelle oversættelsessystemer foreslås en yderligere LID-model (Language IDentification), som gør det muligt at bestemme det anvendte sprog. De der. systemet kan automatisk genkende det sprog, som informationen er givet på, og oversætte det til brugerens sprog.

Oversættelse understøttes i alle retninger, mellem et hvilket som helst af de understøttede 200 sprog. For at bekræfte kvaliteten af ​​oversættelse mellem alle sprog blev FLORES-200-referencetestsættet udarbejdet, som viste, at NLLB-200-modellen, hvad angår oversættelseskvalitet, i gennemsnit er 44 % bedre end tidligere foreslåede forskningssystemer baseret på maskinlæring når du bruger BLEU-metrikker, der sammenligner maskinoversættelse med standard menneskelig oversættelse. For sjældne afrikanske sprog og indiske dialekter når overlegenheden i kvalitet 70%. Det er på mode visuelt at evaluere kvaliteten af ​​oversættelsen på et specielt forberedt demoside.

Kilde: opennet.ru

Tilføj en kommentar