Facebook publicerar en maskinöversättningsmodell som stöder 200 språk

Facebook (förbjudet i Ryska federationen) har publicerat utvecklingen av NLLB-projektet (No Language Left Behind), som syftar till att skapa en universell maskininlärningsmodell för att direkt översätta text från ett språk till ett annat, och kringgå mellanliggande översättning till engelska. Den föreslagna modellen omfattar mer än 200 språk, inklusive sällsynta språk från afrikanska och australiska folk. Det slutliga målet med projektet är att tillhandahålla ett sätt för kommunikation för alla människor, oavsett vilket språk de talar.

Modellen är licensierad under en Creative Commons BY-NC 4.0-licens, som tillåter kopiering, omdistribution, anpassning och härledda verk, förutsatt att du ger attribution, underhåller licensen och använder den endast för icke-kommersiella ändamål. Verktyg för att arbeta med modeller tillhandahålls under MIT-licensen. För att stimulera utveckling med hjälp av NLLB-modellen beslutades att anslå 200 XNUMX USD för att ge bidrag till forskare.

För att förenkla skapandet av projekt med hjälp av den föreslagna modellen, koden för applikationer som används för att testa och bedöma kvaliteten på modeller (FLORES-200, NLLB-MD, Toxicity-200), kod för träningsmodeller och kodare baserade på LASER3-biblioteket ( Language-Agnostic SEntence) är dessutom öppen källkod. Representation). Den slutliga modellen erbjuds i två versioner - full och förkortad. Den förkortade versionen kräver mindre resurser och lämpar sig för testning och användning i forskningsprojekt.

Till skillnad från andra översättningssystem baserade på maskininlärningssystem är Facebooks lösning anmärkningsvärd genom att den erbjuder en generell modell för alla 200 språk, som täcker alla språk och inte kräver användning av separata modeller för varje språk. Översättning utförs direkt från källspråket till målspråket, utan mellanliggande översättning till engelska. För att skapa universella översättningssystem föreslås dessutom en LID-modell (Language IDentification), som gör det möjligt att bestämma vilket språk som används. De där. systemet kan automatiskt känna igen på vilket språk informationen tillhandahålls och översätta den till användarens språk.

Översättning stöds i alla riktningar, mellan vilket som helst av de 200 språken som stöds. För att bekräfta kvaliteten på översättningen mellan alla språk utarbetades FLORES-200-referenstestset, som visade att NLLB-200-modellen när det gäller översättningskvalitet i genomsnitt är 44 % överlägsen tidigare föreslagna maskininlärningsbaserade forskningssystem vid användning av BLEU-mått som jämför maskinöversättning med standard mänsklig översättning. För sällsynta afrikanska språk och indiska dialekter når kvalitetsöverlägsenheten 70%. Det är möjligt att visuellt utvärdera kvaliteten på översättningen på en speciellt förberedd demosida.

Källa: opennet.ru

Lägg en kommentar