Facebook publikon modelin e përkthimit me makinë që mbështet 200 gjuhë

Facebook (i ndaluar në Federatën Ruse) ka publikuar zhvillimet e projektit NLLB (No Language Left Behind), që synon krijimin e një modeli universal të mësimit të makinerive për përkthimin e drejtpërdrejtë të tekstit nga një gjuhë në tjetrën, duke anashkaluar përkthimin e ndërmjetëm në anglisht. Modeli i propozuar mbulon më shumë se 200 gjuhë, duke përfshirë gjuhë të rralla të popujve afrikanë dhe australianë. Qëllimi përfundimtar i projektit është të sigurojë një mjet komunikimi për çdo popull, pavarësisht nga gjuha që ata flasin.

Modeli është i licencuar sipas një licence Creative Commons BY-NC 4.0, e cila lejon kopjimin, rishpërndarjen, personalizimin dhe veprat e derivuara, me kusht që të jepni atribut, të ruani licencën dhe ta përdorni atë vetëm për qëllime jo komerciale. Mjetet për të punuar me modele ofrohen nën licencën MIT. Për të stimuluar zhvillimin duke përdorur modelin NLLB, u vendos që të ndahen 200 mijë dollarë për të ofruar grante për studiuesit.

Për të thjeshtuar krijimin e projekteve duke përdorur modelin e propozuar, kodin e aplikacioneve të përdorura për testimin dhe vlerësimin e cilësisë së modeleve (FLORES-200, NLLB-MD, Toxicity-200), kodin për modelet e trajnimit dhe koduesit bazuar në bibliotekën LASER3 ( Gjuha-Fjalia agnostike) janë gjithashtu me burim të hapur. Përfaqësimi). Modeli përfundimtar ofrohet në dy versione - të plotë dhe të shkurtuar. Versioni i shkurtuar kërkon më pak burime dhe është i përshtatshëm për testim dhe përdorim në projekte kërkimore.

Ndryshe nga sistemet e tjera të përkthimit të bazuara në sistemet e mësimit të makinerive, zgjidhja e Facebook është e dukshme në atë që ofron një model të përgjithshëm për të gjitha 200 gjuhët, duke mbuluar të gjitha gjuhët dhe duke mos kërkuar përdorimin e modeleve të veçanta për secilën gjuhë. Përkthimi kryhet drejtpërdrejt nga gjuha burimore në gjuhën e synuar, pa përkthim të ndërmjetëm në anglisht. Për të krijuar sisteme universale përkthimi, propozohet gjithashtu një model LID (Language IDentification), i cili bën të mundur përcaktimin e gjuhës së përdorur. Ato. sistemi mund të njohë automatikisht në cilën gjuhë është dhënë informacioni dhe ta përkthejë atë në gjuhën e përdoruesit.

Përkthimi mbështetet në çdo drejtim, midis ndonjë prej 200 gjuhëve të mbështetura. Për të konfirmuar cilësinë e përkthimit midis çdo gjuhe, u përgatit grupi i testit të referencës FLORES-200, i cili tregoi se modeli NLLB-200 për sa i përket cilësisë së përkthimit është mesatarisht 44% më i lartë se sistemet kërkimore të propozuara më parë të bazuara në mësimin e makinerive kur përdoret. Metrikat BLEU që krahasojnë përkthimin me makinë me përkthimin standard njerëzor. Për gjuhët e rralla afrikane dhe dialektet indiane, epërsia e cilësisë arrin në 70%. Është e mundur të vlerësohet vizualisht cilësia e përkthimit në një sit demo të përgatitur posaçërisht.

Burimi: opennet.ru

Shto një koment