Facebook модели тарҷумаи мошиниро нашр мекунад, ки 200 забонро дастгирӣ мекунад

Facebook (дар Федератсияи Русия мамнӯъ) таҳияи лоиҳаи NLLB (No Language Left Behind) -ро нашр кард, ки ба эҷоди модели универсалии омӯзиши мошинсозӣ барои мустақиман тарҷумаи матн аз як забон ба забони дигар, аз байн бурдани тарҷумаи мобайнӣ ба забони англисӣ нигаронида шудааст. Модели пешниҳодшуда беш аз 200 забон, аз ҷумла забонҳои нодири халқҳои Африқо ва Австралияро дар бар мегирад. Ҳадафи ниҳоии лоиҳа фароҳам овардани воситаи муошират барои ҳама одамон, новобаста аз забони онҳост.

Модели мазкур тибқи иҷозатномаи Creative Commons BY-NC 4.0 иҷозатнома дорад, ки он ба нусхабардорӣ, дубора тақсим кардан, мутобиқсозӣ ва корҳои ҳосилшуда иҷозат медиҳад, ба шарте ки шумо аттрибутсия диҳед, литсензияро нигоҳ доред ва онро танҳо барои мақсадҳои ғайритиҷоратӣ истифода баред. Асбобҳо барои кор бо моделҳо тибқи иҷозатномаи MIT таъмин карда мешаванд. Барои ҳавасмандгардонии рушд бо истифода аз модели NLLB тасмим гирифта шуд, ки барои додани грантҳо ба тадқиқотчиён 200 ҳазор доллар ҷудо карда шавад.

Барои содда кардани эҷоди лоиҳаҳо бо истифода аз модели пешниҳодшуда, рамзи барномаҳое, ки барои санҷиш ва арзёбии сифати моделҳо истифода мешаванд (FLORES-200, NLLB-MD, Toxicity-200), коди моделҳои таълимӣ ва кодгузорҳо дар асоси китобхонаи LASER3 ( Language-Agnostic Sentence) ба таври илова манбаи кушода мебошанд. Намояндагӣ). Модели ниҳоӣ дар ду версия пешниҳод карда мешавад - пурра ва кӯтоҳ. Версияи кӯтоҳшуда захираҳои камтарро талаб мекунад ва барои озмоиш ва истифода дар лоиҳаҳои тадқиқотӣ мувофиқ аст.

Баръакси дигар системаҳои тарҷума дар асоси системаҳои омӯзиши мошинсозӣ, ҳалли Facebook аз он иборат аст, ки он як модели умумиро барои ҳамаи 200 забон пешниҳод мекунад, ки ҳамаи забонҳоро фаро мегирад ва истифодаи моделҳои алоҳидаро барои ҳар як забон талаб намекунад. Тарҷума бевосита аз забони сарчашма ба забони мавриди ҳадаф, бидуни тарҷумаи мобайнӣ ба забони англисӣ сурат мегирад. Барои эҷоди системаҳои тарҷумаи универсалӣ модели LID (Language Identification) ба таври иловагӣ пешниҳод карда мешавад, ки имкон медиҳад забони истифодашаванда муайян карда шавад. Онхое. система метавонад ба таври худкор дар кадом забон маълумот пешниҳод карда шавад ва онро ба забони корбар тарҷума кунад.

Тарҷума дар ҳама гуна самт, дар байни ҳар яке аз 200 забони дастгиришаванда дастгирӣ карда мешавад. Барои тасдиқи сифати тарҷума байни ҳама гуна забонҳо маҷмӯи санҷиши FLORES-200 омода карда шуд, ки он нишон дод, ки модели NLLB-200 аз ҷиҳати сифати тарҷума ба ҳисоби миёна 44% аз системаҳои тадқиқотии қаблан пешниҳодшуда дар асоси омӯзиши мошинсозӣ ҳангоми истифодаи Метрикҳои BLEU муқоисаи тарҷумаи мошин бо тарҷумаи стандартии инсон. Барои забонҳои нодири африқоӣ ва лаҳҷаҳои ҳиндӣ, бартарии сифат ба 70% мерасад. Сифати тарҷумаро дар сайти намоишии махсус омодашуда ба таври визуалӣ арзёбӣ кардан мумкин аст.

Манбаъ: opennet.ru

Илова Эзоҳ