Mae Facebook wedi cyhoeddi model ar gyfer cyfieithu peirianyddol sy'n cefnogi 200 o ieithoedd

Mae Facebook (a waharddwyd yn Ffederasiwn Rwsia) wedi cyhoeddi datblygiadau prosiect NLLB (No Language Left Behind), gyda'r nod o greu model dysgu peirianyddol cyffredinol ar gyfer cyfieithu testun yn uniongyrchol o un iaith i'r llall, gan osgoi'r cyfieithiad canolradd i'r Saesneg. Mae'r model arfaethedig yn cwmpasu mwy na 200 o ieithoedd, gan gynnwys ieithoedd Affricanaidd ac Awstralia prin. Nod y prosiect yn y pen draw yw darparu cyfrwng cyfathrebu i bawb, waeth pa iaith y maent yn ei siarad.

Mae’r model ar gael o dan drwydded Creative Commons BY-NC 4.0, sy’n caniatáu copïo, dosbarthu, cynnwys yn eich prosiectau a chreu gweithiau deilliadol, ond yn amodol ar briodoli, cadw trwydded a defnydd at ddibenion anfasnachol yn unig. Mae'r Offeryn Modelu wedi'i drwyddedu o dan y drwydded MIT. Er mwyn ysgogi datblygiad gan ddefnyddio model NLLB, penderfynwyd dyrannu 200 mil o ddoleri i ddarparu grantiau i ymchwilwyr.

Er mwyn symleiddio'r broses o greu prosiectau gan ddefnyddio'r model arfaethedig, y cod cymwysiadau a ddefnyddir i brofi a gwerthuso ansawdd modelau (FLORES-200, NLLB-MD, Toxicity-200), y cod ar gyfer modelau hyfforddi ac amgodyddion yn seiliedig ar lyfrgell LASER3 (Cynrychiolaeth Iaith-Agnostig Dedfrydu). Cynigir y model terfynol mewn dwy fersiwn - llawn a llai. Mae angen llai o adnoddau ar gyfer y fersiwn lai ac mae'n addas i'w brofi a'i ddefnyddio mewn prosiectau ymchwil.

Yn wahanol i systemau cyfieithu peirianyddol eraill, mae datrysiad Facebook yn nodedig am gynnig un model cyffredin ar gyfer pob un o’r 200 o ieithoedd, sy’n cwmpasu pob iaith a heb fod angen modelau ar wahân ar gyfer pob iaith. Cyfieithir yn uniongyrchol o'r ffynhonnell i'r iaith darged, heb gyfieithu canolradd i'r Saesneg. Er mwyn creu systemau cyfieithu cyffredinol, cynigir model LID ychwanegol (Adnabod Iaith), sy'n caniatáu pennu'r iaith a ddefnyddir. Y rhai. gall y system adnabod yn awtomatig ym mha iaith y darperir y wybodaeth a'i chyfieithu i iaith y defnyddiwr.

Cefnogir cyfieithu i unrhyw gyfeiriad, rhwng unrhyw un o'r 200 o ieithoedd a gefnogir. I gadarnhau ansawdd y cyfieithu rhwng unrhyw ieithoedd, paratowyd set prawf cyfeirio FLORES-200, a ddangosodd fod model NLLB-200, o ran ansawdd cyfieithu, ar gyfartaledd 44% yn well na systemau ymchwil arfaethedig yn seiliedig ar ddysgu peirianyddol. wrth ddefnyddio metrigau BLEU sy'n cymharu cyfieithu peirianyddol â chyfieithiad dynol safonol. Ar gyfer ieithoedd Affricanaidd prin a thafodieithoedd Indiaidd, mae'r rhagoriaeth mewn ansawdd yn cyrraedd 70%. Mae'n ffasiynol asesu ansawdd y cyfieithiad yn weledol ar safle demo a baratowyd yn arbennig.

Ffynhonnell: opennet.ru

Ychwanegu sylw