Facebook gefur út vélþýðingarlíkan sem styður 200 tungumál

Facebook (bannað í Rússlandi) hefur birt þróun NLLB (No Language Left Behind) verkefnið, sem miðar að því að búa til alhliða vélanámslíkan til að þýða texta beint frá einu tungumáli yfir á annað, framhjá milliþýðingum á ensku. Fyrirhugað líkan nær yfir meira en 200 tungumál, þar á meðal sjaldgæf tungumál afrískra og ástralskra þjóða. Lokamarkmið verkefnisins er að skapa samskiptamáta fyrir fólk, óháð því tungumáli sem það talar.

Líkanið er með leyfi samkvæmt Creative Commons BY-NC 4.0 leyfi, sem leyfir afritun, endurdreifingu, sérsníða og afleidd verk, að því tilskildu að þú gefur til kynna, viðhalda leyfinu og nota það eingöngu í óviðskiptalegum tilgangi. Verkfæri til að vinna með módel eru veitt undir MIT leyfinu. Til að örva þróun með NLLB líkaninu var ákveðið að úthluta 200 þúsund dala til að veita rannsakendum styrki.

Til að einfalda gerð verkefna með því að nota fyrirhugaða líkan, kóðinn fyrir forrit sem notuð eru til að prófa og meta gæði líkana (FLORES-200, NLLB-MD, Toxicity-200), kóða fyrir þjálfunarlíkön og kóðara sem byggjast á LASER3 bókasafninu ( Language-Agnostic SEntence) eru að auki opinn uppspretta. Framsetning). Lokagerðin er boðin í tveimur útgáfum - fullri og styttri. Stytta útgáfan krefst minna fjármagns og hentar vel til prófunar og notkunar í rannsóknarverkefnum.

Ólíkt öðrum þýðingarkerfum sem byggja á vélanámskerfum er lausn Facebook athyglisverð að því leyti að hún býður upp á eina almenna gerð fyrir öll 200 tungumálin, sem nær yfir öll tungumál og krefst ekki notkunar á sérstökum gerðum fyrir hvert tungumál. Þýðing fer fram beint frá frummálinu yfir á markmálið, án milliþýðingar á ensku. Til að búa til alhliða þýðingarkerfi er einnig lagt til LID líkan (Language IDentification) sem gerir það mögulegt að ákvarða tungumálið sem notað er. Þeir. kerfið getur sjálfkrafa greint á hvaða tungumáli upplýsingarnar eru gefnar og þýtt þær yfir á tungumál notandans.

Þýðing er studd í hvaða átt sem er, á milli hvaða 200 tungumála sem studd er. Til að staðfesta gæði þýðinga á milli hvaða tungumála sem er var FLORES-200 viðmiðunarprófunarsettið útbúið sem sýndi að NLLB-200 líkanið hvað varðar þýðingargæði er að meðaltali 44% betri en áður fyrirhuguð rannsóknarkerfi sem byggjast á vélnámi þegar þau eru notuð. BLEU mæligildi sem bera saman vélþýðingu við staðlaða mannlega þýðingar. Fyrir sjaldgæf afrísk tungumál og indversk mállýskur ná gæðayfirburðir 70%. Það er hægt að sjónrænt meta gæði þýðingarinnar á sérútbúinni kynningarsíðu.

Heimild: opennet.ru

Bæta við athugasemd