Gipatik sa Facebook ang usa ka modelo alang sa paghubad sa makina nga nagsuporta sa 200 nga mga pinulongan

Ang Facebook (gidili sa Russian Federation) nagpatik sa mga kalamboan sa NLLB (No Language Left Behind) nga proyekto, nga gitumong sa paghimo sa usa ka universal machine learning model alang sa direktang paghubad sa teksto gikan sa usa ka lengguwahe ngadto sa lain, sa paglaktaw sa intermediate nga paghubad ngadto sa English. Ang gisugyot nga modelo naglangkob sa labaw sa 200 ka mga pinulongan, lakip ang talagsaon nga mga pinulongan sa Africa ug Australia. Ang katapusang tumong sa proyekto mao ang paghatag ug paagi sa komunikasyon alang sa tanang tawo, bisan unsa pa ang ilang pinulongan.

Ang modelo anaa ubos sa usa ka Creative Commons BY-NC 4.0 nga lisensya, nga nagtugot sa pagkopya, pag-apod-apod, paglakip sa imong mga proyekto ug paghimo sa mga buhat nga gigikanan, apan gipailalom sa pag-ila, pagpabilin sa lisensya ug paggamit lamang alang sa dili komersyal nga katuyoan. Ang Modeling Tool kay lisensyado ubos sa lisensya sa MIT. Aron mapukaw ang pag-uswag gamit ang modelo sa NLLB, nakahukom nga igahin ang 200 ka libo nga dolyar aron mahatagan ang mga hatag sa mga tigdukiduki.

Aron mapasayon ​​ang paghimo sa mga proyekto gamit ang gisugyot nga modelo, ang code sa mga aplikasyon nga gigamit sa pagsulay ug pagtimbang-timbang sa kalidad sa mga modelo (FLORES-200, NLLB-MD, Toxicity-200), ang code alang sa mga modelo sa pagbansay ug mga encoder base sa LASER3 library (Representasyon sa Pinulongan-Agnostic nga SEntence). Ang katapusan nga modelo gitanyag sa duha ka bersyon - puno ug pagkunhod. Ang gipakunhod nga bersyon nanginahanglan gamay nga kapanguhaan ug angay alang sa pagsulay ug paggamit sa mga proyekto sa panukiduki.

Dili sama sa ubang mga sistema sa paghubad nga gibase sa pagkat-on sa makina, ang solusyon sa Facebook nabantog sa pagtanyag sa usa ka sagad nga modelo alang sa tanan nga 200 nga mga lengguwahe, nga nagsakup sa tanan nga mga sinultian ug wala magkinahanglan ug lahi nga mga modelo alang sa matag pinulongan. Ang paghubad gihimo direkta gikan sa tinubdan ngadto sa target nga pinulongan, nga walay intermediate nga paghubad ngadto sa English. Aron makahimo ug unibersal nga mga sistema sa paghubad, usa ka dugang nga LID-modelo (Language IDentification) ang gisugyot, nga nagtugot sa pagtino sa pinulongan nga gigamit. Mga. ang sistema awtomatik nga makaila sa pinulongan diin ang impormasyon gihatag ug mahubad kini ngadto sa pinulongan sa tiggamit.

Gisuportahan ang paghubad sa bisan unsang direksyon, taliwala sa bisan unsang gisuportahan nga 200 nga mga pinulongan. Aron makumpirma ang kalidad sa paghubad tali sa bisan unsang mga pinulongan, giandam ang FLORES-200 reference test set, nga nagpakita nga ang NLLB-200 nga modelo, sa termino sa kalidad sa paghubad, anaa sa aberids nga 44% nga labaw sa gisugyot kaniadto nga mga sistema sa panukiduki base sa pagkat-on sa makina. kung mogamit ug BLEU metrics nga nagtandi sa paghubad sa makina sa standard nga paghubad sa tawo. Alang sa talagsaon nga mga pinulongan sa Aprika ug mga diyalekto sa India, ang pagkalabaw sa kalidad moabot sa 70%. Kini us aka us aka biswal nga pagtantiya sa kalidad sa paghubad sa usa ka espesyal nga giandam nga demo site.

Source: opennet.ru

Idugang sa usa ka comment