Facebook нь 200 хэлийг дэмждэг машин орчуулгын загварыг нийтэлдэг

Facebook (ОХУ-д хориглогдсон) англи хэл рүү завсрын орчуулгыг алгасаж текстийг нэг хэлээс нөгөө хэл рүү шууд орчуулах бүх нийтийн машин сургалтын загварыг бий болгох зорилготой NLLB (No Language Left Behind) төслийн бүтээн байгуулалтыг нийтэлжээ. Санал болгож буй загвар нь Африк, Австралийн ард түмний ховор хэлийг багтаасан 200 гаруй хэлийг хамардаг. Төслийн эцсийн зорилго нь ямар ч хэлээр ярьдаг хүмүүстэй харилцах хэрэгслээр хангах явдал юм.

Загвар нь Creative Commons BY-NC 4.0 лицензийн дагуу лицензтэй бөгөөд энэ нь хуулбарлах, дахин хуваарилах, өөрчлөх, үүсмэл бүтээл хийх боломжийг олгодог бөгөөд хэрэв та нэр өгөх, лицензийг хадгалах, зөвхөн арилжааны бус зорилгоор ашиглахыг зөвшөөрдөг. Загваруудтай ажиллах хэрэгслийг MIT лицензийн дагуу өгдөг. NLLB загварыг ашиглан хөгжлийг идэвхжүүлэхийн тулд судлаачдад буцалтгүй тусламж олгоход 200 мянган доллар хуваарилахаар шийдсэн.

Санал болгож буй загварыг ашиглан төсөл үүсгэх ажлыг хялбарчлахын тулд загваруудын чанарыг турших, үнэлэхэд ашигладаг програмуудын код (FLORES-200, NLLB-MD, Toxicity-200), LASER3 номын санд суурилсан сургалтын загвар, кодлогчийн код ( Language-Agnostic Sentence) нь нэмэлт нээлттэй эх сурвалж юм.Төлөөлөл). Эцсийн загварыг бүрэн ба богиносгосон хоёр хувилбараар санал болгож байна. Богиносгосон хувилбар нь бага нөөц шаарддаг бөгөөд туршилт, судалгааны төслүүдэд ашиглахад тохиромжтой.

Машин сургалтын системд суурилсан бусад орчуулгын системүүдээс ялгаатай нь Facebook-ийн шийдэл нь бүх хэлийг хамарсан, хэл болгонд тусдаа загвар ашиглах шаардлагагүй 200 хэлний нэг ерөнхий загварыг санал болгодогоороо онцлог юм. Орчуулга нь англи хэл рүү завсрын орчуулгагүйгээр эх хэлнээс зорилтот хэл рүү шууд хийгддэг. Бүх нийтийн орчуулгын системийг бий болгохын тулд LID загварыг (Language IDentification) нэмж санал болгож байгаа бөгөөд энэ нь ашигласан хэлийг тодорхойлох боломжийг олгодог. Тэдгээр. систем нь мэдээллийг аль хэлээр өгч байгааг автоматаар таньж, хэрэглэгчийн хэл рүү хөрвүүлэх боломжтой.

Орчуулга нь дэмжигдсэн 200 хэлний аль ч чиглэлд, аль ч чиглэлд дэмжигддэг. Аль ч хэл хоорондын орчуулгын чанарыг баталгаажуулахын тулд FLORES-200 лавлагаа тестийн багцыг бэлтгэсэн бөгөөд энэ нь орчуулгын чанарын хувьд NLLB-200 загвар нь өмнө нь санал болгож байсан машин сургалтанд суурилсан судалгааны системээс дунджаар 44%-иар илүү болохыг харуулсан. BLEU хэмжүүрүүд нь машин орчуулгатай стандарт хүний ​​орчуулгыг харьцуулдаг. Африкийн ховор хэл, Энэтхэгийн аялгууны хувьд чанарын давуу тал нь 70% хүрдэг. Тусгайлан бэлтгэсэн демо сайт дээр орчуулгын чанарыг нүдээр үнэлэх боломжтой.

Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх