Facebook nyebarkeun modél tarjamahan mesin anu ngadukung 200 basa

Facebook (dilarang di Féderasi Rusia) parantos nyebarkeun pamekaran proyék NLLB (No Language Left Behind), tujuanana pikeun nyiptakeun modél pembelajaran mesin universal pikeun langsung narjamahkeun téks tina hiji basa ka basa sanés, ngalangkungan tarjamahan panengah kana basa Inggris. Modél anu diusulkeun nyertakeun langkung ti 200 basa, kalebet basa langka masarakat Afrika sareng Australia. Tujuan pamungkas tina proyék nyaéta nyadiakeun sarana pikeun komunikasi pikeun sagala jalma, paduli basa aranjeunna nyarita.

Modél ieu dilisensikeun dina lisénsi Creative Commons BY-NC 4.0, anu ngamungkinkeun pikeun nyalin, distribusi ulang, kustomisasi, sareng karya turunan, upami anjeun masihan atribusi, ngajaga lisénsi, sareng dianggo pikeun tujuan non-komersial wungkul. Alat pikeun gawé bareng modél disayogikeun dina lisénsi MIT. Pikeun merangsang pangwangunan ngagunakeun modél NLLB, diputuskeun pikeun nyayogikeun $ 200 rébu pikeun masihan hibah ka peneliti.

Pikeun nyederhanakeun kreasi proyék nganggo modél anu diusulkeun, kode aplikasi anu dianggo pikeun nguji sareng meunteun kualitas modél (FLORES-200, NLLB-MD, Toxicity-200), kode pikeun modél latihan sareng encoder dumasar kana perpustakaan LASER3 ( Kalimah Basa-Agnostik) mangrupakeun tambahan open source. Representasi). Modél final ditawarkeun dina dua versi - pinuh sarta pondok. Versi anu disinggetkeun meryogikeun langkung seueur sumber daya sareng cocog pikeun nguji sareng dianggo dina proyék panalungtikan.

Beda sareng sistem tarjamahan anu sanés dumasar kana sistem pembelajaran mesin, solusi Facebook kasohor sabab nawiskeun hiji modél umum pikeun sadaya 200 basa, nyertakeun sadaya basa sareng henteu meryogikeun panggunaan modél anu misah pikeun unggal basa. Tarjamahan dilaksanakeun langsung tina basa sumber kana basa sasaran, tanpa tarjamahan panengah kana basa Inggris. Pikeun nyieun sistem tarjamah universal, model LID (Language Identification) ogé diajukeun, anu ngamungkinkeun pikeun nangtukeun basa anu digunakeun. Jelema. sistem bisa otomatis mikawanoh dina basa mana informasi disadiakeun jeung narjamahkeun kana basa pamaké.

Tarjamahan dirojong ka mana waé, antara 200 basa anu dirojong. Pikeun ngonfirmasi kualitas tarjamahan antara basa naon waé, set tés rujukan FLORES-200 parantos disiapkeun, anu nunjukkeun yén modél NLLB-200 dina hal kualitas tarjamah rata-rata 44% langkung luhur tibatan sistem panalungtikan dumasar-mesin anu diusulkeun saacanna nalika ngagunakeun. Métrik BLEU ngabandingkeun tarjamahan mesin sareng tarjamahan manusa standar. Pikeun basa Afrika langka sareng dialek India, kaunggulan kualitas ngahontal 70%. Kasebut nyaéta dimungkinkeun pikeun ngevaluasi sacara visual kualitas tarjamahan dina situs demo anu disiapkeun khusus.

sumber: opennet.ru

Tambahkeun komentar