Facebook nerbitake model terjemahan mesin sing ndhukung 200 basa

Facebook (dilarang ing Federasi Rusia) wis nerbitake pangembangan proyek NLLB (No Language Left Behind), kanthi tujuan nggawe model pembelajaran mesin universal kanggo nerjemahake teks saka basa siji menyang basa liyane, ngliwati terjemahan intermediate menyang basa Inggris. Model sing diusulake kalebu luwih saka 200 basa, kalebu basa langka wong Afrika lan Australia. Tujuan utama proyek kasebut yaiku nyedhiyakake sarana komunikasi kanggo sapa wae, ora preduli saka basa sing diucapake.

Model kasebut dilisensi miturut lisensi Creative Commons BY-NC 4.0, sing ngidini nyalin, redistribusi, kustomisasi, lan karya turunan, yen sampeyan menehi atribusi, njaga lisensi, lan nggunakake mung kanggo tujuan non-komersial. Piranti kanggo nggarap model diwenehake miturut lisensi MIT. Kanggo ngrangsang pangembangan nggunakake model NLLB, diputusake kanggo nyedhiyakake $ 200 ewu kanggo menehi dana kanggo peneliti.

Kanggo nyederhanakake nggawe proyek nggunakake model sing diusulake, kode aplikasi sing digunakake kanggo nguji lan ngevaluasi kualitas model (FLORES-200, NLLB-MD, Toxicity-200), kode kanggo model latihan lan encoder adhedhasar perpustakaan LASER3 ( Language-Agnostic Sentence) uga open source. Representasi). Model pungkasan ditawakake ing rong versi - lengkap lan disingkat. Versi sing disingkat mbutuhake sumber daya sing luwih sithik lan cocog kanggo nyoba lan digunakake ing proyek riset.

Ora kaya sistem terjemahan liyane adhedhasar sistem pembelajaran mesin, solusi Facebook misuwur amarga nawakake model umum kanggo kabeh 200 basa, nyakup kabeh basa lan ora mbutuhake model sing kapisah kanggo saben basa. Terjemahan ditindakake langsung saka basa sumber menyang basa target, tanpa terjemahan intermediate menyang basa Inggris. Kanggo nggawe sistem terjemahan universal, model LID (Language IDentification) uga diusulake, sing ndadekake bisa nemtokake basa sing digunakake. Sing. sistem bisa kanthi otomatis ngenali basa ngendi informasi diwenehake lan nerjemahake menyang basa pangguna.

Terjemahan didhukung ing sembarang arah, ing antarane 200 basa sing didhukung. Kanggo ngonfirmasi kualitas terjemahan ing antarane basa apa wae, set uji referensi FLORES-200 disiapake, sing nuduhake model NLLB-200 babagan kualitas terjemahan rata-rata 44% luwih unggul tinimbang sistem riset basis mesin sing diusulake sadurunge nalika nggunakake. Metrik BLEU mbandhingake terjemahan mesin karo terjemahan manungsa standar. Kanggo basa Afrika lan dialek India sing langka, keunggulan kualitas tekan 70%. Sampeyan bisa ngevaluasi kanthi visual kualitas terjemahan ing situs demo sing disiapake khusus.

Source: opennet.ru

Add a comment