Facebook menerbitkan model terjemahan mesin yang mendukung 200 bahasa

Facebook (dilarang di Federasi Rusia) telah menerbitkan pengembangan proyek NLLB (No Language Left Behind), yang bertujuan untuk menciptakan model pembelajaran mesin universal untuk menerjemahkan teks secara langsung dari satu bahasa ke bahasa lain, melewati terjemahan perantara ke dalam bahasa Inggris. Model yang diusulkan mencakup lebih dari 200 bahasa, termasuk bahasa langka masyarakat Afrika dan Australia. Tujuan akhir dari proyek ini adalah untuk menyediakan sarana komunikasi bagi semua orang, apapun bahasa yang mereka gunakan.

Model ini dilisensikan di bawah lisensi Creative Commons BY-NC 4.0, yang mengizinkan penyalinan, pendistribusian ulang, penyesuaian, dan karya turunan, dengan ketentuan Anda memberikan atribusi, mempertahankan lisensi, dan menggunakannya untuk tujuan non-komersial saja. Alat untuk bekerja dengan model disediakan di bawah lisensi MIT. Untuk merangsang pembangunan menggunakan model NLLB, diputuskan untuk mengalokasikan $200 ribu untuk memberikan hibah kepada peneliti.

Untuk menyederhanakan pembuatan proyek menggunakan model yang diusulkan, kode aplikasi yang digunakan untuk menguji dan menilai kualitas model (FLORES-200, NLLB-MD, Toxicity-200), kode untuk model pelatihan dan encoder berdasarkan perpustakaan LASER3 ( Language-Agnostic SEntence) juga bersifat open source (Representasi). Model terakhir ditawarkan dalam dua versi - penuh dan diperpendek. Versi singkatnya memerlukan sumber daya yang lebih sedikit dan cocok untuk pengujian dan penggunaan dalam proyek penelitian.

Tidak seperti sistem terjemahan lain yang berbasis sistem pembelajaran mesin, solusi Facebook menonjol karena menawarkan satu model umum untuk 200 bahasa, mencakup semua bahasa dan tidak memerlukan penggunaan model terpisah untuk setiap bahasa. Penerjemahan dilakukan langsung dari bahasa sumber ke bahasa sasaran, tanpa penerjemahan perantara ke dalam bahasa Inggris. Untuk membuat sistem terjemahan universal, model LID (IDentifikasi Bahasa) juga diusulkan, yang memungkinkan untuk menentukan bahasa yang digunakan. Itu. sistem dapat secara otomatis mengenali bahasa apa yang digunakan untuk memberikan informasi dan menerjemahkannya ke dalam bahasa pengguna.

Terjemahan didukung ke segala arah, antara 200 bahasa yang didukung. Untuk memastikan kualitas terjemahan antara bahasa apa pun, set uji referensi FLORES-200 telah disiapkan, yang menunjukkan bahwa model NLLB-200 dalam hal kualitas terjemahan rata-rata 44% lebih unggul dari sistem penelitian berbasis pembelajaran mesin yang diusulkan sebelumnya saat menggunakan Metrik BLEU membandingkan terjemahan mesin dengan terjemahan manusia standar. Untuk bahasa Afrika dan dialek India yang langka, keunggulan kualitasnya mencapai 70%. Anda dapat mengevaluasi kualitas terjemahan secara visual di situs demo yang disiapkan khusus.

Sumber: opennet.ru

Tambah komentar