Facebook menerbitkan model terjemahan mesin yang menyokong 200 bahasa

Facebook (diharamkan di Persekutuan Rusia) telah menerbitkan perkembangan projek NLLB (Tiada Bahasa Tertinggal), bertujuan untuk mencipta model pembelajaran mesin universal untuk menterjemah teks secara terus daripada satu bahasa ke bahasa lain, memintas terjemahan perantaraan ke dalam bahasa Inggeris. Model yang dicadangkan meliputi lebih daripada 200 bahasa, termasuk bahasa jarang orang Afrika dan Australia. Matlamat utama projek ini adalah untuk menyediakan cara komunikasi untuk mana-mana orang, tanpa mengira bahasa yang mereka pertuturkan.

Model ini dilesenkan di bawah lesen Creative Commons BY-NC 4.0, yang membenarkan penyalinan, pengedaran semula, penyesuaian dan karya terbitan, dengan syarat anda memberikan atribusi, mengekalkan lesen dan menggunakannya untuk tujuan bukan komersial sahaja. Alat untuk bekerja dengan model disediakan di bawah lesen MIT. Untuk merangsang pembangunan menggunakan model NLLB, ia telah memutuskan untuk memperuntukkan $200 ribu untuk menyediakan geran kepada penyelidik.

Untuk memudahkan penciptaan projek menggunakan model yang dicadangkan, kod aplikasi yang digunakan untuk menguji dan menilai kualiti model (FLORES-200, NLLB-MD, Toxicity-200), kod untuk model latihan dan pengekod berdasarkan perpustakaan LASER3 ( Language-Agnostic Sentence) adalah sumber terbuka tambahan. Perwakilan). Model terakhir ditawarkan dalam dua versi - penuh dan dipendekkan. Versi yang dipendekkan memerlukan lebih sedikit sumber dan sesuai untuk ujian dan penggunaan dalam projek penyelidikan.

Tidak seperti sistem terjemahan lain berdasarkan sistem pembelajaran mesin, penyelesaian Facebook terkenal kerana ia menawarkan satu model umum untuk semua 200 bahasa, meliputi semua bahasa dan tidak memerlukan penggunaan model berasingan untuk setiap bahasa. Terjemahan dijalankan terus dari bahasa sumber ke bahasa sasaran, tanpa terjemahan perantaraan ke dalam bahasa Inggeris. Untuk mencipta sistem terjemahan universal, model LID (Pengenalan Bahasa) juga dicadangkan, yang memungkinkan untuk menentukan bahasa yang digunakan. Itu. sistem secara automatik boleh mengenali dalam bahasa mana maklumat itu disediakan dan menterjemahkannya ke dalam bahasa pengguna.

Terjemahan disokong dalam mana-mana arah, antara mana-mana 200 bahasa yang disokong. Untuk mengesahkan kualiti terjemahan antara mana-mana bahasa, set ujian rujukan FLORES-200 telah disediakan, yang menunjukkan bahawa model NLLB-200 dari segi kualiti terjemahan adalah secara purata 44% lebih tinggi daripada sistem penyelidikan berasaskan pembelajaran mesin yang dicadangkan sebelum ini apabila menggunakan Metrik BLEU membandingkan terjemahan mesin dengan terjemahan manusia standard. Untuk bahasa Afrika dan dialek India yang jarang ditemui, keunggulan kualiti mencapai 70%. Anda boleh menilai secara visual kualiti terjemahan pada tapak demo yang disediakan khas.

Sumber: opennet.ru

Tambah komen