Facebook 200 ta tilni qo'llab-quvvatlaydigan mashina tarjimasi modelini nashr etadi

Facebook (Rossiya Federatsiyasida taqiqlangan) ingliz tiliga oraliq tarjimani chetlab o‘tib, matnni bir tildan ikkinchi tilga to‘g‘ridan-to‘g‘ri tarjima qilish uchun universal mashinani o‘rganish modelini yaratishga qaratilgan NLLB (No Language Left Behind) loyihasi ishlanmalarini e’lon qildi. Taklif etilayotgan model 200 dan ortiq tillarni, jumladan Afrika va Avstraliya xalqlarining noyob tillarini qamrab oladi. Loyihaning yakuniy maqsadi har qanday xalq uchun, ular qanday tilda gaplashishidan qat'i nazar, ular uchun aloqa vositalarini taqdim etishdir.

Model Creative Commons BY-NC 4.0 litsenziyasi boʻyicha litsenziyalangan boʻlib, u nusxa koʻchirish, qayta tarqatish, moslashtirish va hosilaviy ishlarga ruxsat beradi, agar siz atribut berishingiz, litsenziyani saqlab qolsangiz va undan notijorat maqsadlarda foydalansangiz. Modellar bilan ishlash uchun asboblar MIT litsenziyasi ostida taqdim etiladi. NLLB modelidan foydalangan holda rivojlanishni rag'batlantirish uchun tadqiqotchilarga grantlar berish uchun 200 ming dollar ajratishga qaror qilindi.

Taklif etilayotgan modeldan foydalangan holda loyihalarni yaratishni soddalashtirish uchun modellarning sifatini sinash va baholash uchun foydalaniladigan ilovalar kodi (FLORES-200, NLLB-MD, Toksiklik-200), LASER3 kutubxonasi asosida o'qitish modellari va enkoderlar uchun kod ( Language-Agnostic Sentence) qo'shimcha ravishda ochiq manba hisoblanadi.Representation). Yakuniy model ikkita versiyada taqdim etiladi - to'liq va qisqartirilgan. Qisqartirilgan versiya kamroq resurslarni talab qiladi va tadqiqot loyihalarida sinov va foydalanish uchun javob beradi.

Mashinani o'rganish tizimlariga asoslangan boshqa tarjima tizimlaridan farqli o'laroq, Facebook yechimi barcha tillarni qamrab oluvchi va har bir til uchun alohida modellardan foydalanishni talab etmaydigan 200 ta til uchun bitta umumiy modelni taklif qilishi bilan ajralib turadi. Tarjima to'g'ridan-to'g'ri manba tildan maqsadli tilga, ingliz tiliga oraliq tarjimasiz amalga oshiriladi. Umumjahon tarjima tizimlarini yaratish uchun qo'shimcha ravishda LID modeli (Language Identification) taklif etiladi, bu esa ishlatiladigan tilni aniqlash imkonini beradi. Bular. tizim ma'lumot qaysi tilda taqdim etilganligini avtomatik ravishda tanib olishi va uni foydalanuvchi tiliga tarjima qilishi mumkin.

Tarjima har qanday yo'nalishda, 200 ta qo'llab-quvvatlanadigan tillarning istalgani orasida qo'llab-quvvatlanadi. Har qanday tillar o'rtasidagi tarjima sifatini tasdiqlash uchun FLORES-200 ma'lumotnoma test to'plami tayyorlandi, bu NLLB-200 modeli tarjima sifati bo'yicha ilgari tavsiya etilgan mashinani o'rganishga asoslangan tadqiqot tizimlaridan foydalanishda o'rtacha 44% ustunligini ko'rsatdi. BLEU ko'rsatkichlari mashina tarjimasini standart inson tarjimasi bilan taqqoslaydi. Noyob Afrika tillari va hind dialektlari uchun sifat ustunligi 70% ga etadi. Tarjima sifatini maxsus tayyorlangan demo-saytda vizual baholash mumkin.

Manba: opennet.ru

a Izoh qo'shish