نشر Facebook (المحظور في الاتحاد الروسي) تطورات مشروع NLLB (No Language Left Behind) ، الذي يهدف إلى إنشاء نموذج عالمي للتعلم الآلي للترجمة المباشرة للنص من لغة إلى أخرى ، متجاوزًا الترجمة الوسيطة إلى الإنجليزية. يغطي النموذج المقترح أكثر من 200 لغة ، بما في ذلك اللغات الأفريقية والأسترالية النادرة. الهدف النهائي للمشروع هو توفير وسيلة اتصال لجميع الناس ، بغض النظر عن اللغة التي يتحدثونها.
يتوفر النموذج بموجب ترخيص Creative Commons BY-NC 4.0 ، والذي يسمح بالنسخ والتوزيع والإدراج في مشاريعك وإنشاء أعمال مشتقة ، ولكن يخضع للإسناد والاحتفاظ بالترخيص والاستخدام فقط للأغراض غير التجارية. أداة النمذجة مرخصة بموجب ترخيص معهد ماساتشوستس للتكنولوجيا. لتحفيز التنمية باستخدام نموذج NLLB ، تقرر تخصيص 200 ألف دولار لتقديم منح للباحثين.
لتبسيط إنشاء المشاريع باستخدام النموذج المقترح ، رمز التطبيقات المستخدمة لاختبار وتقييم جودة النماذج (FLORES-200 ، NLLB-MD ، Toxicity-200) ، رمز نماذج التدريب والمشفرات بناءً على مكتبة LASER3 (تمثيل حيادي اللغة). يتم تقديم النموذج النهائي في نسختين - كامل ومخفض. تتطلب النسخة المصغرة موارد أقل وهي مناسبة للاختبار والاستخدام في المشاريع البحثية.
على عكس أنظمة الترجمة الأخرى القائمة على التعلم الآلي ، فإن حل Facebook يتميز بتقديم نموذج واحد مشترك لجميع 200 لغة ، يغطي جميع اللغات ولا يتطلب نماذج منفصلة لكل لغة. تتم الترجمة مباشرة من المصدر إلى اللغة الهدف ، دون ترجمة وسيطة إلى اللغة الإنجليزية. لإنشاء أنظمة ترجمة عالمية ، يُقترح نموذج LID إضافي (تحديد معرف اللغة) ، والذي يسمح بتحديد اللغة المستخدمة. أولئك. يمكن للنظام التعرف تلقائيًا على اللغة التي يتم توفير المعلومات بها وترجمتها إلى لغة المستخدم.
الترجمة مدعومة في أي اتجاه ، بين أي من 200 لغة مدعومة. لتأكيد جودة الترجمة بين أي لغة ، تم إعداد مجموعة الاختبار المرجعي FLORES-200 ، والتي أظهرت أن نموذج NLLB-200 ، من حيث جودة الترجمة ، يتفوق في المتوسط بنسبة 44٪ على أنظمة البحث المقترحة مسبقًا القائمة على التعلم الآلي عند استخدام مقاييس BLEU التي تقارن الترجمة الآلية مع الترجمة البشرية القياسية. بالنسبة للغات الأفريقية النادرة واللهجات الهندية ، فإن التفوق في الجودة يصل إلى 70٪. من المألوف إجراء تقييم بصري لجودة الترجمة على موقع تجريبي مُعد خصيصًا.
المصدر: opennet.ru