نشرت أمازون مجموعة بيانات لفهم الكلام بـ 51 لغة

نشرت أمازون بموجب ترخيص CC BY 4.0 مجموعة البيانات "MASSIVE" (Amazon SLURP متعددة اللغات لملء الفتحات وتصنيف النوايا وتقييم المساعد الافتراضي) ونماذج لأنظمة التعلم الآلي وأدوات لتدريب النماذج الخاصة بك والتي يمكن استخدامها فهم المعلومات المتعلقة باللغة الطبيعية (NLU، فهم اللغة الطبيعية). تتضمن المجموعة أكثر من مليون عبارة نصية مشروحة ومصنفة معدة لـ 51 لغة.

تم استخدام مجموعة SLURP، المتوفرة أصلاً باللغة الإنجليزية، كمرجع لبناء مجموعة MASSIVE، والتي تمت ترجمتها إلى 50 لغة أخرى باستخدام مترجمين محترفين. تعمل تقنية فهم اللغة الطبيعية (NLU) الخاصة بـ Alexa أولاً على تحويل الكلام إلى نص، ثم تطبق نماذج NLU متعددة على النص لتحليل وجود الكلمات الرئيسية لتحديد جوهر سؤال المستخدم.

أحد أهداف إنشاء المجموعة ونشرها هو تكييف المساعدين الصوتيين لمعالجة المعلومات بعدة لغات في وقت واحد، وكذلك تشجيع مطوري الطرف الثالث على إنشاء تطبيقات وخدمات تعمل على توسيع قدرات المساعدين الصوتيين. لجذب انتباه المطورين، أطلقت أمازون مسابقة لإنشاء أفضل نموذج عام باستخدام مجموعة بيانات منشورة.

حاليًا، يدعم المساعدون الصوتيون عددًا قليلاً من اللغات ويستخدمون نماذج التعلم الآلي المرتبطة بلغة معينة. يهدف المشروع الضخم إلى القضاء على هذا النقص من خلال إنشاء نماذج عالمية وأنظمة تعلم آلي قادرة على تحليل ومعالجة المعلومات بلغات مختلفة.

المصدر: opennet.ru

إضافة تعليق