تم فتح رمز نظام التعرف على الكلام والترجمة

نشر مشروع OpenAI، الذي يقوم بتطوير المشاريع العامة في مجال الذكاء الاصطناعي، تطورات تتعلق بنظام التعرف على الكلام Whisper. يُزعم أنه بالنسبة للكلام باللغة الإنجليزية، يوفر النظام مستويات من الموثوقية ودقة التعرف التلقائي تقترب من التعرف البشري. تم فتح كود التنفيذ المرجعي المعتمد على إطار عمل PyTorch ومجموعة من النماذج المدربة بالفعل والجاهزة للاستخدام. الرمز مفتوح بموجب ترخيص MIT.

لتدريب النموذج، تم استخدام 680 ألف ساعة من بيانات الكلام، التي تم جمعها من عدة مجموعات تغطي لغات ومجالات مواضيعية مختلفة. حوالي ثلث بيانات الكلام المستخدمة في التدريب تكون بلغات أخرى غير الإنجليزية. يتعامل النظام المقترح بشكل صحيح مع المواقف مثل النطق المشدد، والضوضاء في الخلفية، واستخدام المصطلحات التقنية. بالإضافة إلى تحويل الكلام إلى نص، يمكن للنظام أيضًا ترجمة الكلام من أي لغة إلى اللغة الإنجليزية واكتشاف مظهر الكلام في التدفق الصوتي.

يتم تشكيل النماذج في تمثيلين: نموذج للغة الإنجليزية ونموذج متعدد اللغات، والذي يدعم أيضًا اللغات الروسية والأوكرانية والبيلاروسية. وفي المقابل، ينقسم كل تمثيل إلى 5 خيارات، تختلف في الحجم وعدد المعلمات التي يغطيها النموذج. كلما زاد الحجم، زادت دقة وجودة التعرف، ولكن أيضًا زادت متطلبات حجم ذاكرة الفيديو GPU وانخفض الأداء. على سبيل المثال، يتضمن الخيار الأدنى 39 مليون معلمة ويتطلب 1 غيغابايت من ذاكرة الفيديو، ويتضمن الحد الأقصى 1550 مليون معلمة ويتطلب 10 غيغابايت من ذاكرة الفيديو. الحد الأدنى للخيار هو 32 مرة أسرع من الحد الأقصى.

تم فتح رمز نظام التعرف على الكلام والترجمة

يستخدم النظام بنية الشبكة العصبية Transformer، والتي تتضمن جهاز تشفير ووحدة فك تشفير يتفاعلان مع بعضهما البعض. يتم تقسيم الصوت إلى أجزاء مدتها 30 ثانية، والتي يتم تحويلها إلى مخطط طيفي log-Mel وإرساله إلى جهاز التشفير. يتم إرسال مخرجات برنامج التشفير إلى وحدة فك التشفير، التي تتنبأ بتمثيل نصي ممزوج برموز مميزة تسمح، في نموذج عام واحد، بحل مشكلات مثل اكتشاف اللغة، وحساب التسلسل الزمني لنطق العبارات، ونسخ الكلام في لغات مختلفة، والترجمة إلى اللغة الإنجليزية.

المصدر: opennet.ru

إضافة تعليق