قدمت موزيلا محرك التعرف على الكلام DeepSpeech 0.6

مقدم من إطلاق محرك التعرف على الكلام الذي طورته موزيلا الكلام العميق 0.6، الذي ينفذ بنية التعرف على الكلام التي تحمل الاسم نفسه، مقترح من قبل باحثين من بايدو. تمت كتابة التنفيذ بلغة Python باستخدام منصة التعلم الآلي TensorFlow و وزعت من خلال بموجب ترخيص MPL 2.0 المجاني. يدعم العمل على أنظمة التشغيل Linux وAndroid وmacOS وWindows. الأداء كافٍ لاستخدام المحرك على لوحات LePotato وRaspberry Pi 3 وRaspberry Pi 4.

المدرجة أيضا في المجموعة تقدم نماذج مدربة, أمثلة ملفات الصوت وأدوات التعرف من سطر الأوامر. لدمج وظيفة التعرف على الكلام في برامجك، يتم تقديم وحدات جاهزة للاستخدام لـ Python وNodeJS وC++ و.NET (يقوم مطورو الطرف الثالث بإعداد وحدات بشكل منفصل لـ Rust и Go). يتم توفير النموذج النهائي للغة الإنجليزية فقط، ولكن للغات الأخرى بواسطة مُرفَق تعليمات يمكنك تدريب النظام بنفسك باستخدام البيانات الصوتية، تم جمعها بواسطة مشروع الصوت للعموم.

يعد DeepSpeech أبسط بكثير من الأنظمة التقليدية ويوفر في الوقت نفسه التعرف على جودة أعلى في حالة وجود ضوضاء غريبة. فهو يتجاوز النماذج الصوتية التقليدية ومفهوم الصوتيات، وبدلاً من ذلك يستخدم نظام تعلم آلي قائم على الشبكة العصبية محسّن للغاية والذي يلغي الحاجة إلى تطوير مكونات منفصلة لنمذجة مختلف الحالات الشاذة مثل ميزات الضوضاء والصدى والكلام.

الجانب السلبي لهذا النهج هو أنه من أجل الحصول على التعرف على الشبكة العصبية وتدريبها عالي الجودة، يتطلب محرك DeepSpeech كمية كبيرة من البيانات غير المتجانسة، التي تمليها أصوات مختلفة في ظروف حقيقية وبوجود ضوضاء طبيعية.
يقوم مشروع تم إنشاؤه في Mozilla بجمع مثل هذه البيانات. صوت مشترك، وتوفير مجموعة بيانات تم التحقق منها مع 780 ساعة من اللغة الانجليزيةو325 باللغة الألمانية و173 بالفرنسية و27 ساعة بالروسية.

الهدف النهائي لمشروع "الصوت للعموم" هو تجميع 10 آلاف ساعة من التسجيلات لمختلف النطق للعبارات النموذجية للكلام البشري، مما سيسمح بتحقيق مستوى مقبول من الأخطاء في التعرف. في شكله الحالي، أملى المشاركون في المشروع بالفعل ما مجموعه 4.3 ألف ساعة، تم اختبار 3.5 ألف منها. عند تدريب نموذج اللغة الإنجليزية النهائي لـ DeepSpeech، تم استخدام 3816 ساعة من الكلام، بالإضافة إلى البيانات التي تغطيها Common Voice من مشاريع LibriSpeech وFisher وSwitchboard، وتتضمن أيضًا حوالي 1700 ساعة من تسجيلات البرامج الإذاعية المكتوبة.

عند استخدام نموذج اللغة الإنجليزية الجاهز المعروض للتنزيل، يبلغ معدل خطأ التعرف في DeepSpeech 7.5% عند تقييمه باستخدام مجموعة اختبار LibriSpeech. للمقارنة، معدل الخطأ في التعرف البشري يقدر بنسبة 5.83%.

يتكون DeepSpeech من نظامين فرعيين - نموذج صوتي ووحدة فك ترميز. يستخدم النموذج الصوتي أساليب التعلم الآلي العميقة لحساب احتمالية وجود أحرف معينة في صوت الإدخال. تستخدم وحدة فك التشفير خوارزمية بحث شعاعية لتحويل بيانات احتمالية الأحرف إلى تمثيل نصي.

رئيسي الابتكارات DeepSpeech 0.6 (الفرع 0.6 غير متوافق مع الإصدارات السابقة ويتطلب تحديثات التعليمات البرمجية والنموذج):

  • يُقترح استخدام وحدة فك ترميز تدفق جديدة توفر استجابة أعلى ومستقلة عن حجم البيانات الصوتية المعالجة. ونتيجة لذلك، تمكن الإصدار الجديد من DeepSpeech من تقليل زمن الوصول للتعرف على الصوت إلى 260 مللي ثانية، وهو أسرع بنسبة 73% من ذي قبل، ويسمح باستخدام DeepSpeech في حلول التعرف على الكلام بسرعة.
  • تم إجراء تغييرات على واجهة برمجة التطبيقات (API) وتم العمل على توحيد أسماء الوظائف. تمت إضافة وظائف للحصول على بيانات تعريف إضافية حول المزامنة، مما يسمح لك ليس فقط بتلقي تمثيل نص كمخرجات، ولكن أيضًا لتتبع ربط الأحرف والجمل الفردية بموضع في دفق الصوت.
  • تمت إضافة دعم استخدام المكتبة إلى مجموعة الأدوات الخاصة بوحدات التدريب كودن لتحسين العمل مع الشبكات العصبية المتكررة (RNN)، مما جعل من الممكن تحقيق زيادة كبيرة (تقريبًا مضاعفة) في أداء التدريب النموذجي، ولكنه تطلب تغييرات في التعليمات البرمجية التي تنتهك التوافق مع النماذج المعدة مسبقًا.
  • تم رفع الحد الأدنى لمتطلبات إصدار TensorFlow من 1.13.1 إلى 1.14.0. تمت إضافة دعم للإصدار خفيف الوزن من TensorFlow Lite، مما يقلل حجم حزمة DeepSpeech من 98 ميجابايت إلى 3.7 ميجابايت. للاستخدام على الأجهزة المدمجة والمحمولة، تم أيضًا تقليل حجم الملف المحزوم مع النموذج من 188 ميجابايت إلى 47 ميجابايت (تُستخدم طريقة التكميم للضغط بعد تدريب النموذج).
  • تمت ترجمة نموذج اللغة إلى تنسيق بنية بيانات مختلف يسمح بتعيين الملفات في الذاكرة عند تحميلها. تم إيقاف دعم التنسيق القديم.
  • تم تغيير وضع تحميل ملف بنموذج لغة، مما أدى إلى تقليل استهلاك الذاكرة وتقليل التأخير عند معالجة الطلب الأول بعد إنشاء النموذج. أثناء التشغيل، يستهلك DeepSpeech الآن ذاكرة أقل بمقدار 22 مرة ويبدأ التشغيل بشكل أسرع بمقدار 500 مرة.

    قدمت موزيلا محرك التعرف على الكلام DeepSpeech 0.6

  • تمت تصفية الكلمات النادرة في نموذج اللغة. تم تقليل إجمالي عدد الكلمات إلى 500 ألف من الكلمات الأكثر شيوعًا الموجودة في النص المستخدم لتدريب النموذج. لقد أتاح التنظيف إمكانية تقليل حجم نموذج اللغة من 1800 ميجابايت إلى 900 ميجابايت، دون أي تأثير تقريبًا على معدل خطأ التعرف.
  • وأضاف الدعم لمختلف فني إنشاء تنويعات إضافية (تعزيز) للبيانات الصوتية المستخدمة في التدريب (على سبيل المثال، إضافة تشويه أو ضوضاء إلى مجموعة من الخيارات).
  • تمت إضافة مكتبة بها روابط للتكامل مع التطبيقات المستندة إلى النظام الأساسي .NET.
  • تمت إعادة صياغة الوثائق ويتم جمعها الآن على موقع ويب منفصل. Deepspeech.readthedocs.io.

المصدر: opennet.ru

إضافة تعليق