إصدار RHVoice 1.8.0 لمُركِّب الكلام

تم إصدار نظام تركيب الكلام مفتوح المصدر RHVoice 1.8.0 ، والذي تم تطويره في البداية لتوفير دعم عالي الجودة للغة الروسية ، ولكن تم تكييفه بعد ذلك للغات أخرى ، بما في ذلك الإنجليزية والبرتغالية والأوكرانية والقيرغيزية والتتار والجورجية. تمت كتابة الكود بلغة C ++ وتوزيعها بموجب ترخيص LGPL 2.1. العمل مدعوم في GNU / Linux و Windows و Android. البرنامج متوافق مع واجهات TTS (تحويل النص إلى كلام) النموذجية لتحويل النص إلى كلام: SAPI5 (Windows) و Speech Dispatcher (GNU / Linux) وواجهة برمجة تطبيقات Android Text-To-Speech ، ولكن يمكن استخدامه أيضًا في قارئ الشاشة NVDA. أولغا ياكوفليفا ، التي طورت المشروع على الرغم من كونها عمياء تمامًا.

يقدم الإصدار 1.8 لمنصة Android نظامًا جديدًا لإدارة بيانات الصوت واللغة يسمح لك بتنزيل تحديثات البيانات الصوتية دون تحديث تطبيق الهاتف المحمول. يتم فحص تحديثات البيانات للأصوات واللغات المضافة تلقائيًا. بالإضافة إلى ذلك، يقدم الإصدار الجديد دعمًا للغة البولندية ويضيف صوتًا جديدًا للغة المقدونية. يتم ضمان التوافق مع أحدث إصدارات ألفا وبيتا من قارئ الشاشة NVDA. تم إصلاح مشكلات البناء على نظام التشغيل Linux التي حدثت عندما لم يكن Speech Dispatcher موجودًا.

تذكر أن RHVoice تستخدم تطورات مشروع HTS (نظام تخليق الكلام المستند إلى HMM / DNN) وطريقة التوليف البارامترية مع النماذج الإحصائية (التوليف الإحصائي البارامتري المستند إلى HMM - نموذج ماركوف المخفي). تتمثل ميزة النموذج الإحصائي في انخفاض طاقة وحدة المعالجة المركزية. يتم تنفيذ جميع العمليات محليًا على نظام المستخدم. يتم دعم ثلاثة مستويات من جودة الكلام (كلما انخفضت الجودة ، زاد الأداء وقصر وقت الاستجابة).

عيب النموذج الإحصائي هو الجودة المنخفضة نسبيًا للنطق ، والتي لا تصل إلى مستوى المُركِّبات التي تولد الكلام بناءً على مزيج من أجزاء الكلام الطبيعي ، ولكن مع ذلك فإن النتيجة واضحة تمامًا وتشبه تسجيل البث من مكبر الصوت. وبالمقارنة ، فإن مشروع Silero ، الذي يوفر محركًا مفتوحًا لتوليف الكلام استنادًا إلى تقنيات التعلم الآلي ومجموعة من النماذج الخاصة باللغة الروسية ، يتفوق على RHVoice من حيث الجودة.

يتوفر 14 خيارًا صوتيًا للغة الروسية و 6 خيارًا للغة الإنجليزية ، ويتم تكوين الأصوات بناءً على تسجيلات الكلام الطبيعية. في الإعدادات ، يمكنك تغيير السرعة ودرجة الصوت ومستوى الصوت. يمكن استخدام مكتبة Sonic لتغيير الإيقاع. من الممكن اكتشاف اللغة وتبديلها تلقائيًا بناءً على تحليل نص الإدخال (على سبيل المثال ، بالنسبة للكلمات والاقتباسات بلغة أخرى ، يمكن استخدام نموذج توليف أصلي لهذه اللغة). يتم دعم ملفات تعريف الصوت التي تحدد مجموعات الأصوات للغات مختلفة.

المصدر: opennet.ru

إضافة تعليق