إصدار RHVoice 1.6.0 لمُركِّب الكلام

تم إصدار نظام تركيب الكلام مفتوح المصدر RHVoice 1.6.0 ، والذي تم تطويره في البداية لتوفير دعم عالي الجودة للغة الروسية ، ولكن تم تكييفه بعد ذلك للغات أخرى ، بما في ذلك الإنجليزية والبرتغالية والأوكرانية والقيرغيزية والتتار والجورجية. تمت كتابة الكود بلغة C ++ وتوزيعها بموجب ترخيص LGPL 2.1. العمل مدعوم في GNU / Linux و Windows و Android. البرنامج متوافق مع واجهات TTS (تحويل النص إلى كلام) النموذجية لتحويل النص إلى كلام: SAPI5 (Windows) و Speech Dispatcher (GNU / Linux) وواجهة برمجة تطبيقات Android Text-To-Speech ، ولكن يمكن استخدامه أيضًا في قارئ الشاشة NVDA. أولغا ياكوفليفا ، التي طورت المشروع على الرغم من كونها عمياء تمامًا.

تضيف النسخة الجديدة 5 خيارات صوتية جديدة للخطاب الروسي. نفذت الدعم للغة الألبانية. القاموس المحدث للغة الأوكرانية. تم توسيع دعم التعبير عن أحرف الرموز التعبيرية. تم إجراء إصلاحات للأخطاء في تطبيق Android ، وتم تبسيط استيراد القواميس المخصصة ، وتم إضافة الدعم لمنصة Android 11. تمت إضافة إعدادات ووظائف جديدة إلى قلب المحرك ، بما في ذلك g2p.case ، و word_break ، ودعم عوامل تصفية التعادل.

تذكر أن RHVoice تستخدم تطورات مشروع HTS (نظام تخليق الكلام المستند إلى HMM / DNN) وطريقة التوليف البارامترية مع النماذج الإحصائية (التوليف الإحصائي البارامتري المستند إلى HMM - نموذج ماركوف المخفي). تتمثل ميزة النموذج الإحصائي في انخفاض طاقة وحدة المعالجة المركزية. يتم تنفيذ جميع العمليات محليًا على نظام المستخدم. يتم دعم ثلاثة مستويات من جودة الكلام (كلما انخفضت الجودة ، زاد الأداء وقصر وقت الاستجابة).

عيب النموذج الإحصائي هو الجودة المنخفضة نسبيًا للنطق ، والتي لا تصل إلى مستوى المُركِّبات التي تولد الكلام بناءً على مزيج من أجزاء الكلام الطبيعي ، ولكن مع ذلك فإن النتيجة واضحة تمامًا وتشبه تسجيل البث من مكبر الصوت. وبالمقارنة ، فإن مشروع Silero ، الذي يوفر محركًا مفتوحًا لتوليف الكلام استنادًا إلى تقنيات التعلم الآلي ومجموعة من النماذج الخاصة باللغة الروسية ، يتفوق على RHVoice من حيث الجودة.

يتوفر 13 خيارًا صوتيًا للغة الروسية و 5 خيارًا للغة الإنجليزية ، ويتم تكوين الأصوات بناءً على تسجيلات الكلام الطبيعية. في الإعدادات ، يمكنك تغيير السرعة ودرجة الصوت ومستوى الصوت. يمكن استخدام مكتبة Sonic لتغيير الإيقاع. من الممكن اكتشاف اللغة وتبديلها تلقائيًا بناءً على تحليل نص الإدخال (على سبيل المثال ، بالنسبة للكلمات والاقتباسات بلغة أخرى ، يمكن استخدام نموذج توليف أصلي لهذه اللغة). يتم دعم ملفات تعريف الصوت التي تحدد مجموعات الأصوات للغات مختلفة.

المصدر: opennet.ru

إضافة تعليق