انتشار سینت سایزر گفتار RHVoice 1.8.0

سیستم سنتز گفتار باز RHVoice 1.8.0 منتشر شد که در ابتدا برای ارائه پشتیبانی با کیفیت از زبان روسی توسعه یافت، اما سپس برای سایر زبان‌ها از جمله انگلیسی، پرتغالی، اوکراینی، قرقیزی، تاتاری و گرجی سازگار شد. کد به زبان C++ نوشته شده و تحت مجوز LGPL 2.1 توزیع شده است. از کار بر روی گنو/لینوکس، ویندوز و اندروید پشتیبانی می کند. این برنامه با رابط های استاندارد TTS (متن به گفتار) برای تبدیل متن به گفتار سازگار است: SAPI5 (ویندوز)، دیسپچر گفتار (GNU/Linux) و Android Text-to-Speech API، اما می تواند در NVDA نیز استفاده شود. صفحه خوان. خالق و توسعه دهنده اصلی RHVoice اولگا یاکولووا است که با وجود نابینایی کامل پروژه را توسعه می دهد.

نسخه 1.8 برای پلتفرم اندروید سیستم مدیریت داده های صوتی و زبان جدیدی را معرفی می کند که به شما امکان می دهد به روز رسانی های داده های صوتی را بدون به روز رسانی برنامه تلفن همراه دانلود کنید. به روز رسانی داده ها برای صداها و زبان های اضافه شده به طور خودکار بررسی می شود. علاوه بر این، نسخه جدید پشتیبانی از زبان لهستانی را معرفی می کند و صدای جدیدی را برای زبان مقدونی اضافه می کند. سازگاری با آخرین نسخه های آلفا و بتا صفحه خوان NVDA تضمین شده است. رفع مشکلات مربوط به ساخت بر روی پلت فرم لینوکس که در زمان عدم حضور Speech Dispatcher رخ داد.

به یاد بیاوریم که RHVoice از پیشرفت های پروژه HTS (سیستم سنتز گفتار مبتنی بر HMM/DNN) و روش سنتز پارامتریک با مدل های آماری (Statistical Parametric Synthesis مبتنی بر HMM - Hidden Markov Model) استفاده می کند. مزیت مدل آماری هزینه های سربار پایین و توان بی نیاز CPU است. تمام عملیات به صورت محلی بر روی سیستم کاربر انجام می شود. سه سطح از کیفیت گفتار پشتیبانی می شود (هرچه کیفیت پایین تر، عملکرد بالاتر و زمان واکنش کوتاه تر باشد).

نقطه ضعف مدل آماری کیفیت نسبتاً پایین تلفظ است که به سطح سینت سایزرهایی که بر اساس ترکیبی از قطعات گفتار طبیعی گفتار تولید می کنند نمی رسد، اما با این وجود نتیجه کاملاً خوانا است و شبیه پخش صدای ضبط شده از بلندگو است. . برای مقایسه، پروژه Silero که یک موتور سنتز گفتار باز مبتنی بر فناوری‌های یادگیری ماشین و مجموعه‌ای از مدل‌های زبان روسی ارائه می‌کند، از نظر کیفیت نسبت به RHVoice برتر است.

14 گزینه صوتی برای زبان روسی و 6 گزینه برای انگلیسی وجود دارد. صداها بر اساس ضبط گفتار طبیعی شکل می‌گیرند. در تنظیمات می توانید سرعت، گام و صدا را تغییر دهید. از کتابخانه Sonic می توان برای تغییر سرعت استفاده کرد. تشخیص خودکار و تغییر زبان ها بر اساس تجزیه و تحلیل متن ورودی امکان پذیر است (به عنوان مثال، برای کلمات و نقل قول ها در زبان دیگر، می توان از یک مدل ترکیبی بومی آن زبان استفاده کرد). پروفایل های صوتی پشتیبانی می شوند و ترکیبی از صداها را برای زبان های مختلف تعریف می کنند.

منبع: opennet.ru

اضافه کردن نظر