انتشار سینت سایزر گفتار RHVoice 1.6.0

سیستم سنتز گفتار باز RHVoice 1.6.0 منتشر شد که در ابتدا برای ارائه پشتیبانی با کیفیت از زبان روسی توسعه یافت، اما سپس برای سایر زبان‌ها از جمله انگلیسی، پرتغالی، اوکراینی، قرقیزی، تاتاری و گرجی سازگار شد. کد به زبان C++ نوشته شده و تحت مجوز LGPL 2.1 توزیع شده است. از کار بر روی گنو/لینوکس، ویندوز و اندروید پشتیبانی می کند. این برنامه با رابط های استاندارد TTS (متن به گفتار) برای تبدیل متن به گفتار سازگار است: SAPI5 (ویندوز)، دیسپچر گفتار (GNU/Linux) و Android Text-to-Speech API، اما می تواند در NVDA نیز استفاده شود. صفحه خوان. خالق و توسعه دهنده اصلی RHVoice اولگا یاکولووا است که با وجود نابینایی کامل پروژه را توسعه می دهد.

نسخه جدید 5 گزینه صوتی جدید برای سخنرانی روسی اضافه می کند. پشتیبانی از زبان آلبانیایی اجرا شده است. فرهنگ لغت برای زبان اوکراینی به روز شده است. پشتیبانی از صداگذاری شخصیت های ایموجی گسترش یافته است. برای رفع خطاهای اپلیکیشن برای پلتفرم اندروید، واردات دیکشنری های سفارشی ساده شده و پشتیبانی از پلتفرم اندروید 11 اضافه شده است، تنظیمات و قابلیت های جدیدی به هسته موتور از جمله g2p اضافه شده است. case، word_break و پشتیبانی از فیلترهای تساوی.

به یاد بیاوریم که RHVoice از پیشرفت های پروژه HTS (سیستم سنتز گفتار مبتنی بر HMM/DNN) و روش سنتز پارامتریک با مدل های آماری (Statistical Parametric Synthesis مبتنی بر HMM - Hidden Markov Model) استفاده می کند. مزیت مدل آماری هزینه های سربار پایین و توان بی نیاز CPU است. تمام عملیات به صورت محلی بر روی سیستم کاربر انجام می شود. سه سطح از کیفیت گفتار پشتیبانی می شود (هرچه کیفیت پایین تر، عملکرد بالاتر و زمان واکنش کوتاه تر باشد).

نقطه ضعف مدل آماری کیفیت نسبتاً پایین تلفظ است که به سطح سینت سایزرهایی که بر اساس ترکیبی از قطعات گفتار طبیعی گفتار تولید می کنند نمی رسد، اما با این وجود نتیجه کاملاً خوانا است و شبیه پخش صدای ضبط شده از بلندگو است. . برای مقایسه، پروژه Silero که یک موتور سنتز گفتار باز مبتنی بر فناوری‌های یادگیری ماشین و مجموعه‌ای از مدل‌های زبان روسی ارائه می‌کند، از نظر کیفیت نسبت به RHVoice برتر است.

13 گزینه صوتی برای زبان روسی و 5 گزینه برای انگلیسی وجود دارد. صداها بر اساس ضبط گفتار طبیعی شکل می‌گیرند. در تنظیمات می توانید سرعت، گام و صدا را تغییر دهید. از کتابخانه Sonic می توان برای تغییر سرعت استفاده کرد. تشخیص خودکار و تغییر زبان ها بر اساس تجزیه و تحلیل متن ورودی امکان پذیر است (به عنوان مثال، برای کلمات و نقل قول ها در زبان دیگر، می توان از یک مدل ترکیبی بومی آن زبان استفاده کرد). پروفایل های صوتی پشتیبانی می شوند و ترکیبی از صداها را برای زبان های مختلف تعریف می کنند.

منبع: opennet.ru

اضافه کردن نظر