RHVoice 1.8.0 स्पीच सिंथेसायझर रिलीज

ओपन स्पीच सिंथेसिस सिस्टम RHVoice 1.8.0 रिलीझ करण्यात आली, सुरुवातीला रशियन भाषेसाठी उच्च-गुणवत्तेचे समर्थन प्रदान करण्यासाठी विकसित केली गेली, परंतु नंतर इंग्रजी, पोर्तुगीज, युक्रेनियन, किर्गिझ, तातार आणि जॉर्जियन यासह इतर भाषांसाठी स्वीकारली गेली. कोड C++ मध्ये लिहिलेला आहे आणि LGPL 2.1 लायसन्स अंतर्गत वितरित केला आहे. GNU/Linux, Windows आणि Android वर कार्यास समर्थन देते. मजकूर ते भाषणात रूपांतरित करण्यासाठी हा प्रोग्राम मानक TTS (टेक्स्ट-टू-स्पीच) इंटरफेसशी सुसंगत आहे: SAPI5 (Windows), स्पीच डिस्पॅचर (GNU/Linux) आणि Android Text-to-Speech API, परंतु NVDA मध्ये देखील वापरला जाऊ शकतो. स्क्रीन रीडर. RHVoice चे निर्माता आणि मुख्य विकसक ओल्गा याकोव्हलेवा आहेत, जी पूर्णपणे अंध असूनही प्रकल्प विकसित करते.

В версии 1.8 для платформы Android предложена новая система управления голосовыми и языковыми данными, позволяющая загружать обновления голосовых данных без обновления мобильного приложения. Проверка появления обновлений данных для добавленных голосов и языков производится автоматически. Кроме того, в новом выпуске реализована поддержка польского языка и добавлен новый голос для македонского языка. Обеспечена совместимость со свежими альфа- и бета-выпусками экранного ридера NVDA. Устранены проблемы со сборкой на платформе Linux, возникавшие при отсутствии Speech Dispatcher.

आम्हाला आठवू द्या की RHVoice HTS प्रकल्प (HMM/DNN-आधारित स्पीच सिंथेसिस सिस्टीम) आणि सांख्यिकीय मॉडेलसह पॅरामेट्रिक संश्लेषण पद्धत (HMM - हिडन मार्कोव्ह मॉडेलवर आधारित सांख्यिकीय पॅरामेट्रिक सिंथेसिस) च्या विकासाचा वापर करते. सांख्यिकीय मॉडेलचा फायदा कमी ओव्हरहेड खर्च आणि कमी मागणी नसलेली CPU शक्ती आहे. सर्व ऑपरेशन्स वापरकर्त्याच्या सिस्टमवर स्थानिक पातळीवर केल्या जातात. भाषण गुणवत्तेचे तीन स्तर समर्थित आहेत (गुणवत्ता जितकी कमी, तितकी जास्त कामगिरी आणि प्रतिक्रिया वेळ कमी).

सांख्यिकीय मॉडेलची नकारात्मक बाजू म्हणजे उच्चारांची तुलनेने कमी गुणवत्ता, जी नैसर्गिक भाषणाच्या तुकड्यांवर आधारित भाषण तयार करणार्‍या सिंथेसायझरच्या पातळीपर्यंत पोहोचत नाही, परंतु तरीही त्याचा परिणाम अगदी सुवाच्य आहे आणि लाऊडस्पीकरवरून रेकॉर्डिंग प्रसारित करण्यासारखा आहे. . तुलनेसाठी, सिलेरो प्रकल्प, जो मशीन लर्निंग तंत्रज्ञानावर आधारित ओपन स्पीच सिंथेसिस इंजिन आणि रशियन भाषेसाठी मॉडेल्सचा संच प्रदान करतो, RHVoice पेक्षा गुणवत्तेत श्रेष्ठ आहे.

रशियन भाषेसाठी 14 आणि इंग्रजीसाठी 6 आवाज पर्याय उपलब्ध आहेत. नैसर्गिक भाषणाच्या रेकॉर्डिंगवर आधारित आवाज तयार केले जातात. सेटिंग्जमध्ये तुम्ही वेग, पिच आणि व्हॉल्यूम बदलू शकता. टेम्पो बदलण्यासाठी सोनिक लायब्ररीचा वापर केला जाऊ शकतो. इनपुट मजकूराच्या विश्लेषणावर आधारित भाषा स्वयंचलितपणे शोधणे आणि स्विच करणे शक्य आहे (उदाहरणार्थ, दुसर्‍या भाषेतील शब्द आणि अवतरणांसाठी, त्या भाषेचे मूळ संश्लेषण मॉडेल वापरले जाऊ शकते). व्हॉइस प्रोफाइल समर्थित आहेत, भिन्न भाषांसाठी आवाजांचे संयोजन परिभाषित करतात.

स्त्रोत: opennet.ru

एक टिप्पणी जोडा