Έκδοση συνθέτη ομιλίας RHVoice 1.6.0

Κυκλοφόρησε το ανοιχτό σύστημα σύνθεσης ομιλίας RHVoice 1.6.0, το οποίο αρχικά αναπτύχθηκε για να παρέχει υποστήριξη υψηλής ποιότητας για τη ρωσική γλώσσα, αλλά στη συνέχεια προσαρμόστηκε για άλλες γλώσσες, όπως Αγγλικά, Πορτογαλικά, Ουκρανικά, Κιργιζικά, Ταταρικά και Γεωργιανά. Ο κώδικας είναι γραμμένος σε C++ και διανέμεται με την άδεια LGPL 2.1. Υποστηρίζει εργασία σε GNU/Linux, Windows και Android. Το πρόγραμμα είναι συμβατό με τυπικές διεπαφές TTS (text-to-speech) για τη μετατροπή κειμένου σε ομιλία: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) και Android Text-to-Speech API, αλλά μπορεί επίσης να χρησιμοποιηθεί στο NVDA συσκευή ανάγνωσης οθόνης. Δημιουργός και κύριος προγραμματιστής του RHVoice είναι η Olga Yakovleva, η οποία αναπτύσσει το έργο παρόλο που είναι εντελώς τυφλή.

В новой версии добавлено 5 новых вариантов голосов для русской речи. Реализована поддержка албанского языка. Обновлён словарь для украинского языка. Расширена поддержка озвучивания символов emoji. Проведена работа по устранению ошибок в приложении для платформы Android, упрощён импорт пользовательских словарей, а также добавлена поддержка платформы Android 11. В ядро движка добавлены новые настройки и функциональные возможности, включая g2p.case, word_break и поддержку фильтров эквализации.

Να θυμίσουμε ότι το RHVoice χρησιμοποιεί τις εξελίξεις του έργου HTS (HMM/DNN-based Speech Synthesis System) και τη μέθοδο παραμετρικής σύνθεσης με στατιστικά μοντέλα (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). Το πλεονέκτημα του στατιστικού μοντέλου είναι το χαμηλό γενικό κόστος και η μη απαιτητική ισχύς της CPU. Όλες οι λειτουργίες εκτελούνται τοπικά στο σύστημα του χρήστη. Υποστηρίζονται τρία επίπεδα ποιότητας ομιλίας (όσο χαμηλότερη είναι η ποιότητα, τόσο υψηλότερη είναι η απόδοση και τόσο μικρότερος ο χρόνος αντίδρασης).

Το μειονέκτημα του στατιστικού μοντέλου είναι η σχετικά χαμηλή ποιότητα της προφοράς, η οποία δεν φτάνει στο επίπεδο των συνθεσάιζερ που παράγουν ομιλία με βάση ένα συνδυασμό θραυσμάτων φυσικής ομιλίας, αλλά παρόλα αυτά το αποτέλεσμα είναι αρκετά ευανάγνωστο και μοιάζει με εκπομπή εγγραφής από μεγάφωνο . Για σύγκριση, το έργο Silero, το οποίο παρέχει μια μηχανή ανοιχτής σύνθεσης ομιλίας που βασίζεται σε τεχνολογίες μηχανικής εκμάθησης και ένα σύνολο μοντέλων για τη ρωσική γλώσσα, είναι ανώτερη σε ποιότητα από το RHVoice.

Υπάρχουν 13 διαθέσιμες επιλογές φωνής για τη ρωσική γλώσσα και 5 για τα αγγλικά. Οι φωνές σχηματίζονται με βάση ηχογραφήσεις φυσικής ομιλίας. Στις ρυθμίσεις μπορείτε να αλλάξετε την ταχύτητα, τον τόνο και την ένταση. Η βιβλιοθήκη Sonic μπορεί να χρησιμοποιηθεί για την αλλαγή του ρυθμού. Είναι δυνατός ο αυτόματος εντοπισμός και εναλλαγή γλωσσών με βάση την ανάλυση του κειμένου εισόδου (για παράδειγμα, για λέξεις και εισαγωγικά σε άλλη γλώσσα, μπορεί να χρησιμοποιηθεί ένα μοντέλο σύνθεσης εγγενές σε αυτήν τη γλώσσα). Υποστηρίζονται προφίλ φωνής, ορίζοντας συνδυασμούς φωνών για διαφορετικές γλώσσες.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο