Έκδοση συνθέτη ομιλίας RHVoice 1.8.0

Κυκλοφόρησε το ανοιχτό σύστημα σύνθεσης ομιλίας RHVoice 1.8.0, το οποίο αρχικά αναπτύχθηκε για να παρέχει υποστήριξη υψηλής ποιότητας για τη ρωσική γλώσσα, αλλά στη συνέχεια προσαρμόστηκε για άλλες γλώσσες, όπως Αγγλικά, Πορτογαλικά, Ουκρανικά, Κιργιζικά, Ταταρικά και Γεωργιανά. Ο κώδικας είναι γραμμένος σε C++ και διανέμεται με την άδεια LGPL 2.1. Υποστηρίζει εργασία σε GNU/Linux, Windows και Android. Το πρόγραμμα είναι συμβατό με τυπικές διεπαφές TTS (text-to-speech) για τη μετατροπή κειμένου σε ομιλία: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) και Android Text-to-Speech API, αλλά μπορεί επίσης να χρησιμοποιηθεί στο NVDA συσκευή ανάγνωσης οθόνης. Δημιουργός και κύριος προγραμματιστής του RHVoice είναι η Olga Yakovleva, η οποία αναπτύσσει το έργο παρόλο που είναι εντελώς τυφλή.

Η έκδοση 1.8 για την πλατφόρμα Android παρουσιάζει ένα νέο σύστημα διαχείρισης δεδομένων φωνής και γλώσσας που σας επιτρέπει να κάνετε λήψη ενημερώσεων φωνητικών δεδομένων χωρίς ενημέρωση της εφαρμογής για κινητά. Οι ενημερώσεις δεδομένων για προστιθέμενες φωνές και γλώσσες ελέγχονται αυτόματα. Επιπλέον, η νέα έκδοση εισάγει υποστήριξη για την πολωνική γλώσσα και προσθέτει μια νέα φωνή για τη μακεδονική γλώσσα. Εξασφαλίζεται η συμβατότητα με τις τελευταίες εκδόσεις alpha και beta του προγράμματος ανάγνωσης οθόνης NVDA. Διορθώθηκαν προβλήματα με τη δημιουργία στην πλατφόρμα Linux που παρουσιάστηκαν όταν ο Διανομέας ομιλίας δεν ήταν παρών.

Να θυμίσουμε ότι το RHVoice χρησιμοποιεί τις εξελίξεις του έργου HTS (HMM/DNN-based Speech Synthesis System) και τη μέθοδο παραμετρικής σύνθεσης με στατιστικά μοντέλα (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). Το πλεονέκτημα του στατιστικού μοντέλου είναι το χαμηλό γενικό κόστος και η μη απαιτητική ισχύς της CPU. Όλες οι λειτουργίες εκτελούνται τοπικά στο σύστημα του χρήστη. Υποστηρίζονται τρία επίπεδα ποιότητας ομιλίας (όσο χαμηλότερη είναι η ποιότητα, τόσο υψηλότερη είναι η απόδοση και τόσο μικρότερος ο χρόνος αντίδρασης).

Το μειονέκτημα του στατιστικού μοντέλου είναι η σχετικά χαμηλή ποιότητα της προφοράς, η οποία δεν φτάνει στο επίπεδο των συνθεσάιζερ που παράγουν ομιλία με βάση ένα συνδυασμό θραυσμάτων φυσικής ομιλίας, αλλά παρόλα αυτά το αποτέλεσμα είναι αρκετά ευανάγνωστο και μοιάζει με εκπομπή εγγραφής από μεγάφωνο . Για σύγκριση, το έργο Silero, το οποίο παρέχει μια μηχανή ανοιχτής σύνθεσης ομιλίας που βασίζεται σε τεχνολογίες μηχανικής εκμάθησης και ένα σύνολο μοντέλων για τη ρωσική γλώσσα, είναι ανώτερη σε ποιότητα από το RHVoice.

Υπάρχουν 14 διαθέσιμες επιλογές φωνής για τη ρωσική γλώσσα και 6 για τα αγγλικά. Οι φωνές σχηματίζονται με βάση ηχογραφήσεις φυσικής ομιλίας. Στις ρυθμίσεις μπορείτε να αλλάξετε την ταχύτητα, τον τόνο και την ένταση. Η βιβλιοθήκη Sonic μπορεί να χρησιμοποιηθεί για την αλλαγή του ρυθμού. Είναι δυνατός ο αυτόματος εντοπισμός και εναλλαγή γλωσσών με βάση την ανάλυση του κειμένου εισόδου (για παράδειγμα, για λέξεις και εισαγωγικά σε άλλη γλώσσα, μπορεί να χρησιμοποιηθεί ένα μοντέλο σύνθεσης εγγενές σε αυτήν τη γλώσσα). Υποστηρίζονται προφίλ φωνής, ορίζοντας συνδυασμούς φωνών για διαφορετικές γλώσσες.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο