Έκδοση του συνθέτη ομιλίας RHVoice 1.2.4, που αναπτύχθηκε για τη ρωσική γλώσσα

Δημοσιεύτηκε η κυκλοφορία του ανοιχτού συστήματος σύνθεσης ομιλίας RHVoice 1.2.4, το οποίο αρχικά αναπτύχθηκε για να παρέχει υποστήριξη υψηλής ποιότητας για τη ρωσική γλώσσα, αλλά στη συνέχεια προσαρμόστηκε για άλλες γλώσσες, όπως Αγγλικά, Πορτογαλικά, Ουκρανικά, Κιργιζικά, Ταταρικά και Γεωργιανά. Ο κώδικας είναι γραμμένος σε C++ και διανέμεται με την άδεια LGPL 2.1. Υποστηρίζει εργασία σε GNU/Linux, Windows και Android. Το πρόγραμμα είναι συμβατό με τυπικές διεπαφές TTS (text-to-speech) για τη μετατροπή κειμένου σε ομιλία: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) και Android Text-to-Speech API, αλλά μπορεί επίσης να χρησιμοποιηθεί στο NVDA συσκευή ανάγνωσης οθόνης.

Το πρόγραμμα χρησιμοποιεί τη μέθοδο παραμετρικής σύνθεσης με στατιστικά μοντέλα (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). Το πλεονέκτημα του στατιστικού μοντέλου είναι το χαμηλό γενικό κόστος και η μη απαιτητική ισχύς της CPU. Όλες οι λειτουργίες εκτελούνται τοπικά στο σύστημα του χρήστη. Υποστηρίζονται τρία επίπεδα ποιότητας ομιλίας (όσο χαμηλότερη είναι η ποιότητα, τόσο υψηλότερη είναι η απόδοση και τόσο μικρότερος ο χρόνος αντίδρασης).

Υποστηρίζει ρύθμιση και αλλαγή φωνών. Υπάρχουν 9 διαθέσιμες επιλογές φωνής για τη ρωσική γλώσσα και 5 για τα αγγλικά. Οι φωνές σχηματίζονται με βάση ηχογραφήσεις φυσικής ομιλίας. Λόγω της χρήσης ενός στατιστικού μοντέλου, η ποιότητα της προφοράς δεν φτάνει στο επίπεδο των συνθεσάιζερ που παράγουν ομιλία με βάση ένα συνδυασμό θραυσμάτων φυσικής ομιλίας, αλλά παρόλα αυτά το αποτέλεσμα είναι αρκετά κατανοητό και μοιάζει με εκπομπή εγγραφής από μεγάφωνο .

Στις ρυθμίσεις μπορείτε να αλλάξετε την ταχύτητα, τον τόνο και την ένταση. Η βιβλιοθήκη Sonic μπορεί να χρησιμοποιηθεί για την αλλαγή του ρυθμού. Είναι δυνατός ο αυτόματος εντοπισμός και εναλλαγή γλωσσών με βάση την ανάλυση του εισαγόμενου κειμένου (για παράδειγμα, για λέξεις και εισαγωγικά σε άλλη γλώσσα, μπορεί να χρησιμοποιηθεί ένα μοντέλο σύνθεσης εγγενές σε αυτήν τη γλώσσα). Υποστηρίζονται προφίλ φωνής, ορίζοντας συνδυασμούς φωνών για διαφορετικές γλώσσες.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο