Veröffentlichung des Sprachsynthesizers RHVoice 1.8.0

Das offene Sprachsynthesesystem RHVoice 1.8.0 wurde veröffentlicht, das zunächst für die Bereitstellung hochwertiger Unterstützung der russischen Sprache entwickelt, dann aber für andere Sprachen angepasst wurde, darunter Englisch, Portugiesisch, Ukrainisch, Kirgisisch, Tatarisch und Georgisch. Der Code ist in C++ geschrieben und wird unter der LGPL 2.1-Lizenz vertrieben. Unterstützt die Arbeit unter GNU/Linux, Windows und Android. Das Programm ist mit Standard-TTS-Schnittstellen (Text-to-Speech) zur Konvertierung von Text in Sprache kompatibel: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) und Android Text-To-Speech API, kann aber auch im NVDA verwendet werden Bildschirmleser. Die Schöpferin und Hauptentwicklerin von RHVoice ist Olga Yakovleva, die das Projekt entwickelt, obwohl sie völlig blind ist.

Version 1.8 für die Android-Plattform führt ein neues Sprach- und Sprachdatenverwaltungssystem ein, mit dem Sie Sprachdaten-Updates herunterladen können, ohne die mobile Anwendung zu aktualisieren. Datenaktualisierungen für hinzugefügte Stimmen und Sprachen werden automatisch überprüft. Darüber hinaus bietet die neue Version Unterstützung für die polnische Sprache und fügt eine neue Stimme für die mazedonische Sprache hinzu. Die Kompatibilität mit den neuesten Alpha- und Beta-Versionen des NVDA-Screenreaders ist gewährleistet. Probleme beim Erstellen auf der Linux-Plattform behoben, die auftraten, wenn Speech Dispatcher nicht vorhanden war.

Erinnern wir uns daran, dass RHVoice die Entwicklungen des HTS-Projekts (HMM/DNN-based Speech Synthesis System) und die parametrische Synthesemethode mit statistischen Modellen (Statistical Parametric Synthesis based on HMM – Hidden Markov Model) nutzt. Der Vorteil des statistischen Modells sind geringe Overhead-Kosten und eine geringe CPU-Leistung. Alle Vorgänge werden lokal auf dem System des Benutzers ausgeführt. Es werden drei Stufen der Sprachqualität unterstützt (je niedriger die Qualität, desto höher die Leistung und desto kürzer die Reaktionszeit).

Der Nachteil des statistischen Modells ist die relativ geringe Qualität der Aussprache, die nicht das Niveau von Synthesizern erreicht, die Sprache auf der Grundlage einer Kombination von Fragmenten natürlicher Sprache erzeugen. Das Ergebnis ist jedoch gut lesbar und ähnelt der Übertragung einer Aufnahme aus einem Lautsprecher . Zum Vergleich: Das Silero-Projekt, das eine offene Sprachsynthese-Engine basierend auf maschinellen Lerntechnologien und einer Reihe von Modellen für die russische Sprache bereitstellt, ist RHVoice qualitativ überlegen.

Für die russische Sprache stehen 14 Stimmoptionen zur Verfügung, für Englisch 6. Die Stimmen werden auf der Grundlage von Aufnahmen natürlicher Sprache gebildet. In den Einstellungen können Sie Geschwindigkeit, Tonhöhe und Lautstärke ändern. Zur Änderung des Tempos kann die Sonic-Bibliothek genutzt werden. Es ist möglich, Sprachen basierend auf der Analyse des Eingabetextes automatisch zu erkennen und zu wechseln (für Wörter und Zitate in einer anderen Sprache kann beispielsweise ein für diese Sprache natives Synthesemodell verwendet werden). Es werden Sprachprofile unterstützt, die Stimmenkombinationen für verschiedene Sprachen definieren.

Source: opennet.ru

Kommentar hinzufügen