RHVoice 1.8.0 konuşma sentezleyicisi yayınlandı

Açık konuşma sentezi sistemi RHVoice 1.8.0 piyasaya sürüldü; başlangıçta Rus dili için yüksek kaliteli destek sağlamak üzere geliştirildi, ancak daha sonra İngilizce, Portekizce, Ukraynaca, Kırgızca, Tatarca ve Gürcüce gibi diğer dillere de uyarlandı. Kod C++ dilinde yazılmıştır ve LGPL 2.1 lisansı altında dağıtılmaktadır. GNU/Linux, Windows ve Android üzerinde çalışmayı destekler. Program, metni konuşmaya dönüştürmek için standart TTS (metin-konuşma) arayüzleriyle uyumludur: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) ve Android Text-to-Speech API, ancak NVDA'da da kullanılabilir. ekran okuyucu. RHVoice'in yaratıcısı ve ana geliştiricisi, tamamen kör olmasına rağmen projeyi geliştiren Olga Yakovleva'dır.

Android platformu için Sürüm 1.8, mobil uygulamayı güncellemeden ses verileri güncellemelerini indirmenize olanak tanıyan yeni bir ses ve dil veri yönetimi sistemi sunar. Eklenen sesler ve diller için veri güncellemeleri otomatik olarak kontrol edilir. Ayrıca yeni sürümde Lehçe dili desteği sunuluyor ve Makedon dili için yeni bir ses ekleniyor. NVDA ekran okuyucunun en son alfa ve beta sürümleriyle uyumluluk sağlanır. Konuşma Dispatcher'ın mevcut olmadığı durumlarda Linux platformunda oluşturma sırasında ortaya çıkan sorunlar düzeltildi.

RHVoice'un HTS projesindeki gelişmeleri (HMM/DNN tabanlı Konuşma Sentezi Sistemi) ve istatistiksel modellerle parametrik sentez yöntemini (HMM'ye dayalı İstatistiksel Parametrik Sentez - Gizli Markov Modeli) kullandığını hatırlatalım. İstatistiksel modelin avantajı düşük genel giderler ve iddiasız CPU gücüdür. Tüm işlemler kullanıcının sisteminde yerel olarak gerçekleştirilir. Üç düzeyde konuşma kalitesi desteklenir (kalite ne kadar düşük olursa, performans o kadar yüksek ve tepki süresi o kadar kısa olur).

İstatistiksel modelin dezavantajı, doğal konuşma parçalarının bir kombinasyonuna dayalı olarak konuşma üreten sentezleyicilerin seviyesine ulaşmayan, ancak yine de sonuç oldukça okunaklı olan ve bir hoparlörden kayıt yayınlamaya benzeyen nispeten düşük telaffuz kalitesidir. . Karşılaştırma için, makine öğrenimi teknolojilerine dayalı bir açık konuşma sentezi motoru ve Rus dili için bir dizi model sağlayan Silero projesi, kalite açısından RHVoice'den üstündür.

Rusça için 14, İngilizce için 6 ses seçeneği mevcuttur.Sesler, doğal konuşma kayıtlarına göre oluşturulur. Ayarlarda hızı, perdeyi ve ses seviyesini değiştirebilirsiniz. Sonic kütüphanesi tempoyu değiştirmek için kullanılabilir. Giriş metninin analizine göre dilleri otomatik olarak tespit etmek ve değiştirmek mümkündür (örneğin, başka bir dildeki kelimeler ve alıntılar için o dile özgü bir sentez modeli kullanılabilir). Farklı diller için ses kombinasyonlarını tanımlayan ses profilleri desteklenir.

Kaynak: opennet.ru

Yorum ekle