RHVoice 1.6.0 konuşma sentezleyicisi yayınlandı

Açık konuşma sentezi sistemi RHVoice 1.6.0 piyasaya sürüldü; başlangıçta Rus dili için yüksek kaliteli destek sağlamak üzere geliştirildi, ancak daha sonra İngilizce, Portekizce, Ukraynaca, Kırgızca, Tatarca ve Gürcüce gibi diğer dillere de uyarlandı. Kod C++ dilinde yazılmıştır ve LGPL 2.1 lisansı altında dağıtılmaktadır. GNU/Linux, Windows ve Android üzerinde çalışmayı destekler. Program, metni konuşmaya dönüştürmek için standart TTS (metin-konuşma) arayüzleriyle uyumludur: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) ve Android Text-to-Speech API, ancak NVDA'da da kullanılabilir. ekran okuyucu. RHVoice'in yaratıcısı ve ana geliştiricisi, tamamen kör olmasına rağmen projeyi geliştiren Olga Yakovleva'dır.

Yeni sürüm, Rusça konuşma için 5 yeni ses seçeneği ekliyor. Arnavutça dil desteği uygulandı. Ukrayna dilinin sözlüğü güncellendi. Emoji karakterlerinin seslendirme desteği genişletildi. Android platformu için uygulamadaki hataların giderilmesine yönelik çalışmalar yapıldı, özel sözlüklerin içe aktarımı basitleştirildi, Android 11 platformu desteği eklendi.Motor çekirdeğine g2p dahil yeni ayarlar ve işlevler eklendi. case, word_break ve eşitleme filtreleri desteği.

RHVoice'un HTS projesindeki gelişmeleri (HMM/DNN tabanlı Konuşma Sentezi Sistemi) ve istatistiksel modellerle parametrik sentez yöntemini (HMM'ye dayalı İstatistiksel Parametrik Sentez - Gizli Markov Modeli) kullandığını hatırlatalım. İstatistiksel modelin avantajı düşük genel giderler ve iddiasız CPU gücüdür. Tüm işlemler kullanıcının sisteminde yerel olarak gerçekleştirilir. Üç düzeyde konuşma kalitesi desteklenir (kalite ne kadar düşük olursa, performans o kadar yüksek ve tepki süresi o kadar kısa olur).

İstatistiksel modelin dezavantajı, doğal konuşma parçalarının bir kombinasyonuna dayalı olarak konuşma üreten sentezleyicilerin seviyesine ulaşmayan, ancak yine de sonuç oldukça okunaklı olan ve bir hoparlörden kayıt yayınlamaya benzeyen nispeten düşük telaffuz kalitesidir. . Karşılaştırma için, makine öğrenimi teknolojilerine dayalı bir açık konuşma sentezi motoru ve Rus dili için bir dizi model sağlayan Silero projesi, kalite açısından RHVoice'den üstündür.

Rusça için 13, İngilizce için 5 ses seçeneği mevcuttur.Sesler, doğal konuşma kayıtlarına göre oluşturulur. Ayarlarda hızı, perdeyi ve ses seviyesini değiştirebilirsiniz. Sonic kütüphanesi tempoyu değiştirmek için kullanılabilir. Giriş metninin analizine göre dilleri otomatik olarak tespit etmek ve değiştirmek mümkündür (örneğin, başka bir dildeki kelimeler ve alıntılar için o dile özgü bir sentez modeli kullanılabilir). Farklı diller için ses kombinasyonlarını tanımlayan ses profilleri desteklenir.

Kaynak: opennet.ru

Yorum ekle