Açık kaynaklı bir konuşma sentezleme sistemi olan RHVoice 1.6.0 yayınlandı. Başlangıçta Rusça için yüksek kaliteli destek sağlamak amacıyla geliştirilen sistem, daha sonra İngilizce, Portekizce, Ukraynaca, Kırgızca, Tatarca ve Gürcüce dahil olmak üzere diğer dillere de uyarlanmıştır. Kod C++ dilinde yazılmıştır ve LGPL 2.1 lisansı altında dağıtılmaktadır. GNU/Linux desteği de mevcuttur.Linux, Windows и AndroidProgram, metni sese dönüştürmek için kullanılan tipik TTS (metinden sese) arayüzleriyle uyumludur: SAPI5 (WindowsKonuşma Dağıtıcısı (GNU/ ), Konuşma Dağıtıcısı (GNU/ )Linux) Ve Android Metinden Sese Dönüştürme API'si ile çalışır, ancak NVDA ekran okuyucu ile de kullanılabilir. RHVoice'ın yaratıcısı ve ana geliştiricisi, tamamen görme engelli olmasına rağmen projeyi geliştirmeye devam eden Olga Yakovleva'dır.
Yeni sürümde Rusça konuşma için 5 yeni ses seçeneği eklendi. Arnavutça dil desteği entegre edildi. Ukraynaca sözlük güncellendi. Emoji telaffuz desteği genişletildi. Platform uygulamasında hata düzeltmeleri yapıldı. AndroidKullanıcı sözlüklerinin içe aktarılması basitleştirildi ve platform desteği eklendi. Android 11. Motor çekirdeğine g2p.case, word_break ve eşitleme filtreleri desteği de dahil olmak üzere yeni ayarlar ve işlevler eklendi.
RHVoice'un HTS projesindeki gelişmeleri (HMM/DNN tabanlı Konuşma Sentezi Sistemi) ve istatistiksel modellerle parametrik sentez yöntemini (HMM'ye dayalı İstatistiksel Parametrik Sentez - Gizli Markov Modeli) kullandığını hatırlatalım. İstatistiksel modelin avantajı düşük genel giderler ve iddiasız CPU gücüdür. Tüm işlemler kullanıcının sisteminde yerel olarak gerçekleştirilir. Üç düzeyde konuşma kalitesi desteklenir (kalite ne kadar düşük olursa, performans o kadar yüksek ve tepki süresi o kadar kısa olur).
İstatistiksel modelin dezavantajı, doğal konuşma parçalarının bir kombinasyonuna dayalı olarak konuşma üreten sentezleyicilerin seviyesine ulaşmayan, ancak yine de sonuç oldukça okunaklı olan ve bir hoparlörden kayıt yayınlamaya benzeyen nispeten düşük telaffuz kalitesidir. . Karşılaştırma için, makine öğrenimi teknolojilerine dayalı bir açık konuşma sentezi motoru ve Rus dili için bir dizi model sağlayan Silero projesi, kalite açısından RHVoice'den üstündür.
Rusça için 13, İngilizce için 5 ses seçeneği mevcuttur.Sesler, doğal konuşma kayıtlarına göre oluşturulur. Ayarlarda hızı, perdeyi ve ses seviyesini değiştirebilirsiniz. Sonic kütüphanesi tempoyu değiştirmek için kullanılabilir. Giriş metninin analizine göre dilleri otomatik olarak tespit etmek ve değiştirmek mümkündür (örneğin, başka bir dildeki kelimeler ve alıntılar için o dile özgü bir sentez modeli kullanılabilir). Farklı diller için ses kombinasyonlarını tanımlayan ses profilleri desteklenir.
Kaynak: opennet.ru
