Phát hành bộ tổng hợp giọng nói RHVoice 1.6.0

Hệ thống tổng hợp giọng nói mở RHVoice 1.6.0 đã được phát hành, ban đầu được phát triển để cung cấp hỗ trợ chất lượng cao cho tiếng Nga, nhưng sau đó được điều chỉnh cho các ngôn ngữ khác, bao gồm tiếng Anh, tiếng Bồ Đào Nha, tiếng Ukraina, tiếng Kyrgyz, tiếng Tatar và tiếng Georgia. Mã được viết bằng C++ và được phân phối theo giấy phép LGPL 2.1. Hỗ trợ hoạt động trên GNU/Linux, Windows và Android. Chương trình tương thích với các giao diện TTS (chuyển văn bản thành giọng nói) tiêu chuẩn để chuyển đổi văn bản thành giọng nói: SAPI5 (Windows), Bộ điều phối giọng nói (GNU/Linux) và API chuyển văn bản thành giọng nói của Android, nhưng cũng có thể được sử dụng trong NVDA đọc màn hình. Người sáng tạo và phát triển chính của RHVoice là Olga Ykovleva, người phát triển dự án mặc dù bị mù hoàn toàn.

Phiên bản mới bổ sung thêm 5 tùy chọn giọng nói mới cho bài phát biểu tiếng Nga. Hỗ trợ ngôn ngữ tiếng Albania đã được triển khai. Từ điển cho tiếng Ukraina đã được cập nhật. Hỗ trợ lồng tiếng cho các ký tự biểu tượng cảm xúc đã được mở rộng. Công việc đã được thực hiện để loại bỏ lỗi trong ứng dụng dành cho nền tảng Android, việc nhập từ điển tùy chỉnh đã được đơn giản hóa và đã thêm hỗ trợ cho nền tảng Android 11. Các cài đặt và chức năng mới đã được thêm vào lõi động cơ, bao gồm cả g2p. case, word_break và hỗ trợ các bộ lọc cân bằng.

Chúng ta hãy nhớ lại rằng RHVoice sử dụng sự phát triển của dự án HTS (Hệ thống tổng hợp giọng nói dựa trên HMM/DNN) và phương pháp tổng hợp tham số với các mô hình thống kê (Tổng hợp tham số thống kê dựa trên HMM - Mô hình Markov ẩn). Ưu điểm của mô hình thống kê là chi phí chung thấp và sức mạnh CPU không bị ảnh hưởng. Mọi thao tác đều được thực hiện cục bộ trên hệ thống của người dùng. Hỗ trợ ba mức chất lượng giọng nói (chất lượng càng thấp, hiệu suất càng cao và thời gian phản hồi càng ngắn).

Nhược điểm của mô hình thống kê là chất lượng phát âm tương đối thấp, không đạt đến mức tổng hợp tạo ra giọng nói dựa trên sự kết hợp của các đoạn giọng nói tự nhiên, tuy nhiên, kết quả vẫn khá dễ đọc và giống như phát bản ghi âm từ loa. . Để so sánh, dự án Silero, cung cấp công cụ tổng hợp giọng nói mở dựa trên công nghệ học máy và một bộ mô hình cho tiếng Nga, có chất lượng vượt trội hơn RHVoice.

Có 13 tùy chọn giọng nói có sẵn cho tiếng Nga và 5 tùy chọn cho tiếng Anh. Giọng nói được hình thành dựa trên bản ghi âm giọng nói tự nhiên. Trong cài đặt, bạn có thể thay đổi tốc độ, cao độ và âm lượng. Thư viện Sonic có thể được sử dụng để thay đổi nhịp độ. Có thể tự động phát hiện và chuyển đổi ngôn ngữ dựa trên phân tích văn bản đầu vào (ví dụ: đối với các từ và dấu ngoặc kép ở ngôn ngữ khác, có thể sử dụng mô hình tổng hợp gốc của ngôn ngữ đó). Cấu hình giọng nói được hỗ trợ, xác định sự kết hợp giọng nói cho các ngôn ngữ khác nhau.

Nguồn: opennet.ru

Thêm một lời nhận xét