🥇Phát hành trình tổng hợp giọng nói RHVoice 1.8.0

RHVoice 1.8.0, một hệ thống tổng hợp giọng nói mã nguồn mở, đã được phát hành. Ban đầu được phát triển để hỗ trợ chất lượng cao cho tiếng Nga, sau đó nó đã được điều chỉnh để hỗ trợ các ngôn ngữ khác, bao gồm tiếng Anh, tiếng Bồ Đào Nha, tiếng Ukraina, tiếng Kyrgyz, tiếng Tatar và tiếng Gruzia. Mã nguồn được viết bằng C++ và được phân phối theo giấy phép LGPL 2.1. Hệ điều hành GNU/Linux cũng được hỗ trợ.Linux, Windows и AndroidChương trình tương thích với các giao diện TTS (chuyển văn bản thành giọng nói) thông thường để chuyển đổi văn bản thành giọng nói: SAPI5 (Windows), Bộ điều phối giọng nói (GNU/Linux) Và Android RHVoice sử dụng API chuyển văn bản thành giọng nói, nhưng cũng có thể được sử dụng với trình đọc màn hình NVDA. Người sáng lập và nhà phát triển chính của RHVoice là Olga Yakovleva, người vẫn tiếp tục phát triển dự án mặc dù bị mù hoàn toàn.

Trong phiên bản 1.8 dành cho nền tảng này Android Hệ thống quản lý dữ liệu giọng nói và ngôn ngữ mới đã được giới thiệu, cho phép tải xuống các bản cập nhật dữ liệu giọng nói mà không cần cập nhật ứng dụng di động. Các bản cập nhật cho giọng nói và ngôn ngữ mới được thêm vào sẽ được kiểm tra tự động. Ngoài ra, phiên bản mới bổ sung hỗ trợ tiếng Ba Lan và một giọng nói tiếng Macedonia mới. Khả năng tương thích với các phiên bản alpha và beta mới nhất của trình đọc màn hình NVDA đã được đảm bảo. Các sự cố xây dựng nền tảng đã được giải quyết. LinuxĐiều này xảy ra khi không có Bộ điều phối giọng nói.

Chúng ta hãy nhớ lại rằng RHVoice sử dụng sự phát triển của dự án HTS (Hệ thống tổng hợp giọng nói dựa trên HMM/DNN) và phương pháp tổng hợp tham số với các mô hình thống kê (Tổng hợp tham số thống kê dựa trên HMM - Mô hình Markov ẩn). Ưu điểm của mô hình thống kê là chi phí chung thấp và sức mạnh CPU không bị ảnh hưởng. Mọi thao tác đều được thực hiện cục bộ trên hệ thống của người dùng. Hỗ trợ ba mức chất lượng giọng nói (chất lượng càng thấp, hiệu suất càng cao và thời gian phản hồi càng ngắn).

Nhược điểm của mô hình thống kê là chất lượng phát âm tương đối thấp, không đạt đến mức tổng hợp tạo ra giọng nói dựa trên sự kết hợp của các đoạn giọng nói tự nhiên, tuy nhiên, kết quả vẫn khá dễ đọc và giống như phát bản ghi âm từ loa. . Để so sánh, dự án Silero, cung cấp công cụ tổng hợp giọng nói mở dựa trên công nghệ học máy và một bộ mô hình cho tiếng Nga, có chất lượng vượt trội hơn RHVoice.

Có 14 tùy chọn giọng nói có sẵn cho tiếng Nga và 6 tùy chọn cho tiếng Anh. Giọng nói được hình thành dựa trên bản ghi âm giọng nói tự nhiên. Trong cài đặt, bạn có thể thay đổi tốc độ, cao độ và âm lượng. Thư viện Sonic có thể được sử dụng để thay đổi nhịp độ. Có thể tự động phát hiện và chuyển đổi ngôn ngữ dựa trên phân tích văn bản đầu vào (ví dụ: đối với các từ và dấu ngoặc kép ở ngôn ngữ khác, có thể sử dụng mô hình tổng hợp gốc của ngôn ngữ đó). Cấu hình giọng nói được hỗ trợ, xác định sự kết hợp giọng nói cho các ngôn ngữ khác nhau.

Nguồn: opennet.ru

Phát hành bộ tổng hợp giọng nói RHVoice 1.8.0