Mạng lưới thần kinh đã đưa chất lượng tổng hợp giọng nói tiếng Nga lên một tầm cao mới

Nhóm các công ty MDG, một phần của hệ sinh thái Sberbank, đã công bố phát triển một nền tảng tổng hợp giọng nói tiên tiến, được cho là đảm bảo việc đọc bất kỳ văn bản nào một cách mượt mà và biểu cảm.

Giải pháp được trình bày là thế hệ thứ ba của hệ thống tổng hợp giọng nói. Tín hiệu âm thanh chất lượng cao được tạo ra bởi các mô hình mạng thần kinh phức tạp. Các nhà phát triển khẳng định rằng kết quả của các thuật toán này là sự tổng hợp thực tế nhất của lời nói tiếng Nga.

Mạng lưới thần kinh đã đưa chất lượng tổng hợp giọng nói tiếng Nga lên một tầm cao mới

Nền tảng này bao gồm một mô-đun để dự đoán trọng âm của những từ chưa có trong từ điển cơ sở. Ngoài ra, tính năng tự động sửa các lỗi chính tả phổ biến cũng được cung cấp. Nhờ phân tích ngôn ngữ sâu sắc của văn bản, cách phát âm sẽ tương ứng với chuẩn mực của ngôn ngữ ngay cả trong những trường hợp khó.

Một ưu điểm khác của nền tảng này là nó không yêu cầu các máy chủ đắt tiền được trang bị bộ tăng tốc GPU. Bạn có thể sử dụng công nghệ theo hai cách: thông qua dịch vụ đám mây hoặc bằng cách tích hợp nó vào giải pháp của riêng bạn.


Mạng lưới thần kinh đã đưa chất lượng tổng hợp giọng nói tiếng Nga lên một tầm cao mới

Trong số các lĩnh vực ứng dụng phát triển có thể có là chatbot và trợ lý giọng nói, dịch vụ thông tin và thông báo, dịch vụ thoại với khả năng tổng hợp tức thì bất kỳ văn bản nào trong cuộc gọi, v.v.

Các nhà phát triển cho biết: “Trong các tình huống giao tiếp tự động với khách hàng, công nghệ cho phép bạn tương tác riêng lẻ với từng người đăng ký vì không có tin nhắn cố định và bất kỳ văn bản nào cũng có thể được tổng hợp trong suốt cuộc gọi”.

Bạn có thể thử công nghệ đây



Nguồn: 3dnews.ru

Thêm một lời nhận xét