Đã có bản phát hành công khai mới của hệ thống tổng hợp giọng nói mạng thần kinh chuyển văn bản thành giọng nói Silero. Dự án chủ yếu nhằm mục đích tạo ra một hệ thống tổng hợp giọng nói hiện đại, chất lượng cao, không thua kém các giải pháp thương mại của các tập đoàn và mọi người đều có thể truy cập mà không cần sử dụng thiết bị máy chủ đắt tiền.
Các mô hình được phân phối theo giấy phép GNU AGPL nhưng công ty phát triển dự án không tiết lộ cơ chế đào tạo các mô hình. Để chạy, bạn có thể sử dụng PyTorch và các framework hỗ trợ định dạng ONNX. Tổng hợp giọng nói trong Silero dựa trên việc sử dụng các thuật toán mạng thần kinh hiện đại được sửa đổi sâu sắc và các phương pháp xử lý tín hiệu số.
Cần lưu ý rằng vấn đề chính của các giải pháp mạng thần kinh hiện đại để tổng hợp giọng nói là chúng thường chỉ có sẵn trong các giải pháp đám mây trả phí và các sản phẩm công cộng có yêu cầu phần cứng cao, chất lượng thấp hơn hoặc chưa hoàn thiện và sẵn sàng sử dụng. các sản phẩm. Ví dụ: để chạy một trong những kiến trúc tổng hợp đầu cuối phổ biến mới, VITS, một cách trơn tru ở chế độ tổng hợp (nghĩa là không dành cho đào tạo mô hình), cần có thẻ video có hơn 16 gigabyte VRAM.
Ngược lại với xu hướng hiện nay, các giải pháp Silero chạy thành công ngay cả trên luồng 1 x86 của bộ xử lý Intel với hướng dẫn AVX2. Trên 4 luồng bộ xử lý, quá trình tổng hợp cho phép bạn tổng hợp từ 30 đến 60 giây mỗi giây ở chế độ tổng hợp 8 kHz, ở chế độ 24 kHz - 15-20 giây và ở chế độ 48 kHz - khoảng 10 giây.
Các tính năng chính của bản phát hành Silero mới:
- Kích thước mô hình đã giảm 2 lần xuống còn 50 megabyte;
- Người mẫu biết cách tạm dừng;
- Có sẵn 4 giọng nói chất lượng cao bằng tiếng Nga (và vô số giọng nói ngẫu nhiên). Ví dụ về phát âm;
- Các mô hình đã trở nên nhanh hơn gấp 10 lần và chẳng hạn như ở chế độ 24 kHz, chúng cho phép bạn tổng hợp tối đa 20 giây âm thanh mỗi giây trên 4 luồng bộ xử lý;
- Tất cả các tùy chọn giọng nói cho một ngôn ngữ được gói gọn trong một mô hình;
- Các mô hình có thể chấp nhận toàn bộ đoạn văn bản làm đầu vào, thẻ SSML được hỗ trợ;
- Quá trình tổng hợp hoạt động cùng lúc ở ba tần số lấy mẫu để lựa chọn - 8, 24 và 48 kilohertz;
- “Vấn đề của trẻ” đã được giải quyết: bất ổn, thiếu chữ;
- Đã thêm cờ để kiểm soát vị trí tự động của dấu trọng âm và vị trí của chữ cái “е”.
Hiện tại, đối với phiên bản tổng hợp mới nhất, 4 giọng nói bằng tiếng Nga đã được công bố rộng rãi, nhưng trong thời gian sắp tới, phiên bản tiếp theo sẽ được xuất bản với những thay đổi sau:
- Tốc độ tổng hợp sẽ tăng thêm 2-4 lần nữa;
- Các mô hình tổng hợp cho các ngôn ngữ CIS sẽ được cập nhật: Kalmyk, Tatar, Uzbek và Ukraina;
- Các mô hình cho các ngôn ngữ Châu Âu sẽ được bổ sung;
- Các mô hình dành cho ngôn ngữ Ấn Độ sẽ được bổ sung;
- Mô hình cho tiếng Anh sẽ được thêm vào.
Một số sự cố hệ thống vốn có trong quá trình tổng hợp Silero:
- Khác với các giải pháp tổng hợp âm thanh truyền thống hơn như RHVoice, Silero synthesis không có tích hợp SAPI, không có các ứng dụng khách dễ cài đặt hoặc các tích hợp khác. Windows и Android;
- Tốc độ, mặc dù cao chưa từng thấy đối với một giải pháp như vậy, nhưng có thể không đủ để tổng hợp nhanh chóng trên các bộ xử lý yếu ở chất lượng cao;
- Giải pháp tự động tạo dấu không xử lý các từ đồng âm (các từ như castle và castle) và vẫn mắc lỗi, nhưng điều này sẽ được sửa trong các bản phát hành trong tương lai;
- Phiên bản tổng hợp hiện tại không hoạt động trên các bộ xử lý không có hướng dẫn AVX2 (hoặc bạn cần thay đổi cụ thể cài đặt PyTorch) vì một trong các mô-đun bên trong mô hình đã được lượng tử hóa;
- Phiên bản tổng hợp hiện tại về cơ bản có một phụ thuộc PyTorch duy nhất; tất cả nội dung được “cố định” bên trong mô hình và các gói JIT. Mã nguồn của các mô hình không được công bố cũng như mã để chạy các mô hình từ ứng dụng khách PyTorch cho các ngôn ngữ khác;
- Libtorch, có sẵn cho nền tảng di động, cồng kềnh hơn nhiều so với thời gian chạy ONNX, nhưng phiên bản ONNX của mô hình này vẫn chưa có sẵn.
Nguồn: opennet.ru
