Google đã xuất bản codec âm thanh Lyra để truyền giọng nói với chất lượng kết nối kém

Google đã giới thiệu codec âm thanh mới, Lyra, được tối ưu hóa để đạt được chất lượng giọng nói tối đa ngay cả khi sử dụng các kênh liên lạc rất chậm. Mã triển khai Lyra được viết bằng C++ và mở theo giấy phép Apache 2.0, nhưng trong số các phần phụ thuộc cần thiết để vận hành, có một thư viện độc quyền libsparse_inference.so với triển khai kernel để tính toán toán học. Cần lưu ý rằng thư viện độc quyền chỉ là tạm thời - trong tương lai Google hứa sẽ phát triển một thư viện thay thế mở và cung cấp hỗ trợ cho nhiều nền tảng khác nhau.

Về chất lượng dữ liệu giọng nói được truyền ở tốc độ thấp, Lyra vượt trội hơn đáng kể so với các codec truyền thống sử dụng phương pháp xử lý tín hiệu số. Để đạt được khả năng truyền giọng nói chất lượng cao trong điều kiện lượng thông tin truyền đi hạn chế, ngoài các phương pháp nén âm thanh và chuyển đổi tín hiệu thông thường, Lyra còn sử dụng mô hình giọng nói dựa trên hệ thống máy học, cho phép bạn tạo lại thông tin còn thiếu dựa trên đặc điểm lời nói điển hình. Mô hình được sử dụng để tạo ra âm thanh đã được đào tạo bằng cách sử dụng hàng nghìn giờ ghi âm giọng nói bằng hơn 70 ngôn ngữ.

Google đã xuất bản codec âm thanh Lyra để truyền giọng nói với chất lượng kết nối kém

Codec bao gồm một bộ mã hóa và một bộ giải mã. Thuật toán của bộ mã hóa tập trung vào việc trích xuất các tham số dữ liệu giọng nói cứ sau 40 mili giây, nén chúng và truyền chúng đến người nhận qua mạng. Một kênh liên lạc có tốc độ 3 kilobit/giây là đủ để truyền dữ liệu. Các thông số âm thanh được trích xuất bao gồm các biểu đồ phổ logarit mel có tính đến các đặc tính năng lượng của giọng nói ở các dải tần số khác nhau và được chuẩn bị có tính đến mô hình nhận thức thính giác của con người.

Google đã xuất bản codec âm thanh Lyra để truyền giọng nói với chất lượng kết nối kém

Bộ giải mã sử dụng mô hình tổng hợp, dựa trên các tham số âm thanh được truyền đi, sẽ tái tạo tín hiệu giọng nói. Để giảm độ phức tạp của các phép tính, một mô hình nhẹ dựa trên mạng thần kinh tái phát đã được sử dụng, đây là một biến thể của mô hình tổng hợp giọng nói WaveRNN, sử dụng tần số lấy mẫu thấp hơn nhưng tạo ra một số tín hiệu song song ở các dải tần số khác nhau. Sau đó, các tín hiệu thu được sẽ được xếp chồng lên nhau để tạo ra một tín hiệu đầu ra duy nhất tương ứng với tốc độ lấy mẫu đã chỉ định.

Các hướng dẫn bộ xử lý chuyên dụng có sẵn trong bộ xử lý ARM 64-bit cũng được sử dụng để tăng tốc. Kết quả là, mặc dù sử dụng công nghệ máy học, nhưng codec Lyra vẫn có thể được sử dụng để mã hóa và giải mã giọng nói theo thời gian thực trên điện thoại thông minh tầm trung, cho thấy độ trễ truyền tín hiệu là 90 mili giây.

Nguồn: opennet.ru

Thêm một lời nhận xét