Google phát hành codec âm thanh mã nguồn mở Lyra V2

Google đã giới thiệu bộ giải mã âm thanh Lyra V2, sử dụng kỹ thuật học máy để đạt được chất lượng giọng nói tối đa trên các kênh liên lạc rất chậm. Phiên bản mới có tính năng chuyển đổi sang kiến ​​trúc mạng thần kinh mới, hỗ trợ các nền tảng bổ sung, khả năng kiểm soát tốc độ bit mở rộng, hiệu suất được cải thiện và chất lượng âm thanh cao hơn. Việc triển khai mã tham chiếu được viết bằng C++ và được phân phối theo giấy phép Apache 2.0.

Về chất lượng dữ liệu giọng nói được truyền ở tốc độ thấp, Lyra vượt trội hơn đáng kể so với các codec truyền thống sử dụng phương pháp xử lý tín hiệu số. Để đạt được khả năng truyền giọng nói chất lượng cao trong điều kiện lượng thông tin truyền đi hạn chế, ngoài các phương pháp nén âm thanh và chuyển đổi tín hiệu thông thường, Lyra sử dụng mô hình giọng nói dựa trên hệ thống máy học, cho phép bạn tạo lại thông tin còn thiếu dựa trên đặc điểm lời nói điển hình.

Codec bao gồm một bộ mã hóa và một bộ giải mã. Thuật toán của bộ mã hóa tập trung vào việc trích xuất các tham số dữ liệu giọng nói cứ sau 20 mili giây, nén chúng và truyền chúng đến người nhận qua mạng với tốc độ bit từ 3.2kbps đến 9.2kbps. Ở đầu thu, bộ giải mã sử dụng mô hình tổng hợp để tái tạo lại tín hiệu giọng nói gốc dựa trên các tham số âm thanh được truyền, bao gồm các biểu đồ phổ logarit có tính đến các đặc tính năng lượng của giọng nói ở các dải tần khác nhau và được chuẩn bị có tính đến các mô hình của nhận thức thính giác của con người.

Lyra V2 sử dụng mô hình thế hệ mới dựa trên mạng thần kinh tích chập SoundStream, có yêu cầu tính toán thấp, cho phép giải mã theo thời gian thực ngay cả trên các hệ thống tiêu thụ điện năng thấp. Mô hình được sử dụng để tạo ra âm thanh đã được đào tạo bằng cách sử dụng hàng nghìn giờ ghi âm giọng nói bằng hơn 90 ngôn ngữ. TensorFlow Lite được sử dụng để thực thi mô hình. Hiệu suất triển khai được đề xuất là đủ để mã hóa và giải mã giọng nói trên điện thoại thông minh ở mức giá thấp hơn.

Ngoài việc sử dụng một mô hình sinh khác, phiên bản mới còn đáng chú ý khi đưa vào kiến ​​trúc codec của các liên kết với bộ lượng tử hóa RVQ (Residual Vector Quantizer), được thực thi ở phía người gửi trước khi truyền dữ liệu và ở phía người nhận. sau khi nhận được dữ liệu. Bộ lượng tử hóa chuyển đổi các tham số do codec tạo ra thành các tập gói, mã hóa thông tin liên quan đến tốc độ bit đã chọn. Để cung cấp các mức chất lượng khác nhau, bộ lượng tử hóa được cung cấp cho ba tốc độ bit (3.2 kps, 6 kbps và 9.2 kbps), tốc độ bit càng cao thì chất lượng càng tốt nhưng yêu cầu băng thông càng cao.

Google phát hành codec âm thanh mã nguồn mở Lyra V2

Kiến trúc mới đã giảm độ trễ truyền tín hiệu từ 100 xuống 20 mili giây. Để so sánh, codec Opus cho WebRTC đã chứng minh độ trễ là 26.5 mili giây, 46.5 mili giây và 66.5 mili giây ở tốc độ bit được thử nghiệm. Hiệu suất của bộ mã hóa và giải mã cũng tăng lên đáng kể - nhanh hơn tới 5 lần so với phiên bản trước. Ví dụ: trên điện thoại thông minh Pixel 6 Pro, codec mới mã hóa và giải mã mẫu 20 mili giây trong 0.57 mili giây, nhanh hơn 35 lần so với yêu cầu để truyền theo thời gian thực.

Ngoài hiệu suất, còn có thể cải thiện chất lượng phục hồi âm thanh - theo thang đo MUSHRA, chất lượng giọng nói ở tốc độ bit 3.2 kbps, 6 kbps và 9.2 kbps khi sử dụng codec Lyra V2 tương ứng với tốc độ bit 10 kbps, 13 kbps và 14 kbps khi sử dụng codec Opus.

Nguồn: opennet.ru

Thêm một lời nhận xét