Google ได้เปิดตัวตัวแปลงสัญญาณเสียง Lyra V2 ซึ่งใช้เทคนิคการเรียนรู้ของเครื่องเพื่อให้ได้คุณภาพเสียงสูงสุดผ่านช่องทางการสื่อสารที่ช้ามาก เวอร์ชันใหม่มีการเปลี่ยนไปใช้สถาปัตยกรรมโครงข่ายประสาทเทียมใหม่ รองรับแพลตฟอร์มเพิ่มเติม การควบคุมบิตเรตที่ได้รับการปรับปรุง การปรับปรุงประสิทธิภาพ และคุณภาพเสียงที่สูงขึ้น การใช้งานโค้ดอ้างอิงเขียนด้วยภาษา C++ และเผยแพร่ภายใต้ลิขสิทธิ์ Apache 2.0
ในแง่ของคุณภาพของข้อมูลเสียงที่ส่งด้วยความเร็วต่ำ Lyra เหนือกว่าตัวแปลงสัญญาณแบบดั้งเดิมที่ใช้วิธีการประมวลผลสัญญาณดิจิทัลอย่างมาก เพื่อให้ได้การส่งสัญญาณเสียงคุณภาพสูงในเงื่อนไขของข้อมูลที่ส่งในปริมาณจำกัด นอกเหนือจากวิธีปกติของการบีบอัดเสียงและการแปลงสัญญาณ Lyra ใช้แบบจำลองเสียงพูดตามระบบการเรียนรู้ของเครื่องที่ช่วยให้คุณสร้างข้อมูลที่ขาดหายไป ตามลักษณะการพูดโดยทั่วไป
ตัวแปลงสัญญาณประกอบด้วยตัวเข้ารหัสและตัวถอดรหัส อัลกอริทึมของตัวเข้ารหัสคือการแยกพารามิเตอร์ข้อมูลเสียงทุกๆ 20 มิลลิวินาที บีบอัดและถ่ายโอนไปยังผู้รับผ่านเครือข่ายด้วยอัตราบิตตั้งแต่ 3.2kbps ถึง 9.2kbps ในด้านเครื่องรับ ตัวถอดรหัสใช้แบบจำลองเชิงกำเนิดเพื่อสร้างสัญญาณเสียงพูดต้นฉบับขึ้นใหม่ตามพารามิเตอร์เสียงที่ส่ง ซึ่งรวมถึงลอการิทึมชอล์คสเปกโตรแกรมที่พิจารณาลักษณะพลังงานเสียงพูดในช่วงความถี่ต่างๆ และจัดทำขึ้นโดยคำนึงถึงการรับรู้ทางการได้ยินของมนุษย์ แบบอย่าง.
Lyra V2 ใช้โมเดลเจเนอเรทีฟใหม่ตามเครือข่ายประสาทเทียมแบบ Convolutional ของ SoundStream ซึ่งโดดเด่นด้วยความต้องการทรัพยากรการประมวลผลต่ำ ซึ่งช่วยให้สามารถถอดรหัสแบบเรียลไทม์แม้ในระบบไฟฟ้าที่ใช้พลังงานต่ำ โมเดลที่ใช้ในการสร้างเสียงนั้นได้รับการฝึกฝนโดยใช้การบันทึกเสียงหลายพันชั่วโมงในกว่า 90 ภาษา TensorFlow Lite ใช้เพื่อดำเนินการโมเดล ประสิทธิภาพของการใช้งานที่เสนอนั้นเพียงพอสำหรับการเข้ารหัสและถอดรหัสคำพูดบนสมาร์ทโฟนในช่วงราคาที่ต่ำกว่า
นอกเหนือจากการใช้โมเดลเชิงปริมาณที่แตกต่างกันแล้ว เวอร์ชันใหม่นี้ยังโดดเด่นในเรื่องการรวมลิงก์กับตัวระบุปริมาณ RVQ (Residual Vector Quantizer) ในสถาปัตยกรรมตัวแปลงสัญญาณ ซึ่งดำเนินการที่ฝั่งผู้ส่งก่อนการส่งข้อมูล และฝั่งผู้รับ หลังจากรับข้อมูล quantizer แปลงพารามิเตอร์ที่กำหนดโดยตัวแปลงสัญญาณให้เป็นชุดของแพ็กเก็ต เข้ารหัสข้อมูลที่สัมพันธ์กับบิตเรตที่เลือก เพื่อให้มั่นใจในระดับคุณภาพที่แตกต่างกัน quantizers จะถูกจัดเตรียมไว้สำหรับอัตราบิตสามแบบ (3.2 kps, 6 kbps และ 9.2 kbps) ยิ่งอัตราบิตสูง คุณภาพก็จะยิ่งดีขึ้น แต่ความต้องการแบนด์วิธก็จะยิ่งสูงขึ้น

สถาปัตยกรรมใหม่ได้ลดความล่าช้าในการส่งสัญญาณจาก 100 เป็น 20 มิลลิวินาที สำหรับการเปรียบเทียบ Opus codec สำหรับ WebRTC แสดงความล่าช้า 26.5ms, 46.5ms และ 66.5ms ที่บิตเรตที่ทดสอบ ประสิทธิภาพของตัวเข้ารหัสและตัวถอดรหัสก็เพิ่มขึ้นอย่างมาก - เมื่อเทียบกับรุ่นก่อนหน้ามีการเร่งความเร็วสูงสุด 5 เท่า ตัวอย่างเช่น บนสมาร์ทโฟน Pixel 6 Pro ตัวแปลงสัญญาณใหม่จะเข้ารหัสและถอดรหัสตัวอย่าง 20 มิลลิวินาทีในเวลา 0.57 มิลลิวินาที ซึ่งเร็วกว่าที่จำเป็นสำหรับการส่งข้อมูลแบบเรียลไทม์ถึง 35 เท่า
นอกจากประสิทธิภาพแล้ว เรายังสามารถปรับปรุงคุณภาพของการฟื้นฟูเสียง - ตามมาตรฐาน MUSHRA คุณภาพของเสียงพูดที่อัตราบิต 3.2 kbps, 6 kbps และ 9.2 kbps เมื่อใช้ตัวแปลงสัญญาณ Lyra V2 จะสอดคล้องกับอัตราบิต 10 kbps, 13 kbps และ 14 kbps เมื่อใช้ Opus codec
ที่มา: opennet.ru
