Google ได้เผยแพร่ตัวแปลงสัญญาณเสียง Lyra สำหรับการส่งคำพูดด้วยคุณภาพการเชื่อมต่อที่ไม่ดี

Google ได้เปิดตัวตัวแปลงสัญญาณเสียงใหม่ Lyra ซึ่งได้รับการปรับให้เหมาะสมเพื่อให้ได้คุณภาพเสียงสูงสุดแม้ว่าจะใช้ช่องทางการสื่อสารที่ช้ามากก็ตาม โค้ดการใช้งาน Lyra เขียนด้วยภาษา C++ และเปิดภายใต้ลิขสิทธิ์ Apache 2.0 แต่ในบรรดาการขึ้นต่อกันที่จำเป็นสำหรับการดำเนินการนั้น ยังมีไลบรารี่ที่เป็นกรรมสิทธิ์ libsparse_inference.so พร้อมการใช้งานเคอร์เนลสำหรับการคำนวณทางคณิตศาสตร์ มีข้อสังเกตว่าไลบรารีที่เป็นกรรมสิทธิ์นั้นเป็นแบบชั่วคราว - ในอนาคต Google สัญญาว่าจะพัฒนาระบบทดแทนแบบเปิดและให้การสนับสนุนแพลตฟอร์มต่างๆ

ในแง่ของคุณภาพของข้อมูลเสียงที่ส่งด้วยความเร็วต่ำ Lyra นั้นเหนือกว่าตัวแปลงสัญญาณแบบดั้งเดิมที่ใช้วิธีการประมวลผลสัญญาณดิจิทัลอย่างมาก เพื่อให้ได้การส่งสัญญาณเสียงคุณภาพสูงในเงื่อนไขของข้อมูลที่ส่งในจำนวนจำกัด นอกเหนือจากวิธีการบีบอัดเสียงและการแปลงสัญญาณแบบเดิม Lyra ใช้โมเดลเสียงพูดตามระบบการเรียนรู้ของเครื่อง ซึ่งช่วยให้คุณสร้างข้อมูลที่ขาดหายไปขึ้นมาใหม่ตาม ลักษณะการพูดทั่วไป โมเดลที่ใช้สร้างเสียงได้รับการฝึกฝนโดยใช้การบันทึกเสียงหลายพันชั่วโมงในกว่า 70 ภาษา

Google ได้เผยแพร่ตัวแปลงสัญญาณเสียง Lyra สำหรับการส่งคำพูดด้วยคุณภาพการเชื่อมต่อที่ไม่ดี

ตัวแปลงสัญญาณประกอบด้วยตัวเข้ารหัสและตัวถอดรหัส อัลกอริธึมของตัวเข้ารหัสจะแยกพารามิเตอร์ข้อมูลเสียงทุกๆ 40 มิลลิวินาที บีบอัดและส่งไปยังผู้รับผ่านเครือข่าย ช่องทางการสื่อสารด้วยความเร็ว 3 กิโลบิตต่อวินาทีก็เพียงพอสำหรับการส่งข้อมูล พารามิเตอร์เสียงที่แยกออกมาประกอบด้วยสเปกโตรแกรมเมลลอการิทึมที่คำนึงถึงลักษณะพลังงานของคำพูดในช่วงความถี่ที่แตกต่างกัน และจัดทำโดยคำนึงถึงแบบจำลองการรับรู้การได้ยินของมนุษย์

Google ได้เผยแพร่ตัวแปลงสัญญาณเสียง Lyra สำหรับการส่งคำพูดด้วยคุณภาพการเชื่อมต่อที่ไม่ดี

ตัวถอดรหัสใช้โมเดลกำเนิดที่สร้างสัญญาณเสียงพูดขึ้นใหม่ตามพารามิเตอร์เสียงที่ส่ง เพื่อลดความซับซ้อนในการคำนวณ จึงมีการใช้แบบจำลองน้ำหนักเบาที่ใช้โครงข่ายประสาทเทียมที่เกิดซ้ำ ซึ่งเป็นอีกรูปแบบหนึ่งของแบบจำลองการสังเคราะห์เสียงพูด WaveRNN ซึ่งใช้ความถี่ในการสุ่มตัวอย่างที่ต่ำกว่า แต่สร้างสัญญาณหลายสัญญาณขนานกันในช่วงความถี่ที่ต่างกัน จากนั้นสัญญาณผลลัพธ์จะถูกซ้อนทับเพื่อสร้างสัญญาณเอาต์พุตเดี่ยวที่สอดคล้องกับอัตราการสุ่มตัวอย่างที่ระบุ

คำแนะนำโปรเซสเซอร์พิเศษที่มีอยู่ในโปรเซสเซอร์ ARM 64 บิตยังใช้สำหรับการเร่งความเร็วด้วย ด้วยเหตุนี้ แม้ว่าจะใช้การเรียนรู้ของเครื่อง แต่ตัวแปลงสัญญาณ Lyra ก็สามารถนำมาใช้สำหรับการเข้ารหัสและถอดรหัสคำพูดแบบเรียลไทม์บนสมาร์ทโฟนระดับกลางได้ ซึ่งแสดงให้เห็นถึงความหน่วงในการส่งสัญญาณที่ 90 มิลลิวินาที

ที่มา: opennet.ru

เพิ่มความคิดเห็น