Facebook เผยแพร่ตัวแปลงสัญญาณเสียง EnCodec โดยใช้การเรียนรู้ของเครื่อง

Meta/Facebook (ถูกแบนในสหพันธรัฐรัสเซีย) เปิดตัวตัวแปลงสัญญาณเสียงใหม่ EnCodec ซึ่งใช้วิธีการเรียนรู้ของเครื่องเพื่อเพิ่มอัตราส่วนการบีบอัดโดยไม่สูญเสียคุณภาพ ตัวแปลงสัญญาณสามารถใช้ได้ทั้งสำหรับการสตรีมเสียงแบบเรียลไทม์และสำหรับการเข้ารหัสเพื่อบันทึกในไฟล์ในภายหลัง การใช้งานอ้างอิง EnCodec เขียนด้วยภาษา Python โดยใช้เฟรมเวิร์ก PyTorch และได้รับอนุญาตภายใต้ใบอนุญาต CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) สำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์เท่านั้น

มีโมเดลสำเร็จรูปสองรุ่นให้ดาวน์โหลด:

  • โมเดลเชิงสาเหตุที่ใช้อัตราการสุ่มตัวอย่าง 24 kHz รองรับเฉพาะเสียงโมโนโฟนิก และฝึกฝนเกี่ยวกับข้อมูลเสียงที่หลากหลาย (เหมาะสำหรับการเข้ารหัสคำพูด) โมเดลนี้สามารถใช้เพื่อจัดแพ็คเกจข้อมูลเสียงสำหรับการส่งสัญญาณที่อัตราบิต 1.5, 3, 6, 12 และ 24 kbps
  • โมเดลที่ไม่เป็นสาเหตุซึ่งใช้อัตราการสุ่มตัวอย่าง 48 kHz รองรับเสียงสเตอริโอและฝึกฝนเฉพาะเพลงเท่านั้น โมเดลรองรับบิตเรต 3, 6, 12 และ 24 kbps

สำหรับแต่ละรุ่น มีการจัดเตรียมแบบจำลองภาษาเพิ่มเติมซึ่งช่วยให้อัตราการบีบอัดเพิ่มขึ้นอย่างมีนัยสำคัญ (สูงสุด 40%) โดยไม่สูญเสียคุณภาพ แตกต่างจากโครงการที่พัฒนาก่อนหน้านี้ซึ่งใช้วิธีการเรียนรู้ของเครื่องสำหรับการบีบอัดเสียง EnCodec สามารถใช้ไม่เพียงแต่สำหรับการบรรจุเสียงพูดเท่านั้น แต่ยังใช้สำหรับการบีบอัดเพลงด้วยอัตราการสุ่มตัวอย่าง 48 kHz ซึ่งสอดคล้องกับระดับของซีดีเพลง ตามที่นักพัฒนาตัวแปลงสัญญาณใหม่เมื่อส่งสัญญาณด้วยบิตเรต 64 kbps เมื่อเทียบกับรูปแบบ MP3 พวกเขาสามารถเพิ่มระดับการบีบอัดเสียงได้ประมาณสิบเท่าในขณะที่ยังคงคุณภาพระดับเดิม (เช่นเมื่อใช้ MP3 ต้องใช้แบนด์วิธ 64 kbps สำหรับการส่งสัญญาณที่มีคุณภาพเดียวกันใน EnCodec ก็เพียงพอแล้ว 6 kbps)

สถาปัตยกรรมโคเดกสร้างขึ้นบนโครงข่ายประสาทเทียมที่มีสถาปัตยกรรม "หม้อแปลง" และอิงตามลิงก์ XNUMX ลิงก์ ได้แก่ ตัวเข้ารหัส ควอไทเซอร์ ตัวถอดรหัส และตัวแยกแยะ ตัวเข้ารหัสจะแยกพารามิเตอร์ของข้อมูลเสียงและแปลงสตรีมที่อัดแน่นให้เป็นอัตราเฟรมที่ต่ำกว่า ควอนไทเซอร์ (RVQ, Residual Vector Quantizer) แปลงเอาต์พุตสตรีมโดยตัวเข้ารหัสให้เป็นชุดแพ็กเก็ต โดยบีบอัดข้อมูลตามบิตเรตที่เลือก เอาต์พุตของควอนไทเซอร์คือการแสดงข้อมูลที่ถูกบีบอัด ซึ่งเหมาะสำหรับการส่งข้อมูลผ่านเครือข่ายหรือการบันทึกลงดิสก์

ตัวถอดรหัสจะถอดรหัสการแสดงข้อมูลที่ถูกบีบอัดและสร้างคลื่นเสียงต้นฉบับขึ้นมาใหม่ ผู้แยกแยะจะปรับปรุงคุณภาพของตัวอย่างที่สร้างขึ้นโดยคำนึงถึงรูปแบบการรับรู้การได้ยินของมนุษย์ ไม่ว่าคุณภาพและบิตเรตจะอยู่ในระดับใด โมเดลที่ใช้ในการเข้ารหัสและถอดรหัสนั้นมีความโดดเด่นด้วยความต้องการทรัพยากรที่ค่อนข้างเรียบง่าย (การคำนวณที่จำเป็นสำหรับการทำงานแบบเรียลไทม์จะดำเนินการบนคอร์ CPU เดียว)

Facebook เผยแพร่ตัวแปลงสัญญาณเสียง EnCodec โดยใช้การเรียนรู้ของเครื่อง


ที่มา: opennet.ru

เพิ่มความคิดเห็น