การอ่านระหว่างโน้ต: ระบบส่งข้อมูลภายในเพลง

การอ่านระหว่างโน้ต: ระบบส่งข้อมูลภายในเพลง

แสดงออกถึงสิ่งที่คำพูดไม่สามารถถ่ายทอดได้ รู้สึกถึงอารมณ์ที่หลากหลายที่เกี่ยวพันกันในพายุเฮอริเคนแห่งความรู้สึก เพื่อแยกตัวออกจากโลก ท้องฟ้า และแม้กระทั่งจักรวาล ออกเดินทางโดยไม่มีแผนที่ ไม่มีถนน ไม่มีป้ายบอกทาง สร้างสรรค์ บอกเล่า และสัมผัสเรื่องราวทั้งหมดที่ยังคงความเป็นเอกลักษณ์และไม่มีใครเลียนแบบได้เสมอ ทั้งหมดนี้สามารถทำได้ด้วยดนตรี - ศิลปะที่มีมานับพันปีและทำให้หูและใจของเราพอใจ

อย่างไรก็ตาม ดนตรีหรือผลงานทางดนตรีไม่เพียงแต่ให้บริการเพื่อความพึงพอใจด้านสุนทรียภาพเท่านั้น แต่ยังรวมถึงการส่งข้อมูลที่เข้ารหัสในนั้นด้วย ซึ่งมีไว้สำหรับอุปกรณ์บางอย่างและผู้ฟังจะมองไม่เห็น วันนี้เราจะมาทำความรู้จักกับการศึกษาที่ไม่ธรรมดาซึ่งนักศึกษาระดับบัณฑิตศึกษาจาก ETH Zurich สามารถแนะนำข้อมูลบางอย่างในงานดนตรีโดยไม่มีใครสังเกตเห็นได้ เนื่องจากตัวดนตรีเองกลายเป็นช่องทางการส่งข้อมูล พวกเขาใช้เทคโนโลยีของพวกเขาอย่างไร ท่วงทำนองที่มีและไม่มีข้อมูลที่ฝังอยู่แตกต่างกันมาก และการทดสอบภาคปฏิบัติแสดงให้เห็นอะไร เราเรียนรู้เกี่ยวกับเรื่องนี้จากรายงานของนักวิจัย ไป.

พื้นฐานการวิจัย

นักวิจัยเรียกเทคโนโลยีของพวกเขาว่าเทคโนโลยีการส่งผ่านข้อมูลแบบอะคูสติก เมื่อผู้พูดเล่นทำนองที่ดัดแปลง บุคคลจะรับรู้ว่ามันเป็นเรื่องปกติ แต่ตัวอย่างเช่น สมาร์ทโฟนสามารถอ่านข้อมูลที่เข้ารหัสระหว่างบรรทัด หรือระหว่างโน้ตได้ เป็นต้น นักวิทยาศาสตร์ (ความจริงที่ว่าคนเหล่านี้ยังเป็นนักศึกษาระดับบัณฑิตศึกษาไม่ได้ขัดขวางพวกเขาจากการเป็นนักวิทยาศาสตร์) เรียกความเร็วและความน่าเชื่อถือของการส่งสัญญาณในขณะที่รักษาระดับของพารามิเตอร์เหล่านี้โดยไม่คำนึงถึงไฟล์เสียงที่เลือกว่าเป็นสิ่งสำคัญที่สุดในการดำเนินการ เทคนิคการถ่ายโอนข้อมูลนี้ Psychoacoustics ซึ่งศึกษาด้านจิตวิทยาและสรีรวิทยาของการรับรู้เสียงของมนุษย์ช่วยในการรับมือกับงานนี้

แกนหลักของการส่งข้อมูลอะคูสติกสามารถเรียกว่า OFDM (มัลติเพล็กซ์การแบ่งความถี่มุมฉาก) ซึ่งเมื่อรวมกับการปรับซับคาริเออร์ให้เข้ากับเพลงต้นฉบับเมื่อเวลาผ่านไป ทำให้สามารถใช้สเปกตรัมความถี่ที่ส่งในการส่งข้อมูลให้เกิดประโยชน์สูงสุด ด้วยเหตุนี้ จึงเป็นไปได้ที่จะบรรลุความเร็วในการส่งข้อมูล 412 bps ในระยะทางสูงสุด 24 เมตร (อัตราข้อผิดพลาด <10%) การทดลองภาคปฏิบัติที่เกี่ยวข้องกับอาสาสมัคร 40 คนยืนยันความจริงที่ว่าแทบจะเป็นไปไม่ได้เลยที่จะได้ยินความแตกต่างระหว่างทำนองดั้งเดิมกับทำนองที่ฝังข้อมูลไว้

เทคโนโลยีนี้สามารถนำไปใช้ในทางปฏิบัติได้ที่ไหน? นักวิจัยมีคำตอบเป็นของตนเอง: สมาร์ทโฟน แล็ปท็อป และอุปกรณ์พกพาอื่นๆ สมัยใหม่เกือบทั้งหมดมีไมโครโฟน และสถานที่สาธารณะหลายแห่ง (ร้านกาแฟ ร้านอาหาร ศูนย์การค้า ฯลฯ) มีลำโพงพร้อมเพลงประกอบ เมโลดี้พื้นหลังนี้สามารถรวมข้อมูลสำหรับการเชื่อมต่อกับเครือข่าย Wi-Fi ได้โดยไม่จำเป็นต้องดำเนินการเพิ่มเติม

คุณสมบัติทั่วไปของการส่งข้อมูลทางเสียงได้ชัดเจนสำหรับเราแล้ว มาดูการศึกษาโดยละเอียดเกี่ยวกับโครงสร้างของระบบนี้กัน

คำอธิบายระบบ

การนำข้อมูลเข้าสู่ทำนองเกิดขึ้นเนื่องจากการมาสก์ความถี่ ในช่วงเวลาดังกล่าว ความถี่ในการมาสก์จะถูกระบุ และพาหะย่อย OFDM ที่อยู่ใกล้กับองค์ประกอบการมาสก์เหล่านี้จะถูกเต็มไปด้วยข้อมูล

การอ่านระหว่างโน้ต: ระบบส่งข้อมูลภายในเพลง
รูปภาพ #1: การแปลงไฟล์ต้นฉบับเป็นสัญญาณคอมโพสิต (ทำนอง + ข้อมูล) ที่ส่งผ่านลำโพง

ขั้นแรก สัญญาณเสียงต้นฉบับจะถูกแบ่งออกเป็นส่วนๆ ตามลำดับเพื่อการวิเคราะห์ แต่ละส่วนดังกล่าว (สูง) ของ L = 8820 ตัวอย่าง ซึ่งเท่ากับ 200 มิลลิวินาที จะถูกคูณด้วย หน้าต่าง* เพื่อลดผลกระทบจากขอบเขต

หน้าต่าง* เป็นฟังก์ชันการถ่วงน้ำหนักที่ใช้ในการควบคุมเอฟเฟกต์เนื่องจากกลีบข้างในการประมาณค่าสเปกตรัม

จากนั้น ตรวจพบความถี่ที่โดดเด่นของสัญญาณต้นฉบับในช่วงตั้งแต่ 500 Hz ถึง 9.8 kHz ซึ่งทำให้สามารถรับความถี่กำบัง fM,l สำหรับเซกเมนต์นี้ได้ นอกจากนี้ ข้อมูลยังถูกส่งในช่วงความถี่ต่ำตั้งแต่ 9.8 ถึง 10 kHz เพื่อสร้างตำแหน่งของผู้ให้บริการย่อยที่เครื่องรับ ขีดจำกัดบนของช่วงความถี่ที่ใช้ตั้งไว้ที่ 10 kHz เนื่องจากความไวต่ำของไมโครโฟนของสมาร์ทโฟนที่ความถี่สูง

ความถี่การมาสก์ถูกกำหนดสำหรับแต่ละส่วนที่วิเคราะห์แยกกัน โดยใช้วิธี HPS (สเปกตรัมผลิตภัณฑ์ฮาร์มอนิก) เพื่อระบุความถี่หลักทั้งสามความถี่ จากนั้นปัดเศษให้เป็นค่าที่ใกล้ที่สุดบนสเกลฮาร์มอนิกโครมาติก นี่คือวิธีการได้รับโน้ตหลัก fF,i = 1…3 โดยอยู่ระหว่างคีย์ C0 (16.35 Hz) และ B0 (30.87 Hz) จากข้อเท็จจริงที่ว่าบันทึกพื้นฐานต่ำเกินไปสำหรับใช้ในการส่งข้อมูล อ็อกเทฟที่สูงกว่า 500kfF ฉันคำนวณในช่วง 9.8 Hz ... 2 kHz ความถี่เหล่านี้จำนวนมาก (fO,l1) มีความเด่นชัดมากกว่าเนื่องจากธรรมชาติของ HPS

การอ่านระหว่างโน้ต: ระบบส่งข้อมูลภายในเพลง
รูปภาพ #2: อ็อกเทฟที่คำนวณได้ fO,l1 สำหรับโน้ตพื้นฐานและฮาร์โมนิก fH,l2 ของโทนเสียงที่เข้มที่สุด

ชุดผลลัพธ์ของอ็อกเทฟและฮาร์โมนิคถูกนำมาใช้เป็นความถี่ในการมาสก์ ซึ่งมาจากความถี่ subcarrier ของ OFDM fSC,k พาหะย่อยสองตัวถูกแทรกไว้ด้านล่างและเหนือแต่ละความถี่ของการมาสก์

จากนั้น สเปกตรัมของส่วนเสียง Hi จะถูกกรองที่ความถี่ subcarrier fSC,k หลังจากนั้น สัญลักษณ์ OFDM จะถูกสร้างขึ้นตามบิตข้อมูลใน Bi ซึ่งทำให้ส่วนคอมโพสิต Ci สามารถส่งผ่านลำโพงได้ ต้องเลือกขนาดและเฟสของคลื่นพาหะย่อยเพื่อให้ผู้รับสามารถแยกข้อมูลที่ส่งในขณะที่ผู้ฟังไม่สังเกตเห็นการเปลี่ยนแปลงในทำนอง

การอ่านระหว่างโน้ต: ระบบส่งข้อมูลภายในเพลง
ภาพที่ 3: ส่วนหนึ่งของสเปกตรัมและความถี่ซับคาริเออร์ของส่วน Hi ของทำนองต้นฉบับ

เมื่อมีการเล่นสัญญาณเสียงที่มีข้อมูลที่เข้ารหัสไว้ผ่านลำโพง ไมโครโฟนของอุปกรณ์รับสัญญาณจะบันทึกสัญญาณดังกล่าว หากต้องการค้นหาตำแหน่งเริ่มต้นของสัญลักษณ์ OFDM ที่ฝังไว้ จะต้องกรองระเบียนผ่านแบนด์พาสก่อน ด้วยวิธีนี้ ช่วงความถี่ด้านบนจะถูกแยกออกมา โดยที่ไม่มีสัญญาณรบกวนทางดนตรีระหว่างคลื่นพาหะย่อย คุณสามารถค้นหาจุดเริ่มต้นของสัญลักษณ์ OFDM ได้โดยใช้คำนำหน้าแบบวน

หลังจากตรวจพบการเริ่มต้นของสัญลักษณ์ OFDM เครื่องรับจะได้รับข้อมูลเกี่ยวกับบันทึกย่อที่โดดเด่นที่สุดผ่านการถอดรหัสโดเมนความถี่สูง นอกจากนี้ OFDM ยังค่อนข้างทนทานต่อแหล่งสัญญาณรบกวนย่านความถี่แคบ เนื่องจากจะส่งผลต่อคลื่นพาหะย่อยบางส่วนเท่านั้น

การทดสอบภาคปฏิบัติ

ลำโพง KRK Rokit 8 ทำหน้าที่เป็นแหล่งที่มาของท่วงทำนองที่ได้รับการดัดแปลง และสมาร์ทโฟน Nexus 5X ทำหน้าที่เป็นฝ่ายรับ

การอ่านระหว่างโน้ต: ระบบส่งข้อมูลภายในเพลง
รูปภาพ #4: ความแตกต่างระหว่าง OFDM จริงและจุดสูงสุดของความสัมพันธ์ที่วัดในอาคารที่ระยะ 5 ม. ระหว่างลำโพงและไมโครโฟน

จุด OFDM ส่วนใหญ่อยู่ในช่วงตั้งแต่ 0 ถึง 25 ms ดังนั้นคุณจึงสามารถค้นหาการเริ่มต้นที่ถูกต้องภายในส่วนนำหน้าแบบวนรอบ 66.6 ms นักวิจัยตั้งข้อสังเกตว่าเครื่องรับ (ในการทดลองนี้คือสมาร์ทโฟน) คำนึงถึงว่ามีการเล่นสัญลักษณ์ OFDM เป็นระยะ ซึ่งจะช่วยปรับปรุงการตรวจจับ

สิ่งแรกที่ต้องตรวจสอบคือผลกระทบของระยะทางต่ออัตราความผิดพลาดของบิต (BER) เมื่อต้องการทำเช่นนี้ มีการทดสอบสามครั้งในห้องประเภทต่างๆ ได้แก่ ทางเดินปูพรม สำนักงานที่มีเสื่อน้ำมันอยู่บนพื้น และหอประชุมที่มีพื้นไม้


เพลง "And The Cradle Will Rock" ของ Van Halen ได้รับเลือกให้เป็นหัวข้อทดสอบ

มีการปรับระดับเสียงเพื่อให้ระดับเสียงที่สมาร์ทโฟนวัดได้ในระยะ 2 เมตรจากลำโพงคือ 63 dB

การอ่านระหว่างโน้ต: ระบบส่งข้อมูลภายในเพลง
ภาพที่ 5: ตัวบ่งชี้ BER ขึ้นอยู่กับระยะห่างระหว่างลำโพงและไมโครโฟน (เส้นสีน้ำเงิน - ผู้ฟัง สีเขียว - ทางเดิน สีส้ม - สำนักงาน)

ในโถงทางเดิน สมาร์ทโฟนจับเสียงได้ 40 เดซิเบล ซึ่งอยู่ห่างจากลำโพงสูงสุด 24 เมตร ในห้องเรียนที่ระยะ 15 ม. เสียงจะอยู่ที่ 55 เดซิเบล และในสำนักงานที่ระยะ 8 เมตร ระดับเสียงที่สมาร์ทโฟนรับรู้จะสูงถึง 57 เดซิเบล

เนื่องจากหอประชุมและสำนักงานมีเสียงสะท้อนมากกว่า สัญลักษณ์ OFDM ช่วงท้ายจึงสะท้อนเกินความยาวของคำนำหน้าแบบวนและเพิ่ม BER

เสียงก้อง* - ความเข้มของเสียงลดลงทีละน้อยเนื่องจากการสะท้อนหลายครั้ง

นักวิจัยยังแสดงให้เห็นถึงความเก่งกาจของระบบโดยนำไปใช้กับเพลงที่แตกต่างกัน 6 เพลงจากสามแนวเพลง (ตารางด้านล่าง)

การอ่านระหว่างโน้ต: ระบบส่งข้อมูลภายในเพลง
ตารางที่ 1: เพลงที่ใช้ในการทดสอบ

นอกจากนี้ จากข้อมูลตาราง เราสามารถดูอัตราบิตและอัตราข้อผิดพลาดบิตสำหรับแต่ละเพลงได้ อัตราข้อมูลจะแตกต่างกันเนื่องจาก BPSK แบบดิฟเฟอเรนเชียล (การคีย์การเปลี่ยนเฟส) ทำงานได้ดีขึ้นเมื่อใช้พาหะย่อยเดียวกัน และสิ่งนี้เป็นไปได้เมื่อส่วนที่อยู่ติดกันมีองค์ประกอบการมาสก์เหมือนกัน เพลงที่ดังอย่างต่อเนื่องเป็นฐานที่เหมาะสมที่สุดสำหรับการซ่อนข้อมูล เนื่องจากความถี่การมาสก์จะปรากฏชัดเจนยิ่งขึ้นในช่วงความถี่ที่กว้าง เพลงที่ดำเนินไปอย่างรวดเร็วสามารถปกปิดสัญลักษณ์ OFDM ได้เพียงบางส่วนเท่านั้น เนื่องจากความยาวคงที่ของหน้าต่างการวิเคราะห์

ต่อไป ผู้คนเริ่มทดสอบระบบ โดยต้องพิจารณาว่าทำนองไหนเป็นต้นฉบับ และเพลงไหนถูกแก้ไขโดยข้อมูลที่ฝังอยู่ในนั้น เพื่อจุดประสงค์นี้จึงโพสต์เพลงที่ตัดตอนมา 12 วินาทีจากตารางหมายเลข 1 บนเว็บไซต์พิเศษ

ในการทดลองครั้งแรก (E1) ผู้เข้าร่วมแต่ละคนจะได้รับชิ้นส่วนที่แก้ไขหรือต้นฉบับเพื่อฟัง และต้องตัดสินใจว่าชิ้นส่วนนั้นเป็นต้นฉบับหรือมีการดัดแปลง ในการทดลองครั้งที่สอง (E2) ผู้เข้าร่วมสามารถฟังทั้งสองเวอร์ชันได้บ่อยเท่าที่ต้องการ จากนั้นจึงตัดสินใจว่าเวอร์ชันใดเป็นต้นฉบับและเวอร์ชันใดได้รับการแก้ไข

การอ่านระหว่างโน้ต: ระบบส่งข้อมูลภายในเพลง
ตารางที่ 2: ผลการทดลอง E1 และ E2

ผลลัพธ์ของการทดลองครั้งแรกมีตัวบ่งชี้สองตัว: p(O|O) - เปอร์เซ็นต์ของผู้เข้าร่วมที่ทำเครื่องหมายทำนองเพลงต้นฉบับอย่างถูกต้อง และ p(O|M) - เปอร์เซ็นต์ของผู้เข้าร่วมที่ทำเครื่องหมายทำนองเพลงเวอร์ชันแก้ไขว่าเป็นต้นฉบับ

น่าสนใจที่ผู้เข้าร่วมบางคนตามที่นักวิจัยระบุว่า ท่วงทำนองที่เปลี่ยนแปลงบางอย่างมีความเป็นต้นฉบับมากกว่าต้นฉบับ ค่าเฉลี่ยของการทดลองทั้งสองแสดงให้เห็นว่าผู้ฟังโดยเฉลี่ยจะไม่สังเกตเห็นความแตกต่างระหว่างทำนองปกติกับทำนองที่ฝังข้อมูลไว้

โดยธรรมชาติแล้วผู้เชี่ยวชาญด้านดนตรีและนักดนตรีจะสามารถตรวจจับความไม่ถูกต้องและองค์ประกอบที่น่าสงสัยในท่วงทำนองที่เปลี่ยนไปได้ แต่องค์ประกอบเหล่านี้ไม่สำคัญมากจนทำให้รู้สึกไม่สบาย

และตอนนี้เราเองก็สามารถมีส่วนร่วมในการทดลองได้แล้ว ด้านล่างนี้เป็นทำนองเดียวกันสองเวอร์ชัน - ต้นฉบับและเวอร์ชันแก้ไข คุณได้ยินความแตกต่างไหม?

ทำนองเวอร์ชั่นต้นฉบับ
vs
ทำนองเวอร์ชั่นดัดแปลง

สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับความแตกต่างของการศึกษาฉันขอแนะนำให้ดู รายงาน กลุ่มวิจัย

คุณยังสามารถดาวน์โหลดไฟล์เสียง ZIP ของเพลงต้นฉบับและเพลงดัดแปลงที่ใช้ในการวิจัยได้ที่ การเชื่อมโยงนี้.

ถ้อยคำส

ในงานนี้ นักศึกษาระดับบัณฑิตศึกษาจาก ETH Zurich บรรยายถึงระบบการส่งข้อมูลที่น่าทึ่งภายในดนตรี ในการทำเช่นนี้ พวกเขาใช้การปิดบังความถี่ ซึ่งทำให้สามารถฝังข้อมูลลงในทำนองเพลงที่ผู้พูดเล่นได้ ไมโครโฟนของอุปกรณ์จะรับรู้ทำนองนี้ ซึ่งจะจดจำข้อมูลที่ซ่อนอยู่และถอดรหัส ในขณะที่ผู้ฟังโดยเฉลี่ยจะไม่สังเกตเห็นความแตกต่างด้วยซ้ำ ในอนาคตพวกเขาวางแผนที่จะพัฒนาระบบโดยเลือกวิธีการขั้นสูงเพิ่มเติมในการแนะนำข้อมูลเป็นเสียง

เมื่อมีคนเจอเรื่องผิดปกติ และที่สำคัญที่สุดคือเรื่องที่ได้ผล เราก็จะมีความสุขเสมอ แต่ที่น่ายินดียิ่งกว่านั้นคือสิ่งประดิษฐ์นี้ถูกสร้างขึ้นโดยคนหนุ่มสาว วิทยาศาสตร์ไม่มีข้อจำกัดด้านอายุ และถ้าคนหนุ่มสาวพบว่าวิทยาศาสตร์น่าเบื่อ ก็แสดงว่าวิทยาศาสตร์ถูกนำเสนอจากมุมที่ผิด ดังที่เราทราบ วิทยาศาสตร์เป็นโลกที่น่าอัศจรรย์ที่ไม่เคยหยุดนิ่งที่จะประหลาดใจ

ปิดด้านบนวันศุกร์:


เนื่องจากเรากำลังพูดถึงดนตรีหรือเพลงร็อคมากกว่า นี่คือการเดินทางที่ยอดเยี่ยมผ่านความกว้างใหญ่ของดนตรีร็อค


ราชินี "Radio Ga Ga" (1984)

ขอบคุณสำหรับการอ่าน อยากรู้อยากเห็น และขอให้ทุกคนมีวันหยุดสุดสัปดาห์ที่ดี! 🙂

ขอบคุณที่อยู่กับเรา คุณชอบบทความของเราหรือไม่? ต้องการดูเนื้อหาที่น่าสนใจเพิ่มเติมหรือไม่ สนับสนุนเราโดยการสั่งซื้อหรือแนะนำให้เพื่อน ส่วนลด 30% สำหรับผู้ใช้ Habr ในอะนาล็อกที่ไม่ซ้ำใครของเซิร์ฟเวอร์ระดับเริ่มต้น ซึ่งเราคิดค้นขึ้นเพื่อคุณ: ความจริงทั้งหมดเกี่ยวกับ VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps จาก $20 หรือจะแชร์เซิร์ฟเวอร์ได้อย่างไร (ใช้ได้กับ RAID1 และ RAID10 สูงสุด 24 คอร์ และสูงสุด 40GB DDR4)

Dell R730xd ถูกกว่า 2 เท่า? ที่นี่ที่เดียวเท่านั้น 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ทีวีจาก $199 ในเนเธอร์แลนด์! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - จาก $99! อ่านเกี่ยวกับ วิธีสร้างบริษัทโครงสร้างพื้นฐาน ระดับด้วยการใช้เซิร์ฟเวอร์ Dell R730xd E5-2650 v4 มูลค่า 9000 ยูโรต่อเพนนี?

ที่มา: will.com

เพิ่มความคิดเห็น