نوٹوں کے درمیان پڑھنا: میوزک کے اندر ڈیٹا ٹرانسمیشن سسٹم

نوٹوں کے درمیان پڑھنا: میوزک کے اندر ڈیٹا ٹرانسمیشن سسٹم

بیان کریں جو الفاظ بیان نہیں کر سکتے؛ جذبات کے سمندری طوفان میں جڑے ہوئے مختلف قسم کے جذبات کو محسوس کریں۔ زمین، آسمان اور خود کائنات سے الگ ہونا، ایسے سفر پر جانا جہاں کوئی نقشہ نہیں، سڑکیں نہیں، کوئی نشان نہیں؛ ایک پوری کہانی ایجاد کریں، سنائیں اور تجربہ کریں جو ہمیشہ منفرد اور بے مثال رہے گی۔ یہ سب موسیقی کے ذریعہ کیا جاسکتا ہے - ایک ایسا فن جو ہزاروں سالوں سے موجود ہے اور ہمارے کانوں اور دلوں کو خوش کرتا ہے۔

تاہم، موسیقی، یا بلکہ موسیقی کے کام، نہ صرف جمالیاتی لذت کے لیے، بلکہ ان میں انکوڈ شدہ معلومات کی ترسیل کے لیے بھی کام کر سکتے ہیں، جس کا مقصد کسی آلے کے لیے اور سننے والوں کے لیے پوشیدہ ہے۔ آج ہم ایک بہت ہی غیر معمولی مطالعہ سے واقف ہوں گے جس میں ETH زیورخ کے گریجویٹ طلباء، انسانی کانوں کی طرف سے کسی کا دھیان نہیں رکھتے، موسیقی کے کاموں میں کچھ خاص ڈیٹا متعارف کروانے میں کامیاب ہو گئے، جس کی وجہ سے موسیقی خود ڈیٹا ٹرانسمیشن چینل بن جاتی ہے۔ انہوں نے اپنی ٹیکنالوجی کو کس طرح لاگو کیا، کیا ایمبیڈڈ ڈیٹا کے ساتھ اور اس کے بغیر دھنیں بہت مختلف ہیں، اور عملی ٹیسٹ نے کیا دکھایا؟ ہم اس بارے میں محققین کی رپورٹ سے سیکھتے ہیں۔ جاؤ.

تحقیق کی بنیاد

محققین اپنی ٹیکنالوجی کو ایکوسٹک ڈیٹا ٹرانسمیشن ٹیکنالوجی کہتے ہیں۔ جب کوئی اسپیکر ترمیم شدہ راگ بجاتا ہے، تو ایک شخص اسے معمول کے مطابق سمجھتا ہے، لیکن، مثال کے طور پر، اسمارٹ فون لائنوں کے درمیان، یا نوٹوں کے درمیان انکوڈ شدہ معلومات کو پڑھ سکتا ہے، اس لیے بولنے کے لیے۔ سائنسدان (حقیقت یہ ہے کہ یہ لوگ اب بھی گریجویٹ طالب علم ہیں انہیں سائنسدان بننے سے نہیں روکتا) ان پیرامیٹرز کی سطح کو برقرار رکھتے ہوئے ٹرانسمیشن کی رفتار اور وشوسنییتا کو، منتخب آڈیو فائل سے قطع نظر، کے نفاذ میں سب سے اہم پہلو کے طور پر ڈیٹا کی منتقلی کی یہ تکنیک۔ سائیکوکوسٹکس، جو آوازوں کے انسانی ادراک کے نفسیاتی اور جسمانی پہلوؤں کا مطالعہ کرتی ہے، اس کام سے نمٹنے میں مدد کرتی ہے۔

صوتی ڈیٹا کی ترسیل کے بنیادی حصے کو OFDM (آرتھوگونل فریکوئنسی ڈویژن ملٹی پلیکسنگ) کہا جا سکتا ہے، جس نے وقت کے ساتھ ساتھ ماخذ موسیقی میں سب کیریئرز کی موافقت کے ساتھ، معلومات کی ترسیل کے لیے منتقل شدہ فریکوئنسی سپیکٹرم کا زیادہ سے زیادہ استعمال کرنا ممکن بنایا۔ اس کی بدولت، 412 میٹر (غلطی کی شرح <24%) کے فاصلے پر 10 bps کی ترسیل کی رفتار حاصل کرنا ممکن ہوا۔ 40 رضاکاروں پر مشتمل عملی تجربات نے اس حقیقت کی تصدیق کی کہ اصل راگ اور جس میں معلومات سرایت کی گئی تھیں کے درمیان فرق کو سننا تقریباً ناممکن ہے۔

اس ٹیکنالوجی کو عملی طور پر کہاں لاگو کیا جا سکتا ہے؟ محققین کا اپنا جواب ہے: تقریباً تمام جدید اسمارٹ فونز، لیپ ٹاپ اور دیگر ہینڈ ہیلڈ ڈیوائسز مائیکروفون سے لیس ہیں، اور بہت سے عوامی مقامات (کیفے، ریستوراں، شاپنگ سینٹرز وغیرہ) میں پس منظر کی موسیقی کے ساتھ اسپیکر ہوتے ہیں۔ مثال کے طور پر، اس پس منظر کی میلوڈی میں اضافی کارروائیوں کی ضرورت کے بغیر کسی Wi-Fi نیٹ ورک سے منسلک ہونے کا ڈیٹا شامل کیا جا سکتا ہے۔

صوتی ڈیٹا کی ترسیل کی عمومی خصوصیات ہم پر واضح ہو چکی ہیں، اب آئیے اس نظام کی ساخت کے تفصیلی مطالعہ کی طرف چلتے ہیں۔

سسٹم کی تفصیل

میلوڈی میں ڈیٹا کا تعارف فریکوئنسی ماسکنگ کی وجہ سے ہوتا ہے۔ ٹائم سلاٹس میں، ماسکنگ فریکوئنسیوں کی نشاندہی کی جاتی ہے اور ان ماسکنگ عناصر کے قریب OFDM سب کیریئرز ڈیٹا سے بھرے ہوتے ہیں۔

نوٹوں کے درمیان پڑھنا: میوزک کے اندر ڈیٹا ٹرانسمیشن سسٹم
تصویر #1: اصل فائل کو سپیکرز کے ذریعے منتقل ہونے والے کمپوزٹ سگنل (میلوڈی + ڈیٹا) میں تبدیل کرنا۔

شروع کرنے کے لیے، اصل آڈیو سگنل کو تجزیہ کے لیے یکے بعد دیگرے حصوں میں تقسیم کیا گیا ہے۔ L = 8820 نمونوں کے اس طرح کے ہر حصے (Hi) کو، 200 ms کے برابر، سے ضرب دیا جاتا ہے۔ کھڑکی* سرحدی اثرات کو کم کرنے کے لیے۔

کھڑکی* سپیکٹرل تخمینوں میں سائڈلوبس کی وجہ سے اثرات کو کنٹرول کرنے کے لیے استعمال ہونے والا وزن کا فنکشن ہے۔

اس کے بعد، 500 Hz سے 9.8 kHz کی حد میں اصل سگنل کی غالب فریکوئنسیوں کا پتہ چلا، جس نے اس حصے کے لیے ماسکنگ فریکوئنسی fM,l حاصل کرنا ممکن بنایا۔ اس کے علاوہ، ڈیٹا کو 9.8 سے 10 kHz تک ایک چھوٹی رینج میں منتقل کیا گیا تاکہ وصول کنندہ پر سب کیرئیر کا مقام معلوم کیا جا سکے۔ اعلی تعدد پر اسمارٹ فون مائیکروفون کی کم حساسیت کی وجہ سے استعمال شدہ فریکوئنسی رینج کی بالائی حد 10 kHz پر سیٹ کی گئی تھی۔

ہر تجزیہ شدہ طبقہ کے لیے انفرادی طور پر ماسکنگ فریکوئنسی کا تعین کیا گیا تھا۔ HPS (ہارمونک پروڈکٹ سپیکٹرم) کے طریقہ کار کا استعمال کرتے ہوئے، تین غالب تعدد کی نشاندہی کی گئی اور پھر ہارمونک رنگین پیمانے پر قریب ترین نوٹوں تک گول کر دی گئی۔ کلید C1 (3 Hz) اور B0 (16.35 Hz) کے درمیان پڑے ہوئے، اہم نوٹ fF,i = 0…30.87 حاصل کیے گئے تھے۔ اس حقیقت کی بنیاد پر کہ بنیادی نوٹ ڈیٹا ٹرانسمیشن میں استعمال کے لیے بہت کم ہیں، ان کے اعلی آکٹیو 500kfF،i کا حساب 9.8 Hz ... 2 kHz کی حد میں کیا گیا۔ ان میں سے بہت سے تعدد (fO، l1) HPS کی نوعیت کی وجہ سے زیادہ واضح تھے۔

نوٹوں کے درمیان پڑھنا: میوزک کے اندر ڈیٹا ٹرانسمیشن سسٹم
تصویر #2: بنیادی نوٹوں اور ہارمونکس fH,l1 کے سب سے مضبوط لہجے کے لیے حساب کردہ آکٹیو fO,l2۔

آکٹیو اور ہارمونکس کے نتیجے میں سیٹ کو ماسکنگ فریکوئنسی کے طور پر استعمال کیا گیا تھا، جس سے OFDM سب کیرئیر فریکوئنسیز fSC,k اخذ کیے گئے تھے۔ ہر ماسکنگ فریکوئنسی کے نیچے اور اوپر دو سب کیریئرز داخل کیے گئے تھے۔

اگلا، ہائ آڈیو سیگمنٹ کا سپیکٹرم سب کیرئیر فریکوئنسی fSC,k پر فلٹر کیا گیا۔ اس کے بعد، Bi میں موجود معلوماتی بٹس کی بنیاد پر ایک OFDM علامت بنائی گئی، جس کی وجہ سے کمپوزٹ سیگمنٹ Ci کو اسپیکر کے ذریعے منتقل کیا جا سکتا تھا۔ سب کیریئرز کی وسعت اور مراحل کا انتخاب کرنا ضروری ہے تاکہ وصول کنندہ منتقل شدہ ڈیٹا کو نکال سکے جب کہ سننے والے کو راگ میں تبدیلی محسوس نہ ہو۔

نوٹوں کے درمیان پڑھنا: میوزک کے اندر ڈیٹا ٹرانسمیشن سسٹم
تصویر نمبر 3: اصل راگ کے ہائی سیگمنٹ کے سپیکٹرم اور سب کیرئیر فریکوئنسی کا حصہ۔

جب اس میں انکوڈ شدہ معلومات کے ساتھ ایک آڈیو سگنل اسپیکر کے ذریعے چلایا جاتا ہے، تو وصول کرنے والے آلے کا مائکروفون اسے ریکارڈ کرتا ہے۔ ایمبیڈڈ OFDM علامتوں کی ابتدائی پوزیشنیں تلاش کرنے کے لیے، ریکارڈز کو پہلے بینڈ پاس فلٹر کرنے کی ضرورت ہے۔ اس طرح، اوپری فریکوئنسی رینج کو نکالا جاتا ہے، جہاں سب کیریئرز کے درمیان موسیقی کی مداخلت کے سگنل نہیں ہوتے ہیں۔ آپ OFDM علامتوں کا آغاز چکراتی سابقہ ​​استعمال کر سکتے ہیں۔

OFDM علامتوں کے آغاز کا پتہ لگانے کے بعد، وصول کنندہ ہائی فریکوئنسی ڈومین ڈی کوڈنگ کے ذریعے سب سے زیادہ غالب نوٹوں کے بارے میں معلومات حاصل کرتا ہے۔ اس کے علاوہ، OFDM تنگ بینڈ مداخلت کے ذرائع کے خلاف کافی مزاحم ہے، کیونکہ وہ صرف کچھ ذیلی کیریئرز کو متاثر کرتے ہیں۔

عملی امتحانات

KRK Rokit 8 اسپیکر نے ترمیم شدہ دھنوں کے ماخذ کے طور پر کام کیا، اور Nexus 5X اسمارٹ فون نے وصول کرنے والے فریق کا کردار ادا کیا۔

نوٹوں کے درمیان پڑھنا: میوزک کے اندر ڈیٹا ٹرانسمیشن سسٹم
تصویر #4: اصل OFDM اور ارتباطی چوٹیوں کے درمیان فرق جو گھر کے اندر 5m پر اسپیکر اور مائیکروفون کے درمیان ماپا جاتا ہے۔

زیادہ تر OFDM پوائنٹس 0 سے 25 ms کے درمیان ہوتے ہیں، اس لیے آپ 66.6 ms سائیکلک سابقہ ​​کے اندر ایک درست آغاز تلاش کر سکتے ہیں۔ محققین نوٹ کرتے ہیں کہ وصول کنندہ (اس تجربے میں، ایک اسمارٹ فون) اس بات کو مدنظر رکھتا ہے کہ OFDM علامتیں وقتاً فوقتاً چلائی جاتی ہیں، جس سے ان کا پتہ لگانے میں بہتری آتی ہے۔

چیک کرنے کے لئے پہلی چیز بٹ ایرر ریٹ (BER) پر فاصلے کا اثر تھا۔ ایسا کرنے کے لیے، مختلف قسم کے کمروں میں تین ٹیسٹ کیے گئے: قالین کے ساتھ ایک کوریڈور، فرش پر لینولیم کے ساتھ ایک دفتر، اور لکڑی کے فرش کے ساتھ ایک آڈیٹوریم۔


وین ہیلن کا گانا "اینڈ دی کریڈل ول راک" کو امتحانی مضمون کے طور پر منتخب کیا گیا تھا۔

آواز کا حجم اس طرح ایڈجسٹ کیا گیا تھا کہ اسپیکر سے 2 میٹر کے فاصلے پر سمارٹ فون کے ذریعے ماپا جانے والی آواز کی سطح 63 ڈی بی تھی۔

نوٹوں کے درمیان پڑھنا: میوزک کے اندر ڈیٹا ٹرانسمیشن سسٹم
تصویر نمبر 5: BER اشارے اسپیکر اور مائیکروفون کے درمیان فاصلے پر منحصر ہے (نیلی لکیر - سامعین، سبز - کوریڈور، اورینج - آفس)۔

دالان میں، اسپیکر سے 40 میٹر کے فاصلے پر اسمارٹ فون کے ذریعے 24 ڈی بی کی آواز اٹھائی گئی۔ 15 میٹر کے فاصلے پر کلاس روم میں آواز 55 ڈی بی تھی، اور دفتر میں 8 میٹر کے فاصلے پر سمارٹ فون کے ذریعے سمجھی جانے والی آواز کی سطح 57 ڈی بی تک پہنچ گئی۔

چونکہ آڈیٹوریم اور آفس زیادہ گونجتے ہیں، دیر سے OFDM علامت کی بازگشت چکراتی سابقے کی لمبائی سے زیادہ ہوتی ہے اور BER میں اضافہ کرتی ہے۔

بازگشت* - آواز کی شدت میں بتدریج کمی اس کی متعدد عکاسیوں کی وجہ سے۔

محققین نے اپنے نظام کی استعداد کو مزید تین انواع کے 6 مختلف گانوں پر لاگو کر کے دکھایا (نیچے دی گئی جدول)۔

نوٹوں کے درمیان پڑھنا: میوزک کے اندر ڈیٹا ٹرانسمیشن سسٹم
ٹیبل نمبر 1: ٹیسٹ میں استعمال ہونے والے گانے۔

اس کے علاوہ، ٹیبل ڈیٹا کے ذریعے، ہم ہر گانے کے لیے بٹ ریٹ اور بٹ ایرر ریٹ دیکھ سکتے ہیں۔ ڈیٹا کی شرحیں مختلف ہیں کیونکہ ڈیفرینشل BPSK (فیز شفٹ کینگ) اس وقت بہتر کام کرتی ہے جب ایک ہی سب کیرئیر استعمال کیے جاتے ہیں۔ اور یہ تب ممکن ہے جب ملحقہ حصوں میں ایک جیسے ماسکنگ عناصر ہوں۔ مسلسل بلند آواز والے گانے ڈیٹا کو چھپانے کے لیے ایک بہترین بنیاد فراہم کرتے ہیں کیونکہ ماسکنگ فریکوئنسی وسیع فریکوئنسی رینج میں زیادہ مضبوطی سے موجود ہوتی ہے۔ تجزیہ ونڈو کی مقررہ لمبائی کی وجہ سے تیز رفتار موسیقی صرف جزوی طور پر OFDM علامتوں کو ماسک کر سکتی ہے۔

اس کے بعد، لوگوں نے سسٹم کی جانچ شروع کی، جس کو یہ طے کرنا تھا کہ کون سا راگ اصلی ہے اور کون سا اس میں شامل معلومات کے ذریعے تبدیل کیا گیا ہے۔ اس مقصد کے لیے ٹیبل نمبر 12 کے گانوں کے 1 سیکنڈ کے اقتباسات خصوصی ویب سائٹ پر پوسٹ کیے گئے۔

پہلے تجربے (E1) میں، ہر شریک کو سننے کے لیے یا تو ایک ترمیم شدہ یا اصلی ٹکڑا دیا گیا تھا اور اسے یہ فیصلہ کرنا تھا کہ آیا وہ ٹکڑا اصلی تھا یا ترمیم شدہ۔ دوسرے تجربے (E2) میں، شرکاء جتنی بار چاہیں دونوں ورژن سن سکتے ہیں، اور پھر فیصلہ کر سکتے ہیں کہ کون سا اصلی تھا اور کون سا تبدیل کیا گیا تھا۔

نوٹوں کے درمیان پڑھنا: میوزک کے اندر ڈیٹا ٹرانسمیشن سسٹم
جدول نمبر 2: تجربات E1 اور E2 کے نتائج۔

پہلے تجربے کے نتائج میں دو اشارے ہیں: p(O|O) - شرکاء کا فیصد جنہوں نے اصل راگ کو صحیح طور پر نشان زد کیا اور p(O|M) - شرکاء کا فیصد جنہوں نے میلوڈی کے تبدیل شدہ ورژن کو اصل کے طور پر نشان زد کیا۔

دلچسپ بات یہ ہے کہ محققین کے مطابق کچھ شرکاء نے بعض تبدیل شدہ دھنوں کو اصل سے زیادہ اصلی سمجھا۔ دونوں تجربات کی اوسط سے پتہ چلتا ہے کہ اوسط سننے والے کو ایک باقاعدہ راگ اور جس میں ڈیٹا سرایت کیا گیا تھا کے درمیان فرق محسوس نہیں ہوگا۔

قدرتی طور پر، موسیقی کے ماہرین اور موسیقار تبدیل شدہ دھنوں میں کچھ غلطیاں اور مشکوک عناصر کا پتہ لگا سکیں گے، لیکن یہ عناصر اتنے اہم نہیں ہیں کہ تکلیف کا باعث بنیں۔

اور اب ہم خود اس تجربے میں حصہ لے سکتے ہیں۔ ذیل میں ایک ہی راگ کے دو ورژن ہیں - اصل اور ترمیم شدہ۔ کیا آپ فرق سن سکتے ہیں؟

راگ کا اصل ورژن
vs
راگ کا تبدیل شدہ ورژن

مطالعہ کی باریکیوں سے مزید تفصیلی واقفیت کے لیے، میں اسے دیکھنے کی تجویز کرتا ہوں۔ رپورٹ ریسرچ گروپ.

آپ مطالعہ میں استعمال ہونے والی اصل اور تبدیل شدہ دھنوں کی آڈیو فائلوں کا زپ آرکائیو بھی ڈاؤن لوڈ کر سکتے ہیں۔ اس لنک.

اپسنہار

اس کام میں، ETH زیورخ کے گریجویٹ طلباء نے موسیقی کے اندر ڈیٹا ٹرانسمیشن کا ایک حیرت انگیز نظام بیان کیا۔ ایسا کرنے کے لیے، انہوں نے فریکوئنسی ماسکنگ کا استعمال کیا، جس کی وجہ سے اسپیکر کے ذریعے بجائی جانے والی میلوڈی میں ڈیٹا کو سرایت کرنا ممکن ہوا۔ اس راگ کو ڈیوائس کے مائیکروفون کے ذریعے سمجھا جاتا ہے، جو چھپے ہوئے ڈیٹا کو پہچانتا ہے اور اسے ڈی کوڈ کرتا ہے، جب کہ اوسط سننے والے کو فرق محسوس بھی نہیں ہوگا۔ مستقبل میں، لوگ اپنے سسٹم کو تیار کرنے کا ارادہ رکھتے ہیں، ڈیٹا کو آڈیو میں متعارف کرانے کے لیے مزید جدید طریقے منتخب کرتے ہیں۔

جب کوئی کوئی غیر معمولی چیز لے کر آتا ہے، اور سب سے اہم، کوئی ایسی چیز جو کام کرتی ہے، تو ہم ہمیشہ خوش رہتے ہیں۔ لیکن اس سے بھی زیادہ خوشی کی بات یہ ہے کہ یہ ایجاد نوجوانوں نے تخلیق کی ہے۔ سائنس میں عمر کی کوئی پابندی نہیں ہے۔ اور اگر نوجوانوں کو سائنس بورنگ لگتی ہے تو اسے غلط زاویے سے پیش کیا جا رہا ہے، اس لیے بات کی جائے۔ بہر حال، جیسا کہ ہم جانتے ہیں، سائنس ایک حیرت انگیز دنیا ہے جو کبھی حیران نہیں ہوتی۔

جمعہ آف ٹاپ:


چونکہ ہم موسیقی، یا بلکہ راک موسیقی کے بارے میں بات کر رہے ہیں، یہاں راک کی وسعتوں کے ذریعے ایک شاندار سفر ہے۔


ملکہ، "ریڈیو گا گا" (1984)۔

پڑھنے کے لیے شکریہ، متجسس رہیں، اور آپ کا ویک اینڈ اچھا گزرے! 🙂

ہمارے ساتھ رہنے کے لیے آپ کا شکریہ۔ کیا آپ کو ہمارے مضامین پسند ہیں؟ مزید دلچسپ مواد دیکھنا چاہتے ہیں؟ آرڈر دے کر یا دوستوں کو مشورہ دے کر ہمارا ساتھ دیں، انٹری لیول سرورز کے انوکھے اینالاگ پر Habr کے صارفین کے لیے 30% رعایت، جو ہم نے آپ کے لیے ایجاد کیا تھا: VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps کے بارے میں پوری حقیقت $20 سے یا سرور کا اشتراک کیسے کریں؟ (RAID1 اور RAID10 کے ساتھ دستیاب، 24 کور تک اور 40GB DDR4 تک)۔

ڈیل R730xd 2 گنا سستا؟ صرف یہاں 2x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV $199 سے نیدرلینڈ میں! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - $99 سے! کے بارے میں پڑھا انفراسٹرکچر کارپوریشن کو کیسے بنایا جائے۔ ڈیل R730xd E5-2650 v4 سرورز کے استعمال کے ساتھ کلاس جس کی مالیت 9000 یورو ہے؟

ماخذ: www.habr.com

نیا تبصرہ شامل کریں