קריאה בין התווים: מערכת העברת הנתונים בתוך המוזיקה

קריאה בין התווים: מערכת העברת הנתונים בתוך המוזיקה

הביעו את מה שמילים לא יכולות להעביר; להרגיש מגוון רחב של רגשות השזורים זה בזה בהוריקן של רגשות; להתנתק מהאדמה, מהשמים ואפילו מהיקום עצמו, לצאת למסע שבו אין מפות, אין כבישים, אין סימנים; להמציא, לספר ולחוות סיפור שלם שתמיד יישאר ייחודי ובלתי ניתן לחיקוי. כל זה יכול להיעשות על ידי מוזיקה – אמנות שקיימת אלפי שנים רבות ומשמחת את אוזנינו ואת ליבנו.

עם זאת, מוזיקה, או ליתר דיוק יצירות מוזיקליות, יכולות לשמש לא רק להנאה אסתטית, אלא גם להעברת מידע המקודד בהן, המיועד למכשיר כלשהו ובלתי נראה למאזין. היום נתוודע למחקר יוצא דופן ביותר בו הצליחו סטודנטים לתארים מתקדמים מ-ETH ציריך, מבלי שהאוזן האנושית שמה לב, להכניס נתונים מסוימים ליצירות מוזיקליות, שבגללו הופכת המוזיקה עצמה לערוץ העברת נתונים. איך בדיוק הם יישמו את הטכנולוגיה שלהם, האם המנגינות עם ובלי הנתונים המשובצים מאוד שונות, ומה הראו מבחנים מעשיים? אנו למדים על כך מדוח החוקרים. ללכת.

בסיס מחקר

החוקרים קוראים לטכנולוגיה שלהם טכנולוגיית העברת נתונים אקוסטית. כאשר דובר מנגן מנגינה שונה, אדם תופס אותה כרגיל, אבל, למשל, סמארטפון יכול לקרוא מידע מקודד בין השורות, או יותר נכון בין התווים, כביכול. מדענים (העובדה שהחבר'ה האלה הם עדיין סטודנטים לתארים מתקדמים לא מונעת מהם להיות מדענים) מכנים את המהירות והאמינות של השידור תוך שמירה על רמת הפרמטרים הללו, ללא קשר לקובץ האודיו שנבחר, כהיבט החשוב ביותר ביישום של טכניקת העברת נתונים זו. פסיכואקוסטיקה, החוקרת את ההיבטים הפסיכולוגיים והפיזיולוגיים של התפיסה האנושית של צלילים, עוזרת להתמודד עם משימה זו.

הליבה של העברת הנתונים האקוסטי יכולה להיקרא OFDM (Orthogonal Frequency Division Multiplexing), אשר יחד עם התאמת נושאות המשנה למוסיקת המקור לאורך זמן, אפשרה ניצול מרבי של ספקטרום התדרים המשודר להעברת מידע. הודות לכך, ניתן היה להגיע למהירות שידור של 412 bps על פני מרחק של עד 24 מטר (שיעור שגיאה < 10%). ניסויים מעשיים בהשתתפות 40 מתנדבים אישרו את העובדה שכמעט בלתי אפשרי לשמוע את ההבדל בין המנגינה המקורית לזו שבה הוטבע המידע.

היכן ניתן ליישם את הטכנולוגיה הזו בפועל? לחוקרים יש תשובה משלהם: כמעט כל הסמארטפונים המודרניים, המחשבים הניידים ושאר מכשירי היד מצוידים במיקרופונים, ובמקומות ציבוריים רבים (בתי קפה, מסעדות, מרכזי קניות וכו') יש רמקולים עם מוזיקת ​​רקע. מנגינת רקע זו יכולה, למשל, לכלול נתונים לחיבור לרשת Wi-Fi ללא צורך בפעולות נוספות.

המאפיינים הכלליים של העברת נתונים אקוסטית התבררו לנו; כעת הבה נעבור למחקר מפורט של המבנה של מערכת זו.

תיאור המערכת

הכנסת נתונים למנגינה מתרחשת עקב מיסוך תדרים. במשבצות זמן, תדרי מיסוך מזוהים ותתי-נשאי OFDM הקרובים לרכיבי מיסוך אלה מלאים בנתונים.

קריאה בין התווים: מערכת העברת הנתונים בתוך המוזיקה
תמונה מס' 1: המרת הקובץ המקורי לאות מורכב (מלודיה + נתונים) המשודרים דרך הרמקולים.

מלכתחילה, אות השמע המקורי מחולק למקטעים עוקבים לניתוח. כל קטע כזה (Hi) של L = 8820 דגימות, השווה ל-200 אלפיות השנייה, מוכפל ב- חַלוֹן* כדי למזער את השפעות הגבול.

חַלוֹן* היא פונקציית שקלול המשמשת לשליטה בהשפעות עקב אונות צד באומדנים ספקטרליים.

לאחר מכן, התדרים הדומיננטיים של האות המקורי זוהו בטווח שבין 500 הרץ ל-9.8 קילו-הרץ, מה שאיפשר לקבל תדרי מיסוך fM,l עבור קטע זה. בנוסף, הועברו נתונים בטווח קטן מ-9.8 עד 10 קילו-הרץ כדי לקבוע את מיקומם של נושאי המשנה במקלט. הגבול העליון של טווח התדרים בו נעשה שימוש נקבע ל-10 קילו-הרץ עקב הרגישות הנמוכה של מיקרופונים של סמארטפונים בתדרים גבוהים.

תדרי מיסוך נקבעו עבור כל קטע מנותח בנפרד. באמצעות שיטת HPS (Harmon Product Spectrum) זוהו שלושת התדרים הדומיננטיים ולאחר מכן עוגלו לתווים הקרובים ביותר בסולם הכרומטי ההרמוני. כך התקבלו התווים העיקריים fF,i = 1…3, שנמצאים בין המקשים C0 (16.35 הרץ) ו-B0 (30.87 הרץ). בהתבסס על העובדה שהתווים הבסיסיים נמוכים מדי לשימוש בהעברת נתונים, האוקטבות הגבוהות שלהם 500kfF,i חושבו בטווח 9.8 הרץ ... 2 קילו-הרץ. רבים מהתדרים הללו (fO,l1) היו בולטים יותר בשל אופי ה-HPS.

קריאה בין התווים: מערכת העברת הנתונים בתוך המוזיקה
תמונה מס' 2: אוקטבות מחושבות fO,l1 עבור התווים הבסיסיים וההרמוניות fH,l2 של הטון החזק ביותר.

קבוצת האוקטבות וההרמוניות שהתקבלה שימשו כתדרי מיסוך, שמהם נגזרו תדרי המשנה של OFDM fSC,k. שני תת-נשאים הוכנסו מתחת ומעל לכל תדר מיסוך.

לאחר מכן, הספקטרום של קטע האודיו Hi סונן בתדרי תת-נשא fSC,k. לאחר מכן, נוצר סמל OFDM המבוסס על סיביות המידע ב-Bi, שבגללו ניתן היה להעביר את הקטע המרוכב Ci דרך הרמקול. יש לבחור את הגדלים והשלבים של נושאי המשנה כך שהמקלט יוכל לחלץ את הנתונים המשודרים בזמן שהמאזין אינו מבחין בשינויים במנגינה.

קריאה בין התווים: מערכת העברת הנתונים בתוך המוזיקה
תמונה מס' 3: חלק מהספקטרום ותדרי נשא המשנה של קטע Hi של המנגינה המקורית.

כאשר אות שמע עם מידע מקודד בו מושמע דרך רמקולים, המיקרופון של המכשיר המקבל מקליט אותו. כדי למצוא את עמדות ההתחלה של סמלי OFDM מוטבעים, תחילה יש לסנן את הרשומות בפס פס. בדרך זו, טווח התדרים העליון נשלף, שבו אין אותות הפרעה מוזיקלית בין נושאי משנה. אתה יכול למצוא את ההתחלה של סמלי OFDM באמצעות קידומת מחזורית.

לאחר זיהוי התחלת סמלי OFDM, המקלט משיג מידע על התווים הדומיננטיים ביותר באמצעות פענוח תחום בתדר גבוה. בנוסף, OFDM די עמיד בפני מקורות הפרעות בפס צר, מכיוון שהם משפיעים רק על חלק מספקי המשנה.

מבחנים מעשיים

רמקול KRK Rokit 8 שימש כמקור המנגינות ששונו, והסמארטפון Nexus 5X שיחק בתפקיד הצד המקבל.

קריאה בין התווים: מערכת העברת הנתונים בתוך המוזיקה
תמונה מס' 4: הבדל בין OFDM בפועל לבין שיאי מתאם שנמדדו בתוך הבית ב-5 מטר בין רמקול למיקרופון.

רוב נקודות ה-OFDM נמצאות בטווח שבין 0 ל-25 אלפיות השנייה, כך שתוכל למצוא התחלה חוקית בתוך הקידומת המחזורית של 66.6 אלפיות השנייה. החוקרים מציינים שהמקלט (בניסוי זה, סמארטפון) לוקח בחשבון שסמלי OFDM מושמעים מעת לעת, מה שמשפר את הזיהוי שלהם.

הדבר הראשון שצריך לבדוק היה השפעת המרחק על שיעור שגיאות הסיביות (BER). לשם כך בוצעו שלוש בדיקות בחדרים מסוגים שונים: מסדרון עם שטיח, משרד עם לינוליאום על הרצפה ואודיטוריום עם רצפת עץ.


השיר "And The Cradle Will Rock" של ואן חאל נבחר כנושא המבחן.

עוצמת הקול הותאמה כך שרמת הקול שנמדדה על ידי הסמארטפון במרחק של 2 מ' מהרמקול הייתה 63 dB.

קריאה בין התווים: מערכת העברת הנתונים בתוך המוזיקה
תמונה מס' 5: מחווני BER בהתאם למרחק בין הרמקול למיקרופון (קו כחול - קהל, ירוק - מסדרון, כתום - משרד).

במסדרון נקלט צליל של 40 dB בסמארטפון במרחק של עד 24 מטר מהרמקול. בכיתה במרחק של 15 מ' הסאונד היה 55 dB, ובמשרד במרחק של 8 מטר הגיעה רמת הקול שנתפס בסמארטפון ל-57 dB.

מכיוון שהאודיטוריום והמשרד מהדהדים יותר, הדים מאוחרים של סמל OFDM עולים על אורך הקידומת המחזורית ומגדילים את ה-BER.

הִדהוּד* - ירידה הדרגתית בעוצמת הצליל עקב ההשתקפויות המרובות שלו.

החוקרים הדגימו עוד יותר את הרבגוניות של המערכת שלהם על ידי יישומו על 6 שירים שונים משלושה ז'אנרים (טבלה למטה).

קריאה בין התווים: מערכת העברת הנתונים בתוך המוזיקה
טבלה מס' 1: שירים המשמשים במבחנים.

כמו כן, דרך נתוני הטבלה, אנו יכולים לראות את קצב הסיביות ושיעורי השגיאות של הסיביות עבור כל שיר. קצבי הנתונים שונים מכיוון ש-BPSK דיפרנציאלי (Phase shift keying) עובד טוב יותר כאשר משתמשים באותם נושאי משנה. וזה אפשרי כאשר קטעים סמוכים מכילים את אותם אלמנטים מיסוך. שירים חזקים ללא הרף מספקים בסיס אופטימלי להסתרת נתונים מכיוון שתדרי המיסוך נוכחים בצורה חזקה יותר בטווח תדרים רחב. מוזיקה בקצב מהיר יכולה להסוות רק חלקית את סמלי OFDM בשל האורך הקבוע של חלון הניתוח.

לאחר מכן, אנשים החלו לבדוק את המערכת, שנאלצו לקבוע איזו מנגינה מקורית ואיזו השתנתה על ידי המידע המוטבע בה. לצורך כך פורסמו באתר מיוחד קטעי שירים בני 12 שניות משולחן מס' 1.

בניסוי הראשון (E1), כל משתתף קיבל קטע שונה או מקורי להאזנה והיה עליו להחליט אם הקטע מקורי או שונה. בניסוי השני (E2), המשתתפים יכלו להאזין לשתי הגרסאות כמה פעמים שרצו, ואז להחליט איזו מהן מקורית ואיזו מהן שונתה.

קריאה בין התווים: מערכת העברת הנתונים בתוך המוזיקה
טבלה מס' 2: תוצאות ניסויים E1 ו-E2.

לתוצאות הניסוי הראשון יש שני אינדיקטורים: p(O|O) - אחוז המשתתפים שסימנו נכון את המנגינה המקורית ו-p(O|M) - אחוז המשתתפים שסימנו את הגרסה המתוקנת של המנגינה כמקורית.

מעניין שחלק מהמשתתפים, על פי החוקרים, ראו שמנגינות מסוימות שהשתנו כמקוריות יותר מהמקור עצמו. הממוצע של שני הניסויים מצביע על כך שהמאזין הממוצע לא יבחין בהבדל בין מנגינה רגילה לכזו שבה הוטבעו נתונים.

מטבע הדברים, מומחי מוזיקה ומוזיקאים יוכלו לזהות כמה אי דיוקים ואלמנטים חשודים במנגינות שהשתנו, אך אלמנטים אלו אינם כה משמעותיים עד שהם גורמים לאי נוחות.

ועכשיו אנחנו בעצמנו יכולים לקחת חלק בניסוי. להלן שתי גרסאות של אותה מנגינה - המקורית והמשונה. אתה יכול לשמוע את ההבדל?

הגרסה המקורית של המנגינה
vs
גרסה שונה של המנגינה

להבנה מפורטת יותר של הניואנסים של המחקר, אני ממליץ להסתכל על להגיש תלונה קבוצת מחקר.

אתה יכול גם להוריד ארכיון ZIP של קובצי אודיו של המנגינות המקוריות והמשנות ששימשו במחקר ב קישור זה.

אפילוג

בעבודה זו, סטודנטים לתואר שני מ-ETH ציריך תיארו מערכת העברת נתונים מדהימה בתוך המוזיקה. לשם כך השתמשו במיסוך תדרים שאיפשר להטמיע את הנתונים במנגינה שמנגן הדובר. המנגינה הזו נתפסת על ידי המיקרופון של המכשיר, שמזהה את הנתונים המוסתרים ומפענח אותם, בעוד שהמאזין הממוצע אפילו לא יבחין בהבדל. בעתיד, החבר'ה מתכננים לפתח את המערכת שלהם, ולבחור שיטות מתקדמות יותר להכנסת נתונים לאודיו.

כשמישהו מעלה משהו יוצא דופן, והכי חשוב, משהו שעובד, אנחנו תמיד שמחים. אבל עוד יותר שמחה היא שהמצאה זו נוצרה על ידי צעירים. למדע אין מגבלות גיל. ואם לצעירים המדע משעמם, אז הוא מוצג מזווית לא נכונה, כביכול. אחרי הכל, כידוע, המדע הוא עולם מדהים שלא מפסיק להפתיע.

יום שישי מחוץ לראש:


מכיוון שאנחנו מדברים על מוזיקה, או יותר נכון מוזיקת ​​רוק, הנה מסע נפלא במרחבי הרוק.


קווין, "רדיו גא גה" (1984).

תודה שקראתם, הישארו סקרנים וסוף שבוע נהדר חברים! 🙂

תודה שנשארת איתנו. האם אתה אוהב את המאמרים שלנו? רוצים לראות עוד תוכן מעניין? תמכו בנו על ידי ביצוע הזמנה או המלצה לחברים, 30% הנחה למשתמשי Habr על אנלוגי ייחודי של שרתים ברמת הכניסה, שהומצא על ידינו עבורכם: כל האמת על VPS (KVM) E5-2650 v4 (6 ליבות) 10GB DDR4 240GB SSD 1Gbps החל מ-$20 או איך לשתף שרת? (זמין עם RAID1 ו-RAID10, עד 24 ליבות ועד 40GB DDR4).

Dell R730xd זול פי 2? רק כאן 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV החל מ-$199 בהולנד! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - החל מ-$99! לקרוא על כיצד לבנות תשתיות קורפ. מחלקה עם שימוש בשרתי Dell R730xd E5-2650 v4 בשווי 9000 יורו עבור אגורה?

מקור: www.habr.com

הוספת תגובה