Читати між нот: система передачі даних усередині музики

Читати між нот: система передачі даних усередині музики

Висловити те, що слова не можуть передати; відчути найрізноманітніші емоції, що переплітаються в ураган почуттів; відірватися від землі, неба і навіть Всесвіту, вирушивши в подорож, де немає карт, немає доріг, немає покажчиків; придумати, розповісти та пережити цілу історію, яка завжди залишиться унікальною та неповторною. Все це дозволяє зробити музика — мистецтво, що існує вже багато тисяч років і насолоджує наші слух і серця.

Проте музика, а точніше музичні твори можуть послужити як для естетичного задоволення, а й передачі закодованої у яких інформації, призначеної якогось устрою і непомітної для слухача. Сьогодні ми з вами познайомимося з вельми незвичайним дослідженням, в якому аспіранти зі швейцарської вищої технічної школи Цюріха змогли непомітно для людського вуха впровадити певні дані в музичні твори, за рахунок чого музика стає каналом передачі даних. Як саме вони реалізували свою технологію, чи сильно відрізняються мелодії з і без впроваджених даних, і що показали практичні випробування? Про це дізнаємося з доповіді дослідників. Поїхали.

Основа дослідження

Дослідники називають свою технологію акустичною технікою передачі. Коли динамік відтворює змінену мелодію, людина сприймає її як звичайну, а ось, наприклад, смартфон може зчитувати закодовану інформацію між рядками, точніше між нотами, якщо можна так висловитися. Найважливішим аспектом у реалізації цієї методики передачі вчені (те, що ці хлопці все ще аспіранти не заважає їм бути вченими) називають швидкість і надійність передачі при збереженні рівня цих параметрів незалежно від обраного аудіофайлу. Впоратися з цим завданням допомагає психоакустика, що вивчає психологічні та фізіологічні аспекти сприйняття людиною звуків.

Стрижнем акустичної передачі даних можна назвати OFDM (мультиплексування з ортогональним частотним поділом каналів), яка поряд з адаптацією піднесуть до вихідної музики з часом дозволили максимально використовувати спектр частоти передачі передачі. Завдяки цьому вдалося досягти швидкості передачі 412 біт/с на відстань до 24 метрів (коефіцієнт помилок < 10%). Практичні ж експерименти за участю 40 добровольців підтвердили факт того, що почути різницю між оригінальною мелодією та тією, в яку було впроваджено інформацію, практично неможливо.

Де можна застосувати таку технологію на практиці? Дослідники мають свій варіант відповіді: практично всі сучасні смартфони, ноутбуки та інші кишенькові пристрої оснащені мікрофонами, а в багатьох громадських місцях (кафе, ресторани, торгові центри тощо) є колонки з фоновою музикою. У цю фонову мелодію можна впровадити, наприклад, дані для підключення до мережі Wi-Fi без необхідності виконувати додаткові дії.

Загальні риси акустичної передачі нам стали зрозумілі, тепер перейдемо до детального вивчення структури даної системи.

опис системи

Впровадження даних у мелодію відбувається за рахунок маскування частоти. У часових інтервалах маскуючі частоти ідентифікуються, і OFDM, що піднесуть, близькі до цих маскуючих елементів, заповнюються даними.

Читати між нот: система передачі даних усередині музики
Зображення №1: перетворення вихідного файлу на композитний сигнал (мелодія + дані), що передається через динаміки.

Спочатку вихідний аудіосигнал поділяється на послідовні сегменти для аналізу. Кожен такий сегмент (Hi) з L = 8820 зразків, що дорівнює 200 мс, множиться на вікно* для мінімізації граничних ефектів.

Вікно* - вагова функція, що використовується для управління ефектами, зумовленими наявністю бічних пелюсток у спектральних оцінках.

Далі виявлялися домінуючі частоти вихідного сигналу в діапазоні від 500 Гц до 9.8 кГц, що дозволило одержати частоту маскування fM,l для даного сегмента. На додаток до цього здійснювалася передача даних у малому діапазоні від 9.8 до 10 кГц для встановлення розташування піднесуть у приймачі. Верхня межа області частот була встановлена ​​на 10 кГц через низьку чутливість мікрофонів смартфона на високих частотах.

Маскуючі частоти визначалися для кожного аналізованого сегмента індивідуально. За допомогою методу HPS (гармонічний спектр продуктів) було встановлено три домінуючі частоти, після чого вони були заокруглені до найближчих нот гармонічної хроматичної шкали. Саме так було отримано основні ноти fF,i = 1…3, що лежать між клавішами C0 (16.35 Гц) та B0 (30.87 Гц). Виходячи з того, що основні ноти надто низькі для використання в передачі даних, в діапазоні 500 Гц … 9.8 кГц були розраховані більш високі октави 2kfF,i. Багато із цих частот (fO,l1) були більш виражені через природу HPS.

Читати між нот: система передачі даних усередині музики
Зображення №2: розраховані октави fO,l1 для основних нот і гармонік fH,l2 найсильнішого тону.

Сукупність октав і гармонік в результаті використовувалися як маскуючі частоти, на основі яких отримані частоти OFDM піднесе fSC,k. Нижче і вище кожної маскуючої частоти вставлялися дві піднесучі.

Далі відбувалася фільтрація спектра аудіосегменту Hi на частотах, що піднесли fSC,k. Після чого на основі інформаційних бітів Bi створювався OFDM символ, за рахунок чого композитний сегмент Ci міг передаватися через динамік. Величини та фази піднесучих необхідно вибрати таким чином, щоб приймач міг витягувати передані дані, тоді як слухач не помічав змін у мелодії.

Читати між нот: система передачі даних усередині музики
Зображення №3: ділянка спектру та частоти піднесучих сегмента Hi вихідної мелодії.

Коли аудіосигнал із закодованою в ньому інформацією відтворюється через динаміки, мікрофон приймаючого пристрою записує його. Щоб знайти початкові позиції вбудованих символів OFDM, записи спочатку потрібно пропустити через смугову фільтрацію. Таким чином витягується верхній частотний діапазон, де немає музичних сигналів-перешкод між піднесучими. Знайти початок символів OFDM можна за допомогою циклічного префікса.

Після виявлення початку символів OFDM приймач отримує інформацію про найбільш домінуючих нотах за допомогою декодування верхньої частотної області. До того ж, OFDM досить стійкий до впливу джерел вузькосмугових перешкод, оскільки вони впливають лише на деякі з піднесучих.

Практичні випробування

Як джерело змінених мелодій виступив динамік KRK Rokit 8, а роль сторони зіграв смартфон Nexus 5X.

Читати між нот: система передачі даних усередині музики
Зображення №4: різниця між реальними проявами OFDM та піками кореляції, виміряними у приміщенні на відстані 5 м між динаміком та мікрофоном.

Більшість OFDM точок лежить у діапазоні від 0 до 25 мс, тому можна знайти допустимий початок усередині циклічного префікса 66.6 мс. Дослідники зазначають, що приймач (в даному досвіді смартфон) враховує, що символи OFDM відтворюються періодично, що покращує їх виявлення.

Перше, що потрібно було перевірити, це вплив відстані на коефіцієнт помилок по бітам (BER). Для цього було проведено три тести у різних типах приміщень: коридор з килимовим покриттям, кабінет з лінолеумом на підлозі та аудиторія з дерев'яною підлогою.


В якості "випробуваного" була обрана пісня "And The Cradle Will Rock" групи Van Halen.

Гучність звучання була налаштована таким чином, щоб вимірюваний смартфоном на відстані 2 м від динаміка рівень звуку був 63 дБ.

Читати між нот: система передачі даних усередині музики
Зображення №5: показники BER залежно від відстані між динаміком та мікрофоном (синя лінія – аудиторія, зелена – коридор, помаранчева – офіс).

У коридорі звук у 40 дБ уловлювався смартфоном на відстані до 24 метрів від динаміка. В аудиторії на відстані 15 м звук був 55 дБ, а в офісі на відстані 8 метрів рівень сприйманого смартфоном звуку досягав 57 дБ.

Зважаючи на те, що аудиторія та офіс є більш реверберуючими, пізні ехо-сигнали OFDM символів перевищують довжину циклічного префікса та збільшують BER.

Реверберація* - Поступове зменшення інтенсивності звуку через його багаторазового відображення.

Далі дослідники продемонстрували універсальність своєї системи, застосувавши її до 6 різних пісень трьох жанрів (таблиця нижче).

Читати між нот: система передачі даних усередині музики
Таблиця №1: використані у тестах пісні.

Також за допомогою даних таблиці ми можемо побачити швидкість передачі та коефіцієнти помилок щодо біт для кожної пісні. Швидкість передачі відрізняється тому, що диференціальний BPSK (фазова маніпуляція) працює краще, коли використовуються одні й самі піднесучі. А це можливо, коли сусідні сегменти містять однакові елементи, що маскують. Безперервно гучні пісні забезпечують оптимальну базу для приховування даних, оскільки частоти, що маскують, більш виражено присутні в широкому частотному діапазоні. Музика, що швидко змінюється, може маскувати OFDM символи тільки частково через фіксовану довжину вікна аналізу.

Далі до тестування системи почали люди, які повинні були визначити яка мелодія початкова, а яка була модифікована впровадженою в неї інформацією. Для цього 12-секундні уривки пісень із таблиці №1 були розміщені на спеціальному сайті.

У першому експерименті (E1) кожному учаснику надавався або змінений або вихідний фрагмент для прослуховування, і він повинен був вирішити, чи є цей фрагмент оригінальним або зміненим. У другому експерименті (E2) учасники могли скільки завгодно разів прослуховувати обидва варіанти, а потім вирішити, який з них оригінал, а який змінений.

Читати між нот: система передачі даних усередині музики
Таблиця №2: результати експериментів E1 та E2.

У результатах першого досвіду є два показники: p(О|О) — відсоток учасників, які чітко відзначили вихідну мелодію та p(О|М) — відсоток учасників, які відзначили змінену версію мелодії як оригінальну.

Цікаво, що деякі учасники, за словами дослідників, вважали певні змінені мелодії оригінальнішими, ніж сам оригінал. Середній показник обох експериментів говорить про те, що середньостатистичний слухач не помітить різниці між звичайною мелодією та тією, в яку були вбудовані дані.

Природно, знавці музики та музиканти зможуть вловити якісь неточності та підозрілі елементи у змінених мелодіях, але ці елементи не такі значні, щоб викликати дискомфорт.

А тепер ми самі можемо взяти участь у експерименті. Нижче представлені два варіанти однієї мелодії — оригінальний і змінений. Чи чуєте ви різницю?

Оригінальний варіант мелодії
vs
Модифікований варіант мелодії

Для більш детального ознайомлення з нюансами дослідження рекомендую заглянути у доповідь дослідницької групи.

Також ви можете завантажити ZIP-архів аудіофайлів оригінальних та змінених мелодій, використаних у дослідженні, цим посиланням.

Епілог

У цьому праці аспіранти швейцарської вищої технічної школи Цюріха описали дивовижну систему передачі усередині музики. Для цього вони застосували частотне маскування, що дозволило впровадити дані в мелодію динаміку. Ця мелодія сприймається мікрофоном пристрою, який розпізнає приховані дані та декодує їх, тоді як середньостатистичний слухач різниці навіть не помітить. Надалі хлопці планують розвивати свою систему, підбираючи досконаліші методи впровадження даних в аудіо.

Коли хтось вигадує щось незвичайне, а головне робоче, ми завжди радіємо. Але ще більше радості від того, що цей винахід був створений молодими людьми. Наука немає вікових обмежень. А якщо молодь вважає науку нудною, то її підносять не під тим кутом, так би мовити. Адже, як знаємо, наука — це дивовижний світ, який ніколи не перестає дивувати.

П'ятничний офф-топ:


Якщо ми заговорили про музику, а точніше про рок-музику, то ось вам прекрасна подорож по просторах року.


Queen, "Radio Ga Ga" (1984).

Дякую за увагу, залишайтесь цікавими, і відмінних усім вихідних, хлопці! 🙂

Дякую, що залишаєтеся з нами. Вам подобаються наші статті? Бажаєте бачити більше цікавих матеріалів? Підтримайте нас, оформивши замовлення або порекомендувавши знайомим, 30% знижка для користувачів Хабра на унікальний аналог entry-level серверів, який був винайдений нами для Вас: Вся правда про VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps від $20 чи як правильно ділити сервер? (Доступні варіанти з RAID1 і RAID10, до 24 ядер і до 40GB DDR4).

Dell R730xd у 2 рази дешевше? Тільки в нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТБ від $199 у Нідерландах! Dell R420 – 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB – від $99! Читайте про те Як побудувати інфраструктуру корп. класу із застосуванням серверів Dell R730xd Е5-2650 v4 вартістю 9000 євро за копійки?

Джерело: habr.com

Додати коментар або відгук