Чытаць паміж нот: сістэма перадачы даных унутры музыкі

Чытаць паміж нот: сістэма перадачы даных унутры музыкі

Выказаць тое, што словы не могуць перадаць; адчуць самыя разнастайныя эмоцыі, якія пераплятаюцца ва ўраган пачуццяў; адарвацца ад зямлі, неба і нават самага Сусвету, адправіўшыся ў падарожжа, дзе няма карт, няма дарог, няма паказальнікаў; прыдумаць, расказаць і перажыць цэлую гісторыю, якая заўсёды застанецца ўнікальнай і непаўторнай. Усё гэта дазваляе зрабіць музыка — мастацтва, якое існуе ўжо многія тысячы гадоў і цешыць нашы слых і сэрцы.

Аднак музыка, а дакладней музычныя творы могуць паслужыць не толькі для эстэтычнага задавальнення, але і для перадачы закадаванай у іх інфармацыі, прызначанай для які-небудзь прылады і незаўважнай для слухача. Сёння мы з вамі пазнаёмімся з вельмі незвычайным даследаваннем, у якім аспіранты са швейцарскай вышэйшай тэхнічнай школы Цюрыха змаглі неўзаметку для чалавечага вуха ўкараніць пэўныя дадзеныя ў музычныя творы, за рахунак чаго сама музыка становіцца каналам перадачы дадзеных. Як менавіта яны рэалізавалі сваю тэхналогію, ці моцна адрозніваюцца мелодыі з і без укаранёных дадзеных, і што паказалі практычныя выпрабаванні? Пра гэта мы даведаемся з даклада даследчыкаў. Паехалі.

Аснова даследавання

Даследчыкі называюць сваю тэхналогію акустычнай тэхнікай перадачы даных. Калі дынамік прайгравае змененую мелодыю, чалавек успрымае яе як звычайную, а вось, напрыклад, смартфон можа счытваць закадаваную інфармацыю паміж радкоў, дакладней паміж нот, калі можна так выказацца. Найважнейшым аспектам у рэалізацыі гэтай методыкі перадачы дадзеных навукоўцы (тое, што гэтыя рабяты ўсё яшчэ аспіранты не мяшае ім быць навукоўцамі) завуць хуткасць і надзейнасць перадачы пры захаванні ўзроўня гэтых параметраў па-за залежнасцю ад абранага аўдыёфайла. Справіцца з гэтай задачай дапамагае псіхаакустыка, якая вывучае псіхалагічныя і фізіялагічныя аспекты ўспрымання чалавекам гукаў.

Стрыжнем акустычнай перадачы дадзеных можна назваць OFDM (мультыплексаванне з артаганальным частотным падзелам каналаў), якая нароўні з адаптацыяй якія паднясуць да зыходнай музыкі з цягам часу дазволілі максімальна выкарыстаць спектр якая перадаецца частаты для перадачы інфармацыі. Дзякуючы гэтаму ўдалося дасягнуць хуткасці перадачы ў 412 біт/с на адлегласць да 24 метраў (каэфіцыент памылак <10%). Практычныя ж эксперыменты з удзелам 40 добраахвотнікаў пацвердзілі факт таго, што пачуць розніцу паміж арыгінальнай мелодыяй і той, у якую была ўкаранёна інфармацыя, практычна немагчыма.

Дзе ж можна прымяніць такую ​​тэхналогію на практыцы? У даследнікаў ёсць свой варыянт адказу: практычна ўсе сучасныя смартфоны, наўтбукі і іншыя кішэнныя прылады абсталяваны мікрафонамі, а ў шматлікіх грамадскіх месцах (кафэ, рэстараны, гандлёвыя цэнтры і г.д.) ёсць калонкі з фонавай музыкай. У гэтую фонавую мелодыю можна ўкараніць, напрыклад, дадзеныя для падлучэння да сеткі Wi-Fi без неабходнасці рабіць дадатковыя дзеянні.

Агульныя рысы акустычнай перадачы дадзеных нам сталі ясныя, зараз пяройдзем да дэталёвага вывучэння структуры дадзенай сістэмы.

Апісанне сістэмы

Укараненне дадзеных у мелодыю адбываецца за рахунак маскіроўкі частаты. У часавых інтэрвалах маскіруючыя частоты ідэнтыфікуюцца, і якія паднясуць OFDM, блізкія да гэтых маскіравалых элементаў, запаўняюцца дадзенымі.

Чытаць паміж нот: сістэма перадачы даных унутры музыкі
Выява №1: пераўтварэнне зыходнага файла ў кампазітны сігнал (мелодыя + дадзеныя), які перадаецца праз дынамікі.

Для пачатку зыходны аўдыёсігнал падзяляецца на паслядоўныя сегменты для аналізу. Кожны такі сегмент (Hi) з L = 8820 узораў, роўны 200 мс, памнажаецца на акно* для мінімізацыі межавых эфектаў.

Акно* - вагавая функцыя, якая выкарыстоўваецца для кіравання эфектамі, абумоўленымі наяўнасцю бакавых пялёсткаў у спектральных ацэнках.

Далей выяўляліся дамінантныя частоты зыходнага сігналу ў дыяпазоне ад 500 Гц да 9.8 кгц, што дазволіла атрымаць маскіравалыя частоты fM,l для дадзенага сегмента. У дадатак да гэтага выраблялася перадача дадзеных у малым дыяпазоне ад 9.8 да 10 кгц для ўсталявання месцазнаходжання паднясучых у прымачы. Верхняя мяжа выкарыстоўванай вобласці частот быў усталяваны на 10 кгц з-за нізкай адчувальнасці мікрафонаў смартфона на высокіх частотах.

Маскавальныя частоты вызначаліся для кожнага аналізаванага сегмента індывідуальна. З дапамогай метаду HPS (гарманічны спектр прадуктаў) былі ўсталяваныя тры дамінантныя частоты, пасля чаго яны былі акругленыя да бліжэйшых нот гарманічнай храматычнай шкалы. Менавіта так былі атрыманы асноўныя ноты fF,i = 1…3, якія ляжаць паміж клавішамі C0 (16.35 Гц) і B0 (30.87 Гц). Зыходзячы з таго, што асноўныя ноты занізкія для выкарыстання ў перадачы дадзеных, у дыяпазоне 500 Гц … 9.8 кгц былі разлічаны іх больш высокія актавы 2kfF,i. Многія з гэтых частот (fO, l1) былі больш выяўлены з-за прыроды HPS.

Чытаць паміж нот: сістэма перадачы даных унутры музыкі
Выява №2: разлічаныя актавы fO,l1 для асноўных нот і гарамонік fH,l2 наймацнейшага тону.

Сукупнасць актаў і гарамонік у выніку выкарыстоўваліся як маскіравалыя частоты, на аснове якіх былі атрыманы частоты OFDM паднясучай fSC,k. Ніжэй і вышэй кожнай маскіравалай частаты ўстаўляліся дзве поднесущие.

Далей адбывалася фільтраванне спектру аўдыёсегмента Hi на частотах паднясучых fSC,k. Пасля чаго на аснове інфармацыйных бітаў у Bi ствараўся OFDM сімвал, за кошт чаго кампазітны сегмент Ci мог перадавацца праз дынамік. Велічыні і фазы паднясучых неабходна абраць такім чынам, каб прымач мог здабываць перададзеныя дадзеныя, у той час як слухач не заўважаў змен у мелодыі.

Чытаць паміж нот: сістэма перадачы даных унутры музыкі
Выява №3: ​​участак спектру і частоты паднясучых сегмента Hi зыходнай мелодыі.

Калі аўдыёсігнал з закадаванай у ім інфармацыяй прайграваецца праз дынамікі, мікрафон прымаючага прылады запісвае яго. Каб знайсці пачатковыя пазіцыі ўбудаваных сімвалаў OFDM, запісы для пачатку неабходна прапусціць праз паласавую фільтрацыю. Такім чынам здабываецца верхні частотны дыяпазон, дзе няма музычных сігналаў-перашкод паміж паднясучымі. Знайсці пачатак OFDM сімвалаў можна з дапамогай цыклічнага прэфікса.

Пасля выяўлення пачатку OFDM знакаў прымач атрымлівае інфармацыю аб найболей дамінантных нотах пасродкам дэкадавання верхняй частотнай вобласці. Да таго ж, OFDM досыць устойлівы да ўздзеяння крыніц вузкапалосных перашкод, паколькі яны ўплываюць толькі на некаторыя з якія паднясуць.

Практычныя выпрабаванні

У якасці крыніцы змененых мелодый выступіў дынамік KRK Rokit 8, а ролю боку, які прымае, згуляў смартфон Nexus 5X.

Чытаць паміж нот: сістэма перадачы даных унутры музыкі
Выява №4: розніца паміж рэальнымі праявамі OFDM і пікамі карэляцыі, вымеранымі ў памяшканні на адлегласці 5 м паміж дынамікам і мікрафонам.

Большасць OFDM кропак ляжыць у дыяпазоне ад 0 да 25 мс, таму можна знайсці дапушчальны пачатак усярэдзіне цыклічнага прэфікса 66.6 мс. Даследнікі адзначаюць, што прымач (у дадзеным досведзе смартфон) улічвае, што OFDM знакі прайграваюцца перыядычна, што паляпшае іх выяўленне.

Першае, што неабходна было праверыць, дык гэты ўплыў адлегласці на каэфіцыент памылак па бітах (BER). Для гэтага было праведзена тры тэсты ў розных тыпах памяшканняў: калідор з дывановым пакрыццём, кабінет з лінолеумам на падлозе і аўдыторыя з драўлянай падлогай.


У якасці «выпрабаванага» была абраная песня «And The Cradle Will Rock» гурта Van Halen.

Гучнасць гучання была настроена такім чынам, каб вымяраны смартфонам на адлегласці 2 м ад дынаміка ўзровень гуку быў 63 дб.

Чытаць паміж нот: сістэма перадачы даных унутры музыкі
Малюнак № 5: паказчыкі BER у залежнасці ад адлегласці паміж дынамікам і мікрафонам (сіняя лінія – аўдыторыя, зялёная – калідор, аранжавая – офіс).

У калідоры гук у 40 дб улоўліваўся смартфонам на адлегласці да 24 метраў ад дынаміка. У аўдыторыі на адлегласці 15 м гук быў 55 дб, а ў офісе пры адлегласці ў 8 метраў узровень успрыманага смартфонам гуку дасягаў 57 дб.

З прычыны таго, што аўдыторыя і офіс з'яўляюцца больш рэверберавальнымі, познія рэха-сігналы OFDM сімвалаў перавышаюць даўжыню цыклічнага прэфікса і павялічваюць BER.

Рэверберацыя* - Паступовае памяншэнне інтэнсіўнасці гуку з прычыны яго шматразовага адлюстравання.

Далей даследнікі прадэманстравалі ўніверсальнасць сваёй сістэмы, ужыўшы яе да 6 розных песень трох жанраў (табліца ніжэй).

Чытаць паміж нот: сістэма перадачы даных унутры музыкі
Табліца №1: выкарыстаныя ў тэстах песні.

Таксама з дапамогай дадзеных табліцы мы можам убачыць хуткасць перадачы і каэфіцыенты памылак па бітах для кожнай песні. Хуткасць перадачы дадзеных адрозніваецца таму, што дыферэнцыяльны BPSK (фазавая маніпуляцыя) працуе лепш, калі выкарыстоўваюцца адны і тыя ж паднясучыя. А гэта магчыма, калі суседнія сегменты ўтрымоўваюць аднолькавыя маскіруючыя элементы. Бесперапынна гучныя песні забяспечваюць аптымальную базу для ўтойвання дадзеных, паколькі маскіравалыя частоты больш выяўлена прысутнічаюць у шырокім частотным дыяпазоне. Хутка якое змяняецца музыка можа маскіраваць OFDM сімвалы толькі часткова з-за фіксаванай даўжыні акна аналізу.

Далей тэсціраванне сістэмы пачалі людзі, якія павінны былі вызначыць якая мелодыя першапачатковая, а якая была мадыфікавана ўкаранёнай у яе інфармацыяй. Для гэтага 12-секундныя ўрыўкі песень з табліцы №1 былі размешчаны на спецыяльным сайце.

У першым эксперыменце (E1) кожнаму ўдзельніку даваўся альбо зменены, альбо зыходны фрагмент для праслухоўвання, і ён павінен быў вырашыць, ці з'яўляецца гэты фрагмент арыгінальным ці змененым. У другім эксперыменце (E2) удзельнікі маглі колькі заўгодна разоў праслухоўваць абодва варыянты, а потым вырашыць, які з іх арыгінал, а які зменены.

Чытаць паміж нот: сістэма перадачы даных унутры музыкі
Табліца №2: вынікі эксперыментаў E1 і E2.

У выніках першага досведу ёсць два паказчыкі: p(О|О) — працэнт удзельнікаў, якія дакладна адзначылі зыходную мелодыю і p(О|М) — працэнт удзельнікаў, якія адзначылі змененую версію мелодыі як арыгінальную.

Цікаўна, што некаторыя ўдзельнікі, па словах даследнікаў, лічылі вызначаныя змененыя мелодыі больш арыгінальнымі, чым сам арыгінал. Сярэдні паказчык абодвух эксперыментаў кажа аб тым, што сярэднестатыстычны слухач не заўважыць розніцы паміж звычайнай мелодыяй і той, у якую былі ўбудаваны дадзеныя.

Натуральна, знаўцы музыкі і музыкі змогуць улавіць нейкія недакладнасці і падазроныя элементы ў змененых мелодыях, але гэтыя элементы не такія значныя, каб выклікаць дыскамфорт.

А зараз мы самі можам паўдзельнічаць у эксперыменце. Ніжэй прадстаўлены два варыянты адной і той жа мелодыі - арыгінальны і зменены. Ці чуеце вы розніцу?

Арыгінальны варыянт мелодыі
vs
Мадыфікаваны варыянт мелодыі

Для больш дэталёвага азнаямлення з нюансамі даследавання рэкамендую зазірнуць у даклад даследчай групы.

Таксама вы можаце спампаваць ZIP-архіў аўдыёфайлаў арыгінальных і змененых мелодый, выкарыстаных у даследаванні, па гэтай спасылцы.

Эпілог

У дадзенай працы аспіранты швейцарскай вышэйшай тэхнічнай школы Цюрыха апісалі дзіўную сістэму перадачы даных унутры музыкі. Для гэтага яны ўжылі частотнае маскіраванне, што дазволіла ўкараніць дадзеныя ў мелодыю, якая прайграецца дынамікам. Гэтая мелодыя ўспрымаецца мікрафонам прылады, якое распазнае ўтоеныя дадзеныя і дэкадуе іх, у той час як сярэднестатыстычны слухач розніцы нават не заўважыць. У далейшым хлопцы плануюць развіваць сваю сістэму, падбіраючы больш дасканалыя метады ўкаранення даных у аўдыё.

Калі хтосьці прыдумляе нешта незвычайнае, а галоўнае працоўнае, мы заўсёды цешымся. Але яшчэ больш радасці ад таго, што гэтае вынаходства было створана маладымі людзьмі. Навука не мае узроставых абмежаванняў. А калі моладзь лічыць навуку сумнай, значыць яе падаюць не пад тым кутом, так бы мовіць. Бо, як мы ведаем, навука - гэта дзіўны свет, які ніколі не перастае здзіўляць.

Пятнічны оф-топ:


Раз ужо мы загаварылі аб музыцы, а дакладней аб рок-музыцы, то вось вам выдатнае вандраванне па прасторах року.


Queen, "Radio Ga Ga" (1984).

Дзякую за ўвагу, заставайцеся цікаўнымі, і выдатных усім выходных, хлопцы! 🙂

Дзякуй, што застаяцеся з намі. Вам падабаюцца нашыя артыкулы? Жадаеце бачыць больш цікавых матэрыялаў? Падтрымайце нас аформіўшы замову або парэкамендаваўшы знаёмым, 30% зніжка для карыстальнікаў Хабра на ўнікальны аналаг entry-level сервераў, які быў прыдуманы намі для Вас: Уся праўда аб VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps ад $20 ці як правільна дзяліць сервер? (даступныя варыянты з RAID1 і RAID10, да 24 ядраў і да 40GB DDR4).

Dell R730xd у 2 разы танней? Толькі ў нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТБ ад $199 у Нідэрландах! Dell R420 – 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB – ад $99! Чытайце аб тым Як пабудаваць інфраструктуру корп. класа c ужываннем сервераў Dell R730xd Е5-2650 v4 коштам 9000 еўра за капейкі?

Крыніца: habr.com

Дадаць каментар