Čítanie medzi notami: systém prenosu dát vo vnútri hudby

Čítanie medzi notami: systém prenosu dát vo vnútri hudby

Vyjadrite to, čo slová nedokážu vyjadriť; cítiť širokú škálu emócií prepletených v hurikáne pocitov; odtrhnúť sa od zeme, neba a dokonca aj samotného Vesmíru a vydať sa na cestu, kde nie sú žiadne mapy, cesty, žiadne značky; vymyslite, vyrozprávajte a zažite celý príbeh, ktorý zostane vždy jedinečný a nenapodobiteľný. To všetko dokáže hudba – umenie, ktoré existuje už mnoho tisíc rokov a lahodí našim ušiam a srdciam.

Hudba, či skôr hudobné diela však môžu slúžiť nielen na estetické potešenie, ale aj na prenos informácií v nich zakódovaných, určených pre nejaké zariadenie a pre poslucháča neviditeľných. Dnes sa zoznámime s veľmi nezvyčajnou štúdiou, v ktorej absolventi ETH Zurich dokázali ľudským uchom nepozorovane vniesť do hudobných diel určité dáta, vďaka ktorým sa samotná hudba stáva kanálom prenosu dát. Ako presne implementovali svoju technológiu, sú melódie s vloženými dátami a bez nich veľmi odlišné a čo ukázali praktické testy? Dozvedáme sa o tom zo správy výskumníkov. Choď.

Výskumný základ

Výskumníci nazývajú svoju technológiu technológiou akustického prenosu údajov. Keď reproduktor hrá upravenú melódiu, človek to vníma normálne, ale napríklad smartfón dokáže čítať zakódované informácie medzi riadkami, či skôr takpovediac medzi notami. Vedci (to, že sú títo chalani ešte postgraduálni študenti, im neprekáža byť vedcami) za najdôležitejší aspekt pri implementácii tzv. túto techniku ​​prenosu údajov. Psychoakustika, ktorá študuje psychologické a fyziologické aspekty ľudského vnímania zvukov, pomáha vyrovnať sa s touto úlohou.

Jadrom akustického prenosu dát možno nazvať OFDM (orthogonal frequency division multiplexing), ktorý spolu s prispôsobovaním subnosných zdrojovej hudbe v priebehu času umožnil maximálne využiť prenášané frekvenčné spektrum na prenos informácií. Vďaka tomu bolo možné dosiahnuť prenosovú rýchlosť 412 bps na vzdialenosť až 24 metrov (chybovosť < 10 %). Praktické experimenty, na ktorých sa zúčastnilo 40 dobrovoľníkov, potvrdili fakt, že je takmer nemožné počuť rozdiel medzi pôvodnou melódiou a tou, do ktorej bola informácia vložená.

Kde sa dá táto technológia uplatniť v praxi? Výskumníci majú vlastnú odpoveď: takmer všetky moderné smartfóny, notebooky a iné vreckové zariadenia sú vybavené mikrofónmi a na mnohých verejných miestach (kaviarne, reštaurácie, nákupné centrá atď.) sú reproduktory s hudbou na pozadí. Táto melódia na pozadí môže napríklad obsahovať údaje na pripojenie k sieti Wi-Fi bez potreby ďalších akcií.

Všeobecné vlastnosti prenosu akustických údajov sú nám jasné; teraz prejdime k podrobnej štúdii štruktúry tohto systému.

Popis systému

K zavedeniu údajov do melódie dochádza v dôsledku maskovania frekvencie. V časových úsekoch sa identifikujú maskovacie frekvencie a OFDM subnosné v blízkosti týchto maskovacích prvkov sa naplnia údajmi.

Čítanie medzi notami: systém prenosu dát vo vnútri hudby
Obrázok č. 1: Konverzia pôvodného súboru na zložený signál (melódia + dáta) prenášaný cez reproduktory.

Na začiatok je pôvodný zvukový signál rozdelený na následné segmenty na analýzu. Každý takýto segment (Hi) z L = 8820 vzoriek, ktorý sa rovná 200 ms, sa vynásobí okno* minimalizovať hraničné vplyvy.

okno* je váhová funkcia používaná na kontrolu účinkov spôsobených bočnými lalokmi v spektrálnych odhadoch.

Ďalej boli detekované dominantné frekvencie pôvodného signálu v rozsahu od 500 Hz do 9.8 kHz, čo umožnilo získať maskovacie frekvencie fM,l pre tento segment. Okrem toho sa údaje prenášali v malom rozsahu od 9.8 do 10 kHz, aby sa zistilo umiestnenie pomocných nosných v prijímači. Horná hranica použitého frekvenčného rozsahu bola nastavená na 10 kHz kvôli nízkej citlivosti mikrofónov smartfónov pri vysokých frekvenciách.

Maskovacie frekvencie boli určené pre každý analyzovaný segment jednotlivo. Pomocou metódy HPS (Harmonic Product Spectrum) boli identifikované tri dominantné frekvencie a potom zaokrúhlené na najbližšie tóny na harmonickej chromatickej stupnici. Takto boli získané hlavné tóny fF,i = 1…3, ležiace medzi klávesami C0 (16.35 Hz) a B0 (30.87 Hz). Na základe skutočnosti, že základné tóny sú príliš nízke na použitie pri prenose dát, ich vyššie oktávy 500kfF,i boli vypočítané v rozsahu 9.8 Hz ... 2 kHz. Mnohé z týchto frekvencií (fO,l1) boli výraznejšie kvôli povahe HPS.

Čítanie medzi notami: systém prenosu dát vo vnútri hudby
Obrázok č. 2: Vypočítané oktávy fO,l1 pre základné tóny a harmonické fH,l2 najsilnejšieho tónu.

Výsledný súbor oktáv a harmonických bol použitý ako maskovacie frekvencie, z ktorých boli odvodené OFDM pomocné frekvencie fSC,k. Pod a nad každú maskovaciu frekvenciu boli vložené dve pomocné nosné.

Ďalej bolo spektrum Hi audio segmentu filtrované na pomocných nosných frekvenciách fSC,k. Potom sa na základe informačných bitov v Bi vytvoril OFDM symbol, vďaka ktorému sa mohol cez reproduktor prenášať kompozitný segment Ci. Veľkosti a fázy subnosných musia byť zvolené tak, aby prijímač mohol extrahovať prenášané dáta, zatiaľ čo poslucháč nezaznamená zmeny v melódii.

Čítanie medzi notami: systém prenosu dát vo vnútri hudby
Obrázok č.3: časť spektra a pomocných frekvencií Hi segmentu pôvodnej melódie.

Keď sa zvukový signál so zakódovanými informáciami prehrá cez reproduktory, mikrofón prijímacieho zariadenia ho zaznamená. Na nájdenie začiatočných pozícií vložených OFDM symbolov je potrebné záznamy najprv filtrovať pásmovou priepustou. Týmto spôsobom je extrahovaný horný frekvenčný rozsah, kde nie sú žiadne hudobné interferenčné signály medzi subnosnými. Začiatok OFDM symbolov môžete nájsť pomocou cyklickej predpony.

Po detekcii začiatku OFDM symbolov prijímač získa informácie o najdominantnejších tónoch prostredníctvom dekódovania vo vysokofrekvenčnej doméne. Okrem toho je OFDM celkom odolný voči zdrojom úzkopásmového rušenia, pretože ovplyvňuje len niektoré subnosné.

Praktické testy

Ako zdroj upravených melódií pôsobil reproduktor KRK Rokit 8 a rolu prijímajúcej strany zohral smartfón Nexus 5X.

Čítanie medzi notami: systém prenosu dát vo vnútri hudby
Obrázok č. 4: Rozdiel medzi skutočnými OFDM a korelačnými vrcholmi nameranými v interiéri vo vzdialenosti 5 m medzi reproduktorom a mikrofónom.

Väčšina bodov OFDM leží v rozsahu od 0 do 25 ms, takže platný začiatok môžete nájsť v rámci cyklickej predpony 66.6 ms. Výskumníci poznamenávajú, že prijímač (v tomto experimente smartfón) berie do úvahy, že symboly OFDM sa prehrávajú pravidelne, čo zlepšuje ich detekciu.

Prvá vec, ktorú je potrebné skontrolovať, bol vplyv vzdialenosti na bitovú chybovosť (BER). Na tento účel boli vykonané tri testy v rôznych typoch miestností: chodba s kobercom, kancelária s linoleom na podlahe a poslucháreň s drevenou podlahou.


Ako testovací subjekt bola vybraná pieseň „And The Cradle Will Rock“ od Van Halena.

Hlasitosť zvuku bola upravená tak, aby hladina zvuku nameraná smartfónom vo vzdialenosti 2 m od reproduktora bola 63 dB.

Čítanie medzi notami: systém prenosu dát vo vnútri hudby
Obrázok č.5: Indikátory BER v závislosti od vzdialenosti medzi reproduktorom a mikrofónom (modrá čiara - publikum, zelená - chodba, oranžová - kancelária).

Na chodbe zachytil smartfón vo vzdialenosti až 40 metrov od reproduktora zvuk 24 dB. V triede vo vzdialenosti 15 m bol zvuk 55 dB a v kancelárii vo vzdialenosti 8 metrov dosahovala úroveň zvuku vnímaného smartfónom 57 dB.

Pretože poslucháreň a kancelária sú viac dozvukové, neskoré ozveny symbolov OFDM prekračujú dĺžku cyklickej predpony a zvyšujú BER.

Dozvuk* - postupné znižovanie intenzity zvuku v dôsledku jeho viacnásobných odrazov.

Výskumníci ďalej demonštrovali všestrannosť svojho systému tým, že ho aplikovali na 6 rôznych skladieb z troch žánrov (tabuľka nižšie).

Čítanie medzi notami: systém prenosu dát vo vnútri hudby
Tabuľka č.1: piesne použité v testoch.

Prostredníctvom údajov v tabuľke môžeme tiež vidieť bitovú rýchlosť a bitovú chybovosť pre každú skladbu. Dátové rýchlosti sú odlišné, pretože diferenciálny BPSK (kľúčovanie fázovým posunom) funguje lepšie, keď sa používajú rovnaké pomocné nosné. A to je možné, keď susedné segmenty obsahujú rovnaké maskovacie prvky. Nepretržite hlasné skladby poskytujú optimálny základ pre skrytie údajov, pretože maskovacie frekvencie sú silnejšie prítomné v širokom frekvenčnom rozsahu. Rýchla hudba môže iba čiastočne maskovať symboly OFDM kvôli pevnej dĺžke okna analýzy.

Ďalej začali systém testovať ľudia, ktorí museli určiť, ktorá melódia je originálna a ktorá bola upravená informáciami v nej vloženými. Na tento účel boli na špeciálnej webovej stránke zverejnené 12-sekundové úryvky piesní z tabuľky č.

V prvom experimente (E1) dostal každý účastník buď upravený alebo originálny fragment, ktorý si mal vypočuť, a musel sa rozhodnúť, či je fragment originálny alebo upravený. V druhom experimente (E2) si účastníci mohli vypočuť obe verzie toľkokrát, koľkokrát chceli, a potom sa rozhodnúť, ktorá z nich bola originálna a ktorá bola upravená.

Čítanie medzi notami: systém prenosu dát vo vnútri hudby
Tabuľka č. 2: výsledky experimentov E1 a E2.

Výsledky prvého experimentu majú dva ukazovatele: p(O|O) - percento účastníkov, ktorí správne označili pôvodnú melódiu a p(O|M) - percento účastníkov, ktorí označili upravenú verziu melódie ako originálnu.

Zaujímavé je, že niektorí účastníci podľa výskumníkov považovali určité pozmenené melódie za originálnejšie ako samotný originál. Priemer oboch experimentov naznačuje, že priemerný poslucháč by si nevšimol rozdiel medzi bežnou melódiou a melódiou, do ktorej boli vložené dáta.

Prirodzene, hudobní experti a hudobníci budú schopní odhaliť niektoré nepresnosti a podozrivé prvky v zmenených melódiách, ale tieto prvky nie sú také výrazné, aby spôsobovali nepohodlie.

A teraz sa môžeme sami zúčastniť experimentu. Nižšie sú uvedené dve verzie tej istej melódie – pôvodná a upravená. Počuješ ten rozdiel?

Pôvodná verzia melódie
vs
Upravená verzia melódie

Pre podrobnejšie oboznámenie sa s nuansami štúdie odporúčam pozrieť správa výskumná skupina.

Môžete si tiež stiahnuť ZIP archív zvukových súborov pôvodných a upravených melódií použitých v štúdiu na adrese tento odkaz.

Epilóg

V tejto práci opísali postgraduálni študenti z ETH Zurich úžasný systém prenosu dát v rámci hudby. Využili na to frekvenčné maskovanie, ktoré umožnilo vložiť dáta do melódie, ktorú reproduktor prehráva. Túto melódiu vníma mikrofón zariadenia, ktoré rozpozná skryté dáta a dekóduje ich, pričom bežný poslucháč rozdiel ani nepostrehne. V budúcnosti plánujú chlapci vyvinúť svoj systém a vyberú pokročilejšie metódy na zavádzanie údajov do zvuku.

Keď niekto príde s niečím nezvyčajným a hlavne, čo funguje, vždy nás to poteší. Ale ešte väčšia radosť je, že tento vynález vytvorili mladí ľudia. Veda nemá žiadne vekové obmedzenia. A ak sa mladým ľuďom veda zdá nudná, potom je prezentovaná takpovediac z nesprávneho uhla pohľadu. Koniec koncov, ako vieme, veda je úžasný svet, ktorý neprestáva udivovať.

Piatok mimo:


Keďže hovoríme o hudbe, alebo skôr o rockovej hudbe, je tu nádherná cesta cez priestranstvá rocku.


Kráľovná, "Radio Ga Ga" (1984).

Ďakujeme za prečítanie, buďte zvedaví a prajeme vám skvelý víkend, priatelia! 🙂

Ďakujeme, že ste zostali s nami. Páčia sa vám naše články? Chcete vidieť viac zaujímavého obsahu? Podporte nás zadaním objednávky alebo odporučením priateľom, 30% zľava pre užívateľov Habr na unikátny analóg serverov základnej úrovne, ktorý sme pre vás vymysleli: Celá pravda o VPS (KVM) E5-2650 v4 (6 jadier) 10GB DDR4 240GB SSD 1Gbps od 20 USD alebo ako zdieľať server? (k dispozícii s RAID1 a RAID10, až 24 jadier a až 40 GB DDR4).

Dell R730xd 2 krát lacnejší? Len tu 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6 GHz 14C 64 GB DDR4 4 x 960 GB SSD 1 Gbps 100 TV od 199 USD v Holandsku! Dell R420 – 2x E5-2430 2.2 GHz 6C 128 GB DDR3 2 x 960 GB SSD 1 Gb/s 100 TB – od 99 USD! Čítať o Ako vybudovať infraštruktúru spol. triedy s využitím serverov Dell R730xd E5-2650 v4 v hodnote 9000 XNUMX eur za cent?

Zdroj: hab.com

Pridať komentár