Čtení mezi notami: systém přenosu dat uvnitř hudby

Čtení mezi notami: systém přenosu dat uvnitř hudby

Vyjádřete to, co slova nemohou vyjádřit; cítit širokou škálu emocí propletených v hurikánu pocitů; odtrhnout se od země, nebe a dokonce i samotného Vesmíru a vydat se na cestu, kde nejsou žádné mapy, cesty, žádné značky; vymyslet, vyprávět a prožít celý příběh, který zůstane vždy jedinečný a nenapodobitelný. To vše dokáže hudba – umění, které existuje po mnoho tisíc let a lahodí našim uším i srdcím.

Hudba, či spíše hudební díla však mohou sloužit nejen k estetickému potěšení, ale také k přenosu informací v nich zakódovaných, určených pro nějaké zařízení a pro posluchače neviditelných. Dnes se seznámíme s velmi neobvyklou studií, ve které mohli absolventi ETH Zurich nepozorovaně vnést do hudebních děl určitá data, díky nimž se hudba sama stává kanálem přenosu dat. Jak přesně implementovali svou technologii, jsou melodie s vloženými daty a bez nich velmi odlišné a co ukázaly praktické testy? Dozvídáme se o tom ze zprávy výzkumníků. Jít.

Výzkumná základna

Vědci svou technologii nazývají akustický přenos dat technologie. Když reproduktor hraje upravenou melodii, člověk to vnímá jako normální, ale například chytrý telefon umí číst zakódované informace mezi řádky, respektive mezi notami, dá-li se to tak říct. Vědci (to, že jsou tito kluci ještě postgraduální studenti, jim nebrání být vědci) označují rychlost a spolehlivost přenosu při zachování úrovně těchto parametrů bez ohledu na zvolený zvukový soubor za nejdůležitější aspekt při implementaci tuto techniku ​​přenosu dat. Psychoakustika, která studuje psychologické a fyziologické aspekty lidského vnímání zvuků, pomáhá tento úkol zvládnout.

Jádro akustického přenosu dat lze nazvat OFDM (orthogonal frequency division multiplexing), což spolu s přizpůsobováním dílčích nosných v čase zdrojové hudbě umožnilo maximálně využít přenášené frekvenční spektrum pro přenos informací. Díky tomu bylo možné dosáhnout přenosové rychlosti 412 bps na vzdálenost až 24 metrů (chybovost < 10 %). Praktické experimenty, kterých se zúčastnilo 40 dobrovolníků, potvrdily skutečnost, že je téměř nemožné slyšet rozdíl mezi původní melodií a tou, do které byla informace vložena.

Kde lze tuto technologii uplatnit v praxi? Výzkumníci mají vlastní odpověď: téměř všechny moderní chytré telefony, notebooky a další kapesní zařízení jsou vybaveny mikrofony a mnoho veřejných míst (kavárny, restaurace, nákupní centra atd.) má reproduktory s hudbou na pozadí. Tato melodie na pozadí může například obsahovat data pro připojení k síti Wi-Fi bez nutnosti dalších akcí.

Obecné rysy přenosu akustických dat jsou nám jasné, nyní přejdeme k podrobné studii struktury tohoto systému.

Popis systému

K zavedení dat do melodie dochází díky frekvenčnímu maskování. V časových slotech jsou identifikovány maskovací frekvence a OFDM dílčí nosné v blízkosti těchto maskovacích prvků jsou vyplněny daty.

Čtení mezi notami: systém přenosu dat uvnitř hudby
Obrázek č. 1: Převod původního souboru na složený signál (melodie + data) přenášený přes reproduktory.

Pro začátek je původní audio signál rozdělen do po sobě jdoucích segmentů pro analýzu. Každý takový segment (Hi) z L = 8820 vzorků, který se rovná 200 ms, se vynásobí okno* minimalizovat okrajové efekty.

Okno* je váhová funkce používaná ke kontrole účinků způsobených bočními laloky ve spektrálních odhadech.

Dále byly detekovány dominantní frekvence původního signálu v rozsahu od 500 Hz do 9.8 kHz, což umožnilo získat maskovací frekvence fM,l pro tento segment. Kromě toho byla data přenášena v malém rozsahu od 9.8 do 10 kHz, aby se zjistilo umístění subnosných na přijímači. Horní hranice použitého frekvenčního rozsahu byla nastavena na 10 kHz kvůli nízké citlivosti mikrofonů smartphonů na vysokých frekvencích.

Maskovací frekvence byly určeny pro každý analyzovaný segment individuálně. Pomocí metody HPS (Harmonic Product Spectrum) byly identifikovány tři dominantní frekvence a poté zaokrouhleny na nejbližší tóny na harmonické chromatické stupnici. Takto byly získány hlavní tóny fF,i = 1…3, ležící mezi klávesami C0 (16.35 Hz) a B0 (30.87 Hz). Na základě skutečnosti, že základní tóny jsou příliš nízké pro použití při přenosu dat, byly jejich vyšší oktávy 500kfF,i vypočteny v rozsahu 9.8 Hz ... 2 kHz. Mnohé z těchto frekvencí (fO,l1) byly výraznější kvůli povaze HPS.

Čtení mezi notami: systém přenosu dat uvnitř hudby
Obrázek č. 2: Vypočítané oktávy fO,l1 pro základní tóny a harmonické fH,l2 nejsilnějšího tónu.

Výsledný soubor oktáv a harmonických byl použit jako maskovací frekvence, ze kterých byly odvozeny OFDM dílčí nosné frekvence fSC,k. Pod a nad každou maskovací frekvenci byly vloženy dvě pomocné nosné.

Dále bylo spektrum Hi audio segmentu filtrováno na dílčích nosných frekvencích fSC,k. Poté byl na základě informačních bitů v Bi vytvořen OFDM symbol, díky kterému mohl být přes reproduktor přenášen kompozitní segment Ci. Velikosti a fáze subnosných musí být zvoleny tak, aby přijímač mohl extrahovat přenášená data, zatímco posluchač nepostřehne změny v melodii.

Čtení mezi notami: systém přenosu dat uvnitř hudby
Obrázek č. 3: část spektra a dílčích frekvencí Hi segmentu původní melodie.

Když je audio signál s kódovanou informací přehráván přes reproduktory, mikrofon přijímacího zařízení jej zaznamená. Abychom našli počáteční pozice vložených OFDM symbolů, musí být záznamy nejprve filtrovány pásmovou propustí. Tímto způsobem je extrahován horní frekvenční rozsah, kde nejsou žádné hudební rušivé signály mezi subnosnými. Začátek OFDM symbolů můžete najít pomocí cyklické předpony.

Po detekci začátku OFDM symbolů získá přijímač informace o nejdominantnějších tónech prostřednictvím dekódování ve vysokofrekvenční doméně. Kromě toho je OFDM poměrně odolný vůči zdrojům úzkopásmového rušení, protože ovlivňují pouze některé dílčí nosné.

Praktické testy

Jako zdroj upravených melodií fungoval reproduktor KRK Rokit 8 a roli přijímající strany sehrál smartphone Nexus 5X.

Čtení mezi notami: systém přenosu dat uvnitř hudby
Obrázek č. 4: Rozdíl mezi skutečnými OFDM a korelačními vrcholy naměřenými uvnitř ve vzdálenosti 5 m mezi reproduktorem a mikrofonem.

Většina bodů OFDM leží v rozsahu od 0 do 25 ms, takže platný začátek najdete v rámci cyklické předpony 66.6 ms. Výzkumníci poznamenávají, že přijímač (v tomto experimentu smartphone) bere v úvahu, že se symboly OFDM přehrávají periodicky, což zlepšuje jejich detekci.

První věcí ke kontrole byl vliv vzdálenosti na bitovou chybovost (BER). K tomu byly provedeny tři testy v různých typech místností: chodba s kobercem, kancelář s linoleem na podlaze a hlediště s dřevěnou podlahou.


Jako testovací předmět byla vybrána píseň „And The Cradle Will Rock“ od Van Halena.

Hlasitost zvuku byla upravena tak, aby hladina zvuku naměřená smartphonem ve vzdálenosti 2 m od reproduktoru byla 63 dB.

Čtení mezi notami: systém přenosu dat uvnitř hudby
Obrázek č. 5: Indikátory BER v závislosti na vzdálenosti mezi reproduktorem a mikrofonem (modrá čára - publikum, zelená - chodba, oranžová - kancelář).

Na chodbě zachytil chytrý telefon zvuk o síle 40 dB ve vzdálenosti až 24 metrů od reproduktoru. V učebně na vzdálenost 15 m byl zvuk 55 dB a v kanceláři na vzdálenost 8 metrů dosáhla hladina zvuku vnímaného chytrým telefonem 57 dB.

Protože hlediště a kancelář jsou více dozvukové, pozdní ozvěny symbolů OFDM překračují délku cyklické předpony a zvyšují BER.

Dozvuk* - postupné snižování intenzity zvuku v důsledku jeho mnohonásobných odrazů.

Vědci dále prokázali všestrannost svého systému tím, že jej aplikovali na 6 různých písní ze tří žánrů (tabulka níže).

Čtení mezi notami: systém přenosu dat uvnitř hudby
Tabulka č. 1: písně použité v testech.

Prostřednictvím tabulkových dat také můžeme vidět bitovou rychlost a bitovou chybovost pro každou skladbu. Přenosové rychlosti se liší, protože diferenciální BPSK (klíčování s fázovým posunem) funguje lépe, když jsou použity stejné dílčí nosné. A to je možné, když sousední segmenty obsahují stejné maskovací prvky. Nepřetržitě hlasité skladby poskytují optimální základ pro skrytí dat, protože maskovací frekvence jsou silněji přítomny v širokém frekvenčním rozsahu. Rychlá hudba může pouze částečně maskovat symboly OFDM kvůli pevné délce okna analýzy.

Dále začali lidé testovat systém, kteří měli určit, která melodie je původní a která byla upravena informacemi v ní vloženými. Za tímto účelem byly na speciální webové stránky umístěny 12sekundové úryvky písní z tabulky č. 1.

V prvním experimentu (E1) dostal každý účastník buď upravený nebo originální fragment k poslechu a musel se rozhodnout, zda je fragment původní nebo upravený. Ve druhém experimentu (E2) si účastníci mohli poslechnout obě verze, kolikrát chtěli, a poté se rozhodnout, která z nich byla původní a která byla upravena.

Čtení mezi notami: systém přenosu dat uvnitř hudby
Tabulka č. 2: výsledky experimentů E1 a E2.

Výsledky prvního experimentu mají dva ukazatele: p(O|O) - procento účastníků, kteří správně označili původní melodii a p(O|M) - procento účastníků, kteří označili upravenou verzi melodie za původní.

Zajímavé je, že někteří účastníci podle vědců považovali určité pozměněné melodie za originálnější než originál samotný. Průměr obou experimentů naznačuje, že průměrný posluchač by nezaznamenal rozdíl mezi běžnou melodií a melodií, do které byla vložena data.

Hudební experti a hudebníci samozřejmě budou schopni odhalit některé nepřesnosti a podezřelé prvky ve změněných melodiích, ale tyto prvky nejsou tak výrazné, aby způsobovaly nepohodlí.

A nyní se můžeme experimentu zúčastnit i my sami. Níže jsou dvě verze stejné melodie – původní a upravená. Slyšíte ten rozdíl?

Původní verze melodie
vs
Upravená verze melodie

Pro podrobnější seznámení s nuancemi studie doporučuji nahlédnout zpráva výzkumná skupina.

Můžete si také stáhnout ZIP archiv zvukových souborů původních a upravených melodií použitých ve studiu na adrese odkaz.

Epilog

V této práci popsali postgraduální studenti z ETH Zurich úžasný systém přenosu dat v rámci hudby. Využili k tomu frekvenční maskování, které umožnilo vložit data do melodie přehrávané reproduktorem. Tuto melodii vnímá mikrofon přístroje, který rozpozná skrytá data a dekóduje je, přičemž běžný posluchač rozdíl ani nepozná. V budoucnu kluci plánují vyvinout svůj systém a vyberou pokročilejší metody pro zavádění dat do zvuku.

Když někdo přijde s něčím neobvyklým a hlavně s něčím, co funguje, máme vždycky radost. Ale ještě větší radost je, že tento vynález vytvořili mladí lidé. Věda nemá žádná věková omezení. A pokud se mladým lidem zdá věda nudná, pak je prezentována takříkajíc ze špatného úhlu. Koneckonců, jak víme, věda je úžasný svět, který nepřestává udivovat.

Pátek off-top:


Vzhledem k tomu, že mluvíme o hudbě, nebo spíše o rockové hudbě, je tu nádherná cesta přes rozlohy rocku.


Queen, "Radio Ga Ga" (1984).

Díky za přečtení, zůstaňte zvědaví a mějte skvělý víkend, přátelé! 🙂

Děkujeme, že s námi zůstáváte. Líbí se vám naše články? Chcete vidět více zajímavého obsahu? Podpořte nás objednávkou nebo doporučením přátelům, 30% sleva pro uživatele Habr na unikátní obdobu entry-level serverů, kterou jsme pro vás vymysleli: Celá pravda o VPS (KVM) E5-2650 v4 (6 jader) 10GB DDR4 240GB SSD 1Gbps od 20 $ nebo jak sdílet server? (k dispozici s RAID1 a RAID10, až 24 jader a až 40 GB DDR4).

Dell R730xd 2x levnější? Pouze zde 2 x Intel TetraDeca-Core Xeon 2 x E5-2697v3 2.6 GHz 14C 64 GB DDR4 4 x 960 GB SSD 1 Gbps 100 TV od 199 USD V Nizozemsku! Dell R420 – 2x E5-2430 2.2 GHz 6C 128 GB DDR3 2 x 960 GB SSD 1 Gb/s 100 TB – od 99 $! Číst o Jak budovat infrastrukturu corp. třídy s využitím serverů Dell R730xd E5-2650 v4 v hodnotě 9000 XNUMX eur za cent?

Zdroj: www.habr.com

Přidat komentář