Olvasás a hangok között: a zenén belüli adatátviteli rendszer

Olvasás a hangok között: a zenén belüli adatátviteli rendszer

Fejezze ki azt, amit a szavak nem tudnak kifejezni; sokféle érzelmet érezni az érzések hurrikánjában összefonódva; elszakadni a földtől, az égbolttól, sőt magától az Univerzumtól, olyan utazásra indulva, ahol nincsenek térképek, utak, jelek; kitalálni, elmesélni és átélni egy egész történetet, amely mindig egyedi és utánozhatatlan marad. Mindezt megteheti a zene – ez a művészet, amely sok ezer éve létezik, és gyönyörködteti fülünket és szívünket.

A zene, vagy inkább zenei művek azonban nemcsak esztétikai élvezetet szolgálhatnak, hanem a bennük kódolt, valamilyen eszközre szánt, a hallgató számára láthatatlan információ továbbítását is. Ma egy egészen szokatlan tanulmányt ismerünk meg, amelyben az ETH Zürich végzős hallgatói emberi fül észrevétlenül tudtak bizonyos adatokat bevinni a zeneművekbe, aminek köszönhetően a zene maga válik adatátviteli csatornává. Hogyan valósították meg pontosan a technológiájukat, nagyon különböznek-e a dallamok a beágyazott adatokkal és anélkül, és mit mutattak ki a gyakorlati tesztek? Erről a kutatók jelentéséből értesülünk. Megy.

Kutatási alap

A kutatók technológiájukat akusztikus adatátviteli technológiának nevezik. Amikor egy hangszóró lejátszik egy módosított dallamot, az ember azt normálisnak érzékeli, de például egy okostelefon képes kódolt információt olvasni a sorok, vagy inkább a hangok között, hogy úgy mondjam. A tudósok (az a tény, hogy ezek a srácok még mindig végzős hallgatók, nem akadályozza meg őket abban, hogy tudósok legyenek) az átvitel sebességét és megbízhatóságát, miközben ezen paraméterek szintjét megtartják, függetlenül a kiválasztott hangfájltól, a legfontosabb szempontnak a megvalósítás során. ezt az adatátviteli technikát. Ezzel a feladattal segít megbirkózni a pszichoakusztika, amely az emberi hangérzékelés pszichológiai és fiziológiai vonatkozásait vizsgálja.

Az akusztikus adatátvitel magját OFDM-nek (ortogonális frekvenciaosztásos multiplexelésnek) nevezhetjük, amely az alvivőknek a forrászenéhez való időbeli adaptációjával együtt lehetővé tette az átvitt frekvenciaspektrum maximális kihasználását információátvitelre. Ennek köszönhetően akár 412 méteres távolságban is 24 bps átviteli sebességet lehetett elérni (hibaarány < 10%). A 40 önkéntes bevonásával végzett gyakorlati kísérletek megerősítették azt a tényt, hogy szinte lehetetlen hallani a különbséget az eredeti dallam és az információ között.

Hol alkalmazható ez a technológia a gyakorlatban? A kutatóknak megvan a saját válaszuk: szinte minden modern okostelefon, laptop és egyéb kézi eszköz fel van szerelve mikrofonnal, és sok nyilvános helyen (kávézókban, éttermekben, bevásárlóközpontokban stb.) van háttérzenével kísért hangszóró. Ez a háttérdallam tartalmazhat például adatokat a Wi-Fi hálózathoz való csatlakozáshoz további műveletek nélkül.

Az akusztikus adatátvitel általános jellemzői világossá váltak számunkra, most térjünk át ennek a rendszernek a felépítésének részletes tanulmányozására.

Rendszer Leírás

Az adatok bevitele a dallamba a frekvencia maszkolás miatt következik be. Az időrésekben a maszkolási frekvenciákat azonosítják, és az ezekhez a maszkolóelemekhez közeli OFDM-alvivőket adatokkal töltik fel.

Olvasás a hangok között: a zenén belüli adatátviteli rendszer
1. kép: Az eredeti fájl konvertálása a hangszórókon keresztül továbbított összetett jellé (dallam + adat).

Először is, az eredeti audiojelet egymást követő szegmensekre osztják elemzés céljából. Az L = 8820 minta minden ilyen szegmensét (Hi), amely 200 ms-nak felel meg, megszorozzuk ablak* a határhatások minimalizálása érdekében.

Ablak* egy súlyozási függvény, amelyet a spektrális becslésekben az oldallebenyek okozta hatások szabályozására használnak.

Ezután az eredeti jel domináns frekvenciáit detektáltuk 500 Hz és 9.8 kHz között, ami lehetővé tette az fM,l maszkolási frekvenciák elérését erre a szegmensre. Ezenkívül kis 9.8-10 kHz-es tartományban továbbítottak adatokat, hogy meghatározzák az alvivők helyét a vevőn. A használt frekvenciatartomány felső határát 10 kHz-re állítottuk az okostelefonok mikrofonjainak alacsony érzékenysége miatt magas frekvenciákon.

A maszkolási gyakoriságokat minden elemzett szegmensre külön-külön határoztuk meg. A HPS (Harmonic Product Spectrum) módszerrel azonosítottuk a három domináns frekvenciát, majd a harmonikus kromatikus skálán a legközelebbi hangjegyekre kerekítettük. Így kaptuk a C1 (3 Hz) és B0 (16.35 Hz) billentyűk között elhelyezkedő fF,i = 0…30.87 főhangokat. Abból a tényből kiindulva, hogy az alaphangok túl alacsonyak az adatátvitelhez, magasabb oktávjaikat 500kfF,i az 9.8 Hz ... 2 kHz tartományban számítottuk ki. Ezen frekvenciák közül sok (fO,l1) a HPS természetéből adódóan hangsúlyosabb volt.

Olvasás a hangok között: a zenén belüli adatátviteli rendszer
2. kép: Számított fO,l1 oktávok a legerősebb hang alaphangjaihoz és fH,l2 harmonikusaihoz.

Az így kapott oktáv- és harmonikushalmazt maszkolási frekvenciákként használtuk, amelyekből származtattuk az OFDM alvivő fSC,k frekvenciáit. Minden maszkolási frekvencia alá és fölé két alvivőt helyeztünk be.

Ezután a Hi audio szegmens spektrumát szűrtük az fSC,k alvivő frekvenciákon. Ezt követően a Bi-ben lévő információs bitek alapján egy OFDM szimbólumot hoztak létre, aminek köszönhetően a Ci kompozit szegmens továbbítható volt a hangszórón keresztül. Az alvivők nagyságait és fázisait úgy kell megválasztani, hogy a vevő ki tudja bontani az átvitt adatokat, miközben a hallgató ne észleljen változást a dallamban.

Olvasás a hangok között: a zenén belüli adatátviteli rendszer
3. kép: az eredeti dallam Hi szegmensének spektrumának és alvivő frekvenciáinak egy része.

Ha a benne kódolt információt tartalmazó audiojelet a hangszórókon keresztül lejátszanak, a fogadó eszköz mikrofonja rögzíti azt. A beágyazott OFDM-szimbólumok kiindulási helyzetének megtalálásához a rekordokat először sávszűrőn kell elvégezni. Ily módon a felső frekvenciatartományt vonják ki, ahol nincs zenei interferencia jel az alvivők között. Az OFDM szimbólumok elejét ciklikus előtag használatával találhatja meg.

Az OFDM-szimbólumok kezdetének észlelése után a vevő a legdominánsabb hangokról nagyfrekvenciás tartományú dekódoláson keresztül információt szerez. Ezenkívül az OFDM meglehetősen ellenálló a keskeny sávú interferencia forrásokkal szemben, mivel azok csak néhány alvivőt érintenek.

Gyakorlati tesztek

A módosított dallamok forrásaként a KRK Rokit 8 hangszóró, a fogadó fél szerepét a Nexus 5X okostelefon töltötte be.

Olvasás a hangok között: a zenén belüli adatátviteli rendszer
4. kép: A tényleges OFDM és a korrelációs csúcsok közötti különbség beltérben, a hangszóró és a mikrofon közötti 5 méteres távolságban.

A legtöbb OFDM-pont 0 és 25 ms közötti tartományban van, így a 66.6 ms-os ciklikus előtagon belül találhat érvényes kezdést. A kutatók megjegyzik, hogy a vevő (ebben a kísérletben egy okostelefon) figyelembe veszi, hogy az OFDM-szimbólumokat rendszeresen lejátssza, ami javítja az észlelésüket.

Az első dolog, amit ellenőrizni kellett, a távolságnak a bithibaarányra (BER) gyakorolt ​​hatása volt. Ennek érdekében három tesztet végeztek különböző típusú helyiségekben: egy szőnyeges folyosón, egy linóleummal borított irodában és egy fapadlós előadóteremben.


Van Halen „And The Cradle Will Rock” című dalát választották tesztalanynak.

A hangerőt úgy állítottuk be, hogy az okostelefon által a hangszórótól 2 m távolságra mért hangerő 63 dB legyen.

Olvasás a hangok között: a zenén belüli adatátviteli rendszer
5. számú kép: BER-jelzők a hangszóró és a mikrofon távolságától függően (kék vonal - közönség, zöld - folyosó, narancssárga - iroda).

A folyosón 40 dB-es hangot vett fel egy okostelefon a hangszórótól legfeljebb 24 méter távolságból. Az osztályteremben 15 méter távolságból a hang 55 dB volt, az irodában pedig 8 méter távolságból az okostelefon által érzékelt hangszint elérte az 57 dB-t.

Mivel a nézőtér és az iroda visszhangosabb, a késői OFDM szimbólum visszhangok meghaladják a ciklikus előtag hosszát, és növelik a BER-t.

Visszaverődés* - a hangintenzitás fokozatos csökkenése többszörös visszaverődése miatt.

A kutatók tovább demonstrálták rendszerük sokoldalúságát azzal, hogy 6 különböző dalra alkalmazták három műfajból (az alábbi táblázat).

Olvasás a hangok között: a zenén belüli adatátviteli rendszer
1. számú táblázat: a tesztekben használt dalok.

Ezenkívül a táblázat adatain keresztül láthatjuk az egyes dalok bitsebességét és bithibaarányát. Az adatátviteli sebességek eltérőek, mivel a differenciális BPSK (fáziseltolásos kulcsozás) jobban működik, ha ugyanazokat az alvivőket használják. És ez akkor lehetséges, ha a szomszédos szegmensek ugyanazokat a maszkoló elemeket tartalmazzák. A folyamatosan hangos dalok optimális alapot biztosítanak az adatok elrejtéséhez, mivel a maszkolási frekvenciák széles frekvenciatartományban erősebben vannak jelen. A pörgős zene csak részben képes elfedni az OFDM szimbólumokat az elemzési ablak fix hossza miatt.

Ezután az emberek elkezdték tesztelni a rendszert, akiknek meg kellett határozniuk, hogy melyik dallam az eredeti, és melyiket módosította a benne elhelyezett információ. Ebből a célból az 12. számú táblázatból 1 másodperces dalrészletek kerültek fel egy speciális weboldalra.

Az első kísérletben (E1) minden résztvevő kapott egy módosított vagy eredeti töredéket, hogy meghallgathassa, és el kellett döntenie, hogy a töredék eredeti vagy módosított. A második kísérletben (E2) a résztvevők annyiszor hallgathatták meg mindkét verziót, ahányszor akarták, majd eldönthették, melyik az eredeti, és melyiket módosították.

Olvasás a hangok között: a zenén belüli adatátviteli rendszer
2. számú táblázat: E1 és E2 kísérletek eredményei.

Az első kísérlet eredményeinek két mutatója van: p(O|O) – azon résztvevők százalékos aránya, akik helyesen jelölték meg az eredeti dallamot, és p(O|M) – azon résztvevők százalékos aránya, akik a dallam módosított változatát jelölték meg eredetinek.

Érdekes módon egyes résztvevők a kutatók szerint bizonyos módosított dallamokat eredetibbnek tartottak, mint magát az eredetit. Mindkét kísérlet átlaga azt sugallja, hogy az átlagos hallgató nem vesz észre különbséget egy normál dallam és egy olyan dallam között, amelybe adatokat ágyaztak be.

A zenei szakemberek és zenészek természetesen a megváltozott dallamokban találhatnak majd néhány pontatlanságot, gyanús elemet, de ezek az elemek nem olyan jelentősek, hogy kellemetlenséget okozzanak.

És most mi magunk is részt vehetünk a kísérletben. Az alábbiakban ugyanannak a dallamnak két változata látható – az eredeti és a módosított. Hallod a különbséget?

A dallam eredeti változata
vs
A dallam módosított változata

A tanulmány árnyalatainak részletesebb megismeréséhez javaslom, hogy tekintse meg jelentés kutatócsoport.

Letöltheti a tanulmányban használt eredeti és módosított dallamok hangfájljait tartalmazó ZIP archívumot is a címről ez a kapcsolat.

Epilógus

Ebben a munkában az ETH Zürich végzős hallgatói egy csodálatos adatátviteli rendszert írtak le a zenén belül. Ehhez frekvencia maszkolást alkalmaztak, ami lehetővé tette az adatok beágyazását a hangszóró által lejátszott dallamba. Ezt a dallamot érzékeli a készülék mikrofonja, amely felismeri a rejtett adatokat és dekódolja azokat, miközben az átlagos hallgató észre sem veszi a különbséget. A srácok a jövőben azt tervezik, hogy fejlesztik rendszerüket, fejlettebb módszereket választva az adatok hangba történő bevitelére.

Amikor valaki valami szokatlannal áll elő, és ami a legfontosabb, valamivel, ami működik, mindig boldogok vagyunk. De még nagyobb öröm, hogy ezt a találmányt fiatalok alkották meg. A tudománynak nincs korhatára. És ha a fiatalok unalmasnak találják a tudományt, akkor úgymond rossz oldalról mutatják be. Végül is, mint tudjuk, a tudomány egy csodálatos világ, amely soha nem szűnik meg ámulatba ejteni.

péntek off-top:


Mivel zenéről, vagy inkább rockzenéről beszélünk, íme egy csodálatos utazás a rock világain.


Queen, "Radio Ga Ga" (1984).

Köszönöm, hogy elolvastátok, maradjatok kíváncsiak, és kellemes hétvégét nektek! 🙂

Köszönjük, hogy velünk tartott. Tetszenek cikkeink? További érdekes tartalmakat szeretne látni? Támogass minket rendeléssel vagy ajánlj ismerőseidnek, 30% kedvezmény a Habr felhasználóknak a belépő szintű szerverek egyedülálló analógjára, amelyet mi találtunk ki Önnek: A teljes igazság a VPS-ről (KVM) E5-2650 v4 (6 mag) 10 GB DDR4 240 GB SSD 1 Gbps 20 dollártól, vagy hogyan oszthat meg egy szervert? (RAID1 és RAID10, akár 24 maggal és akár 40 GB DDR4-gyel is elérhető).

Dell R730xd kétszer olcsóbb? Csak itt 2x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6 GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV 199 dollártól Hollandiában! Dell R420 - 2x E5-2430 2.2 Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - 99 dollártól! Olvasni valamiről Hogyan építsünk infrastrukturális vállalatot? osztályú Dell R730xd E5-2650 v4 szerverek használatával 9000 eurót ér egy fillérért?

Forrás: will.com

Hozzászólás