Lugemine nootide vahel: andmeedastussüsteem muusika sees

Lugemine nootide vahel: andmeedastussüsteem muusika sees

Väljendage seda, mida sõnad ei suuda edasi anda; tunda mitmesuguseid emotsioone, mis on põimunud tunnete orkaanis; murda lahti maast, taevast ja isegi universumist endast, minnes rännakule, kus pole kaarte, teid ega märke; leiutada, jutustada ja kogeda tervet lugu, mis jääb alati ainulaadseks ja jäljendamatuks. Seda kõike suudab teha muusika – kunst, mis on eksisteerinud juba mitu tuhat aastat ja rõõmustab meie kõrvu ja südant.

Kuid muusika või õigemini muusikateosed võivad mitte ainult esteetilist naudingut pakkuda, vaid ka neisse kodeeritud, mõne seadme jaoks mõeldud ja kuulajale nähtamatut teabe edastamiseks. Täna tutvume väga ebatavalise uuringuga, mille käigus ETH Zürichi magistrandid suutsid inimkõrvale märkamatult sisestada muusikateostesse teatud andmeid, tänu millele saab muusikast endast andmeedastuskanal. Kuidas nad täpselt oma tehnoloogiat rakendasid, kas meloodiad koos manustatud andmetega ja ilma nendeta on väga erinevad ning mida näitasid praktilised testid? Sellest saame teada teadlaste aruandest. Mine.

Uurimistöö alus

Teadlased nimetavad oma tehnoloogiat akustilise andmeedastuse tehnoloogiaks. Kui kõlar mängib modifitseeritud meloodiat, siis inimene tajub seda normaalsena, aga näiteks nutitelefon suudab lugeda kodeeritud infot ridade, õigemini nii-öelda nootide vahelt. Teadlased (tõsiasi, et need tüübid on endiselt magistrandid, ei takista neil teadlasteks saamist) nimetavad edastuse kiirust ja usaldusväärsust, säilitades samal ajal nende parameetrite taseme, olenemata valitud helifailist, kõige olulisemaks aspektiks selle rakendamisel. see andmeedastustehnika. Selle ülesandega aitab toime tulla psühhoakustika, mis uurib inimese helide tajumise psühholoogilisi ja füsioloogilisi aspekte.

Akustilise andmeedastuse tuumaks võib nimetada OFDM-i (ortogonaalne sagedusjaotusega multipleksimine), mis koos alamkandjate kohanemisega lähtemuusikaga aja jooksul võimaldas edastatavat sagedusspektrit maksimaalselt ära kasutada teabe edastamiseks. Tänu sellele oli võimalik saavutada edastuskiirus 412 bps kuni 24 meetri kaugusel (veasagedus < 10%). Praktilised katsed, milles osales 40 vabatahtlikku, kinnitasid tõsiasja, et peaaegu võimatu on kuulda erinevust algse meloodia ja selle vahel, millesse teave oli sisestatud.

Kus saab seda tehnoloogiat praktikas rakendada? Teadlastel on oma vastus: peaaegu kõik kaasaegsed nutitelefonid, sülearvutid ja muud pihuseadmed on varustatud mikrofonidega ning paljudes avalikes kohtades (kohvikud, restoranid, kaubanduskeskused jne) on kõlarid taustamuusikaga. See taustameloodia võib sisaldada näiteks andmeid Wi-Fi-võrguga ühenduse loomiseks ilma täiendavaid toiminguid tegemata.

Akustilise andmeedastuse üldised omadused on meile selgeks saanud; nüüd jätkame selle süsteemi struktuuri üksikasjaliku uurimisega.

Süsteemi kirjeldus

Andmete sisestamine meloodiasse toimub sageduse maskeerimise tõttu. Ajapiludes tuvastatakse maskeerimissagedused ja nendele maskeerimiselementidele lähedased OFDM-i alamkandjad täidetakse andmetega.

Lugemine nootide vahel: andmeedastussüsteem muusika sees
Pilt nr 1: originaalfaili teisendamine komposiitsignaaliks (meloodia + andmed), mis edastatakse kõlarite kaudu.

Alustuseks jagatakse algne helisignaal analüüsiks järjestikusteks segmentideks. Iga selline segment (Hi) L = 8820 proovist, mis võrdub 200 ms, korrutatakse aken* piirimõjude minimeerimiseks.

aken* on kaalumisfunktsioon, mida kasutatakse spektraalhinnangutes külghalgudest tulenevate efektide kontrollimiseks.

Järgmisena tuvastati algse signaali domineerivad sagedused vahemikus 500 Hz kuni 9.8 kHz, mis võimaldas saada selle segmendi jaoks maskeerimissagedusi fM,l. Lisaks edastati andmeid väikeses vahemikus 9.8–10 kHz, et teha kindlaks alamkandjate asukoht vastuvõtjas. Kasutatava sagedusvahemiku ülempiiriks määrati 10 kHz nutitelefonide mikrofonide madala tundlikkuse tõttu kõrgetel sagedustel.

Maskeerimissagedused määrati iga analüüsitud segmendi jaoks eraldi. Kasutades HPS-i (Harmonic Product Spectrum) meetodit, tuvastati kolm domineerivat sagedust ja seejärel ümardati harmoonilise kromaatilise skaala lähimate nootideni. Nii saadi põhinoodid fF,i = 1…3, mis paiknesid klahvide C0 (16.35 Hz) ja B0 (30.87 Hz) vahel. Lähtudes sellest, et põhinoodid on andmeedastuseks liiga madalad, arvutati nende kõrgemad oktaavid 500kfF,i vahemikus 9.8 Hz ... 2 kHz. Paljud neist sagedustest (fO,l1) olid HPS-i olemuse tõttu rohkem väljendunud.

Lugemine nootide vahel: andmeedastussüsteem muusika sees
Pilt #2: Arvutatud oktaavid fO,l1 kõige tugevama tooni põhinootide ja harmooniliste fH,l2 jaoks.

Saadud oktaavide ja harmooniliste komplekti kasutati maskeerimissagedustena, millest tuletati OFDM-i alamkandja sagedused fSC,k. Iga maskeerimissageduse alla ja kohale sisestati kaks alamkandjat.

Järgmisena filtreeriti Hi-helisegmendi spekter alamkandja sagedustel fSC,k. Pärast seda loodi Bi-s olevate infobittide põhjal OFDM-sümbol, mille tõttu sai kõlari kaudu edastada liitsegmenti Ci. Alamkandjate suurused ja faasid tuleb valida nii, et vastuvõtja saaks edastatud andmed eraldada, samal ajal kui kuulaja ei märka meloodias muutusi.

Lugemine nootide vahel: andmeedastussüsteem muusika sees
Pilt nr 3: osa originaalmeloodia Hi segmendi spektrist ja alamkandja sagedustest.

Kui kõlarite kaudu esitatakse helisignaali koos selles kodeeritud teabega, salvestab vastuvõtva seadme mikrofon selle. Manustatud OFDM-sümbolite lähtekohtade leidmiseks tuleb kirjed esmalt ribapääsmefiltreerida. Sel viisil ekstraheeritakse ülemine sagedusvahemik, kus alamkandjate vahel ei esine muusikalisi häiresignaale. OFDM-sümbolite alguse leiate tsüklilise prefiksi abil.

Pärast OFDM-sümbolite alguse tuvastamist saab vastuvõtja kõrgsageduspiirkonna dekodeerimise kaudu teavet kõige domineerivamate nootide kohta. Lisaks on OFDM üsna vastupidav kitsaribaliste häirete allikatele, kuna need mõjutavad ainult mõnda alamkandjat.

Praktilised testid

Muudetud meloodiate allikaks oli KRK Rokit 8 kõlar ja vastuvõtva poole rollis nutitelefon Nexus 5X.

Lugemine nootide vahel: andmeedastussüsteem muusika sees
Pilt nr 4: erinevus tegelike OFDM-i ja korrelatsiooni piikide vahel, mõõdetuna siseruumides 5 m kaugusel kõlari ja mikrofoni vahel.

Enamik OFDM-punkte on vahemikus 0 kuni 25 ms, nii et leiate kehtiva alguse 66.6 ms tsüklilisest prefiksist. Teadlased märgivad, et vastuvõtja (selles katses nutitelefon) võtab arvesse, et OFDM-sümboleid esitatakse perioodiliselt, mis parandab nende tuvastamist.

Esimese asjana tuli kontrollida kauguse mõju bitiveamäärale (BER). Selleks viidi erinevat tüüpi ruumides läbi kolm katset: vaibaga koridor, põrandal linoleum kabinet ja puitpõrandaga auditoorium.


Katsealuseks valiti Van Haleni laul “And The Cradle Will Rock”.

Helitugevus oli reguleeritud nii, et nutitelefoni poolt kõlarist 2 m kaugusel mõõdetud helitase oli 63 dB.

Lugemine nootide vahel: andmeedastussüsteem muusika sees
Pilt nr 5: BER indikaatorid sõltuvalt kõlari ja mikrofoni vahelisest kaugusest (sinine joon – publik, roheline – koridor, oranž – kontor).

Koridoris võttis 40 dB heli kõlarist kuni 24 meetri kauguselt üles nutitelefon. Klassiruumis 15 m kaugusel oli heli 55 dB ja kontoris 8 meetri kaugusel ulatus nutitelefoniga tajutav helitase 57 dB-ni.

Kuna auditoorium ja kontor on kõlavamad, ületavad hilised OFDM-i sümboli kajad tsüklilise prefiksi pikkuse ja suurendavad BER-i.

Kaja* - helitugevuse järkjärguline vähenemine selle mitmekordse peegelduse tõttu.

Teadlased demonstreerisid veelgi oma süsteemi mitmekülgsust, rakendades seda kuuele erinevale laulule kolmest žanrist (tabel allpool).

Lugemine nootide vahel: andmeedastussüsteem muusika sees
Tabel nr 1: testides kasutatud laulud.

Samuti näeme tabeliandmete kaudu iga laulu bitikiirust ja bitivigade määra. Andmeedastuskiirused on erinevad, kuna diferentsiaalne BPSK (faasinihke võtmed) töötab paremini, kui kasutatakse samu alamkandjaid. Ja see on võimalik, kui külgnevad segmendid sisaldavad samu maskeerivaid elemente. Pidevalt valjud laulud pakuvad optimaalset alust andmete peitmiseks, kuna maskeerimissagedused on tugevamalt olemas laias sagedusvahemikus. Kiire tempoga muusika suudab analüüsiakna fikseeritud pikkuse tõttu OFDM-sümboleid ainult osaliselt varjata.

Järgmiseks hakkasid inimesed süsteemi testima, kes pidid kindlaks tegema, milline meloodia on originaalne ja millist muutis sellesse manustatud teave. Selleks postitati spetsiaalsele veebilehele 12-sekundilised laulude katkendid tabelist nr 1.

Esimeses katses (E1) anti igale osalejale kuulamiseks kas modifitseeritud või originaalfragment ning ta pidi otsustama, kas fragment on originaalne või muudetud. Teises katses (E2) said osalejad mõlemat versiooni kuulata nii mitu korda, kui nad soovisid, ja seejärel otsustada, milline neist oli originaalne ja kumb muudetud.

Lugemine nootide vahel: andmeedastussüsteem muusika sees
Tabel nr 2: katsete E1 ja E2 tulemused.

Esimese katse tulemustel on kaks näitajat: p(O|O) – algse meloodia õigesti märkinud osalejate protsent ja p(O|M) – meloodia muudetud versiooni originaaliks märkinud osalejate protsent.

Huvitaval kombel pidasid mõned osalejad teadlaste sõnul teatud muudetud meloodiaid originaalsemaks kui originaal ise. Mõlema katse keskmine viitab sellele, et keskmine kuulaja ei märkaks erinevust tavalise meloodia ja meloodia vahel, millesse andmed olid manustatud.

Loomulikult suudavad muusikaeksperdid ja muusikud tuvastada muutunud meloodiates mõningaid ebatäpsusi ja kahtlasi elemente, kuid need elemendid ei ole nii olulised, et tekitada ebamugavust.

Ja nüüd saame ka meie ise katses osaleda. Allpool on kaks versiooni samast meloodiast – originaal ja muudetud. Kas kuulete erinevust?

Meloodia originaalversioon
vs
Meloodia muudetud versioon

Uuringu nüanssidega täpsemaks tutvumiseks soovitan vaadata aruanne uurimisrühm.

Samuti saate alla laadida uuringus kasutatud originaal- ja muudetud lugude helifailide ZIP-arhiivi aadressil see link.

Epiloog

Selles töös kirjeldasid ETH Zürichi magistrandid hämmastavat andmeedastussüsteemi muusikas. Selleks kasutasid nad sagedusmaskimist, mis võimaldas põimida andmed kõlari mängitavasse meloodiasse. Seda meloodiat tajub seadme mikrofon, mis tunneb ära peidetud andmed ja dekodeerib need, samas kui tavakuulaja ei märka erinevust. Tulevikus plaanivad poisid oma süsteemi arendada, valides täpsemad meetodid andmete helisse sisestamiseks.

Kui keegi mõtleb välja midagi ebatavalist ja mis kõige tähtsam, midagi, mis töötab, oleme alati õnnelikud. Kuid veelgi suurem rõõm on see, et selle leiutise lõid noored. Teadusel pole vanusepiiranguid. Ja kui noortele tundub teadus igav, siis esitatakse seda nii-öelda vale nurga alt. Lõppude lõpuks, nagu me teame, on teadus hämmastav maailm, mis ei lakka kunagi hämmastamast.

Reede off-top:


Kuna me räägime muusikast, õigemini rokkmuusikast, siis siin on üks imeline rännak läbi roki avaruste.


Queen, "Radio Ga Ga" (1984).

Täname lugemise eest, olge uudishimulikud ja toredat nädalavahetust, poisid! 🙂

Täname, et jäite meiega. Kas teile meeldivad meie artiklid? Kas soovite näha huvitavamat sisu? Toeta meid, esitades tellimuse või soovitades sõpradele, Habri kasutajatele 30% allahindlus ainulaadsele algtaseme serverite analoogile, mille me teie jaoks välja mõtlesime: Kogu tõde VPS (KVM) E5-2650 v4 (6 tuuma) 10GB DDR4 240GB SSD 1Gbps kohta alates 20 dollarist või kuidas serverit jagada? (saadaval RAID1 ja RAID10, kuni 24 tuuma ja kuni 40 GB DDR4-ga).

Dell R730xd 2 korda odavam? Ainult siin 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6 GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 telerit alates 199 dollarist Hollandis! Dell R420 – 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB – alates 99 dollarist! Millegi kohta lugema Kuidas ehitada infrastruktuuri ettevõtet. klassis koos Dell R730xd E5-2650 v4 serverite kasutusega 9000 eurot senti?

Allikas: www.habr.com

Lisa kommentaar