Skaitymas tarp natų: duomenų perdavimo sistema muzikos viduje

Skaitymas tarp natų: duomenų perdavimo sistema muzikos viduje

Išreikšti tai, ko žodžiai negali perteikti; jausti įvairiausias emocijas, persipynusias jausmų uragane; atitrūkti nuo žemės, dangaus ir net pačios Visatos, leidžiantis į kelionę, kurioje nėra žemėlapių, kelių, ženklų; sugalvoti, papasakoti ir patirti visą istoriją, kuri visada išliks unikali ir nepakartojama. Visa tai gali padaryti muzika – daugelį tūkstančių metų gyvuojantis menas, džiuginantis mūsų ausis ir širdis.

Tačiau muzika, o tiksliau muzikiniai kūriniai gali pasitarnauti ne tik estetiniam malonumui, bet ir juose užkoduotos, kokiam nors įrenginiui skirtos ir klausytojui nematomos informacijos perdavimui. Šiandien susipažinsime su itin neįprastu tyrimu, kurio metu ETH Ciuricho magistrantai sugebėjo žmogaus ausies nepastebimai įvesti tam tikrus duomenis į muzikos kūrinius, dėl kurių pati muzika tampa duomenų perdavimo kanalu. Kaip tiksliai jie įdiegė savo technologiją, ar labai skiriasi melodijos su įterptais duomenimis ir be jų ir ką parodė praktiniai testai? Apie tai sužinome iš tyrėjų ataskaitos. Eik.

Tyrimo pagrindas

Tyrėjai savo technologiją vadina akustine duomenų perdavimo technologija. Kai garsiakalbis groja modifikuotą melodiją, žmogus tai suvokia kaip įprasta, tačiau, pavyzdžiui, išmanusis telefonas gali nuskaityti užkoduotą informaciją tarp eilučių, o tiksliau – tarp natų, taip sakant. Mokslininkai (tai, kad šie vaikinai vis dar yra magistrantai, netrukdo jiems būti mokslininkais) svarbiausiu aspektu įgyvendinant garso įrašą vadina perdavimo greitį ir patikimumą išlaikant šių parametrų lygį, nepriklausomai nuo pasirinkto garso failo. ši duomenų perdavimo technika. Su šia užduotimi susidoroti padeda psichoakustika, tirianti psichologinius ir fiziologinius žmogaus garsų suvokimo aspektus.

Akustinio duomenų perdavimo šerdį galima pavadinti OFDM (ortogonalinio dažnio padalijimo multipleksavimu), kuris kartu su antrinių nešėjų pritaikymu prie šaltinio muzikos laikui bėgant leido maksimaliai išnaudoti perduodamą dažnių spektrą informacijos perdavimui. Dėl to buvo galima pasiekti 412 bps perdavimo greitį iki 24 metrų atstumu (klaidų dažnis < 10%). Praktiniai eksperimentai, kuriuose dalyvavo 40 savanorių, patvirtino faktą, kad beveik neįmanoma išgirsti skirtumo tarp originalios melodijos ir tos, kurioje buvo įdėta informacija.

Kur ši technologija gali būti pritaikyta praktiškai? Mokslininkai turi savo atsakymą: beveik visi šiuolaikiniai išmanieji telefonai, nešiojamieji kompiuteriai ir kiti delniniai įrenginiai yra aprūpinti mikrofonais, o daugelyje viešų vietų (kavinių, restoranų, prekybos centrų ir kt.) yra garsiakalbiai su fonine muzika. Šioje foninėje melodijoje, pavyzdžiui, gali būti duomenų, reikalingų prisijungti prie „Wi-Fi“ tinklo be papildomų veiksmų.

Bendrosios akustinio duomenų perdavimo ypatybės mums tapo aiškios, dabar pereikime prie išsamaus šios sistemos struktūros tyrimo.

Sistemos aprašymas

Duomenų įvedimas į melodiją atsiranda dėl dažnio maskavimo. Laiko tarpuose identifikuojami maskavimo dažniai ir OFDM antrinės nešlės, esančios arti šių maskavimo elementų, užpildomos duomenimis.

Skaitymas tarp natų: duomenų perdavimo sistema muzikos viduje
1 vaizdas: pradinio failo konvertavimas į sudėtinį signalą (melodija + duomenys), perduodamą per garsiakalbius.

Pirmiausia pradinis garso signalas yra padalintas į nuoseklius segmentus analizei. Kiekvienas toks segmentas (Hi) iš L = 8820 pavyzdžių, lygus 200 ms, padauginamas iš langas* siekiant sumažinti ribinį poveikį.

Langas* yra svorio funkcija, naudojama spektrinių įverčių šoninių skilčių efektams valdyti.

Toliau buvo aptikti dominuojantys pradinio signalo dažniai nuo 500 Hz iki 9.8 kHz, o tai leido gauti šio segmento maskavimo dažnius fM,l. Be to, duomenys buvo perduodami nedideliu diapazonu nuo 9.8 iki 10 kHz, siekiant nustatyti antrinių nešėjų vietą imtuve. Viršutinė naudojamo dažnių diapazono riba buvo nustatyta iki 10 kHz dėl mažo išmaniųjų telefonų mikrofonų jautrumo aukštais dažniais.

Maskavimo dažniai buvo nustatyti kiekvienam analizuojamam segmentui atskirai. Naudojant HPS (Harmonic Product Spectrum) metodą, buvo nustatyti trys dominuojantys dažniai ir suapvalinti iki artimiausių harmoninės chromatinės skalės natų. Taip buvo gautos pagrindinės natos fF,i = 1…3, esančios tarp klavišų C0 (16.35 Hz) ir B0 (30.87 Hz). Remiantis tuo, kad pagrindinės natos yra per žemos naudoti duomenims perduoti, jų aukštesnės oktavos 500kfF,i buvo apskaičiuotos 9.8 Hz ... 2 kHz diapazone. Daugelis šių dažnių (fO,l1) buvo ryškesni dėl HPS pobūdžio.

Skaitymas tarp natų: duomenų perdavimo sistema muzikos viduje
2 paveikslas: Apskaičiuotos oktavos fO,l1 pagrindinėms natoms ir stipriausio tono harmonikoms fH,l2.

Gautas oktavų ir harmonikų rinkinys buvo naudojamas kaip maskuojantys dažniai, iš kurių buvo gauti OFDM antrinio nešlio dažniai fSC,k. Po ir virš kiekvieno maskavimo dažnio buvo įterpti du antriniai nešikliai.

Tada Hi garso segmento spektras buvo filtruojamas antrinio nešlio dažniuose fSC,k. Po to pagal Bi informacijos bitus buvo sukurtas OFDM simbolis, dėl kurio per garsiakalbį buvo galima perduoti sudėtinį segmentą Ci. Papildomų nešėjų dydžiai ir fazės turi būti parinkti taip, kad imtuvas galėtų išgauti perduodamus duomenis, o klausytojas nepastebėtų melodijos pokyčių.

Skaitymas tarp natų: duomenų perdavimo sistema muzikos viduje
Vaizdas Nr. 3: originalios melodijos Hi segmento spektro dalis ir antrinio nešlio dažniai.

Kai per garsiakalbius atkuriamas garso signalas su jame užkoduota informacija, jį įrašo priimančiojo įrenginio mikrofonas. Norint rasti pradines įterptųjų OFDM simbolių pozicijas, įrašai pirmiausia turi būti filtruoti juostos pralaidumu. Tokiu būdu išgaunamas viršutinis dažnių diapazonas, kuriame nėra muzikinių trukdžių signalų tarp antrinių nešlių. OFDM simbolių pradžią galite rasti naudodami ciklinį priešdėlį.

Aptikęs OFDM simbolių pradžią, imtuvas gauna informaciją apie labiausiai dominuojančias natas per aukšto dažnio srities dekodavimą. Be to, OFDM yra gana atsparus siaurajuosčių trikdžių šaltiniams, nes jie veikia tik kai kuriuos antrinius nešiklius.

Praktiniai testai

„KRK Rokit 8“ garsiakalbis buvo modifikuotų melodijų šaltinis, o išmanusis telefonas „Nexus 5X“ atliko priimančios šalies vaidmenį.

Skaitymas tarp natų: duomenų perdavimo sistema muzikos viduje
4 vaizdas: skirtumas tarp faktinių OFDM ir koreliacijos smailių, išmatuotų patalpose 5 m atstumu tarp garsiakalbio ir mikrofono.

Dauguma OFDM taškų yra diapazone nuo 0 iki 25 ms, todėl galite rasti tinkamą pradžią 66.6 ms cikliniame priešdėlyje. Tyrėjai pastebi, kad imtuvas (šiame eksperimente – išmanusis telefonas) atsižvelgia į tai, kad OFDM simboliai grojami periodiškai, o tai pagerina jų aptikimą.

Pirmas dalykas, kurį reikia patikrinti, buvo atstumo poveikis bitų klaidų dažniui (BER). Tam buvo atlikti trys bandymai skirtingų tipų patalpose: koridoriuje su kiliminė danga, biure su linoleumu grindyse ir auditorijoje su medinėmis grindimis.


Bandomuoju pasirinkta Van Haleno daina „And The Cradle Will Rock“.

Garso stiprumas buvo sureguliuotas taip, kad išmaniuoju telefonu 2 m atstumu nuo garsiakalbio išmatuotas garso lygis būtų 63 dB.

Skaitymas tarp natų: duomenų perdavimo sistema muzikos viduje
Vaizdas Nr. 5: BER indikatoriai, priklausantys nuo atstumo tarp garsiakalbio ir mikrofono (mėlyna linija – auditorija, žalia – koridorius, oranžinė – biuras).

Koridoriuje 40 dB garsas buvo užfiksuotas išmaniuoju telefonu iki 24 metrų atstumu nuo garsiakalbio. Klasėje 15 m atstumu garsas siekė 55 dB, o biure 8 metrų atstumu išmaniojo telefono suvokiamas garso lygis siekė 57 dB.

Kadangi auditorija ir biuras yra labiau aidi, vėlyvieji OFDM simbolių aidai viršija ciklinio priešdėlio ilgį ir padidina BER.

Aidėjimas* - laipsniškas garso intensyvumo mažėjimas dėl daugybės jo atspindžių.

Tyrėjai toliau demonstravo savo sistemos universalumą, pritaikydami ją 6 skirtingoms dainoms iš trijų žanrų (lentelė žemiau).

Skaitymas tarp natų: duomenų perdavimo sistema muzikos viduje
Lentelė Nr. 1: testuose naudotos dainos.

Be to, per lentelės duomenis galime matyti kiekvienos dainos bitų spartą ir bitų klaidų dažnį. Duomenų perdavimo sparta skiriasi, nes diferencinis BPSK (fazės poslinkio raktas) veikia geriau, kai naudojami tie patys antriniai nešėjai. Ir tai įmanoma, kai gretimuose segmentuose yra tie patys maskavimo elementai. Nuolat garsios dainos yra optimalus duomenų slėpimo pagrindas, nes maskavimo dažniai yra stipresni plačiame dažnių diapazone. Dėl fiksuoto analizės lango ilgio greita muzika gali tik iš dalies užmaskuoti OFDM simbolius.

Tada žmonės pradėjo testuoti sistemą, kuri turėjo nustatyti, kuri melodija yra originali, o kurią modifikavo joje įdėta informacija. Tam specialioje svetainėje buvo patalpintos 12 sekundžių dainų ištraukos iš lentelės Nr.1.

Pirmajame eksperimente (E1) kiekvienam dalyviui buvo duotas arba modifikuotas, arba originalus fragmentas, kurio pasiklausyti ir jis turėjo nuspręsti, ar fragmentas yra originalus, ar modifikuotas. Antrajame eksperimente (E2) dalyviai galėjo klausytis abiejų versijų tiek kartų, kiek norėjo, tada nuspręsti, kuri iš jų buvo originali, o kuri modifikuota.

Skaitymas tarp natų: duomenų perdavimo sistema muzikos viduje
Lentelė Nr. 2: eksperimentų E1 ir E2 rezultatai.

Pirmojo eksperimento rezultatai turi du rodiklius: p(O|O) – procentas dalyvių, teisingai pažymėjusių originalią melodiją, ir p(O|M) – procentas dalyvių, kurie modifikuotą melodijos variantą pažymėjo kaip originalą.

Įdomu tai, kad kai kurie dalyviai, pasak tyrėjų, tam tikras pakeistas melodijas laikė originalesnėmis už patį originalą. Abiejų eksperimentų vidurkis rodo, kad vidutinis klausytojas nepastebėtų skirtumo tarp įprastos melodijos ir melodijos, kurioje buvo įterpti duomenys.

Natūralu, kad pasikeitusiose melodijose muzikos žinovai ir muzikantai galės aptikti tam tikrų netikslumų ir įtartinų elementų, tačiau šie elementai nėra tokie reikšmingi, kad keltų diskomfortą.

O dabar eksperimente galime dalyvauti ir mes patys. Žemiau pateikiamos dvi tos pačios melodijos versijos – originali ir modifikuota. Ar girdi skirtumą?

Originali melodijos versija
vs
Modifikuota melodijos versija

Išsamiau susipažinti su tyrimo niuansais rekomenduoju pažiūrėti ataskaita tyrimų grupė.

Taip pat galite atsisiųsti tyrime naudotų originalių ir modifikuotų melodijų garso failų ZIP archyvą adresu ši nuoroda.

Epilogas

Šiame darbe ETH Ciuricho magistrantai aprašė nuostabią muzikos duomenų perdavimo sistemą. Norėdami tai padaryti, jie naudojo dažnio maskavimą, kuris leido įterpti duomenis į garsiakalbio grojamą melodiją. Šią melodiją suvokia įrenginio mikrofonas, kuris atpažįsta paslėptus duomenis ir juos iškoduoja, o eilinis klausytojas skirtumo net nepastebės. Ateityje vaikinai planuoja kurti savo sistemą, pasirinkdami pažangesnius duomenų įvedimo į garsą metodus.

Kai kas nors sugalvoja ką nors neįprasto, o svarbiausia – tai, kas veikia, mes visada džiaugiamės. Tačiau dar didesnis džiaugsmas, kad šį išradimą sukūrė jaunimas. Mokslas neturi amžiaus apribojimų. O jei jaunimui mokslas nuobodus, vadinasi, jis pateikiamas, galima sakyti, netinkamu kampu. Juk, kaip žinome, mokslas yra nuostabus pasaulis, kuris nenustoja stebinti.

Penktadienio laisvalaikis:


Kadangi mes kalbame apie muziką, tiksliau – roko muziką, tai nuostabi kelionė per roko platybes.


Karalienė, „Radio Ga Ga“ (1984).

Ačiū, kad skaitėte, būkite smalsūs ir gero savaitgalio vaikinai! 🙂

Dėkojame, kad likote su mumis. Ar jums patinka mūsų straipsniai? Norite pamatyti įdomesnio turinio? Palaikykite mus pateikdami užsakymą ar rekomenduodami draugams, 30% nuolaida Habr vartotojams unikaliam pradinio lygio serverių analogui, kurį mes sugalvojome jums: Visa tiesa apie VPS (KVM) E5-2650 v4 (6 branduoliai) 10GB DDR4 240GB SSD 1Gbps nuo 20$ arba kaip dalintis serveriu? (galima su RAID1 ir RAID10, iki 24 branduolių ir iki 40 GB DDR4).

Dell R730xd 2 kartus pigiau? Tik čia 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 televizoriai nuo 199 USD Olandijoje! „Dell R420“ – 2 x E5-2430 2.2 GHz 6C 128 GB DDR3 2 x 960 GB SSD 1 Gbps 100 TB – nuo ​​99 USD! Skaityti apie Kaip sukurti infrastruktūros korp. klasę naudojant Dell R730xd E5-2650 v4 serverius, kurių vertė 9000 eurų už centą?

Šaltinis: www.habr.com

Добавить комментарий