Lesing mellom notene: dataoverføringssystemet i musikk

Lesing mellom notene: dataoverføringssystemet i musikk

Uttrykk hva ord ikke kan formidle; føle et bredt utvalg av følelser sammenvevd i en orkan av følelser; å bryte bort fra jorden, himmelen og til og med universet selv, gå på en reise der det ikke er kart, ingen veier, ingen tegn; oppfinn, fortell og opplev en hel historie som alltid vil forbli unik og uforlignelig. Alt dette kan gjøres med musikk – en kunst som har eksistert i mange tusen år og gleder våre ører og hjerter.

Imidlertid kan musikk, eller snarere musikalske verk, tjene ikke bare for estetisk nytelse, men også for overføring av informasjon kodet i dem, beregnet på en eller annen enhet og usynlig for lytteren. I dag vil vi bli kjent med en svært uvanlig studie der hovedfagsstudenter fra ETH Zürich, ubemerket av det menneskelige øret, var i stand til å introdusere visse data i musikkverk, på grunn av hvilken musikken i seg selv blir en dataoverføringskanal. Hvordan implementerte de teknologien sin, er melodiene med og uten de innebygde dataene veldig forskjellige, og hva viste praktiske tester? Dette lærer vi om fra forskernes rapport. Gå.

Grunnlaget for studien

Forskerne kaller teknologien deres for akustisk dataoverføringsteknologi. Når en høyttaler spiller en modifisert melodi, oppfatter en person det som normalt, men for eksempel kan en smarttelefon lese kodet informasjon mellom linjene, eller rettere sagt mellom tonene, for å si det sånn. Forskere (det faktum at disse gutta fortsatt er hovedfagsstudenter, hindrer dem ikke i å være forskere) kaller hastigheten og påliteligheten av overføringen samtidig som de opprettholder nivået på disse parameterne, uavhengig av den valgte lydfilen, som det viktigste aspektet i implementeringen av denne dataoverføringsteknikken. Psykoakustikk, som studerer de psykologiske og fysiologiske aspektene ved menneskelig oppfatning av lyder, hjelper til med å takle denne oppgaven.

Kjernen i akustisk dataoverføring kan kalles OFDM (ortogonal frequency division multiplexing), som sammen med tilpasning av underbærere til kildemusikken over tid gjorde det mulig å utnytte det overførte frekvensspekteret maksimalt for informasjonsoverføring. Takket være dette var det mulig å oppnå en overføringshastighet på 412 bps over en avstand på opptil 24 meter (feilrate < 10%). Praktiske eksperimenter som involverte 40 frivillige bekreftet det faktum at det er nesten umulig å høre forskjellen mellom den originale melodien og den som informasjonen var innebygd i.

Hvor kan denne teknologien brukes i praksis? Forskere har sitt eget svar: nesten alle moderne smarttelefoner, bærbare datamaskiner og andre håndholdte enheter er utstyrt med mikrofoner, og mange offentlige steder (kafeer, restauranter, kjøpesentre, etc.) har høyttalere med bakgrunnsmusikk. Denne bakgrunnsmelodien kan for eksempel inkludere data for tilkobling til et Wi-Fi-nettverk uten behov for ytterligere handlinger.

De generelle egenskapene til akustisk dataoverføring har blitt tydelige for oss; la oss nå gå videre til en detaljert studie av strukturen til dette systemet.

Systembeskrivelse

Introduksjonen av data i melodien skjer på grunn av frekvensmaskering. I tidsluker identifiseres maskeringsfrekvenser og OFDM-underbærere nær disse maskeringselementene fylles med data.

Lesing mellom notene: dataoverføringssystemet i musikk
Bilde #1: Konvertering av originalfilen til et sammensatt signal (melodi + data) sendt gjennom høyttalerne.

Til å begynne med er det originale lydsignalet delt inn i påfølgende segmenter for analyse. Hvert slikt segment (Hi) av L = 8820 prøver, lik 200 ms, multipliseres med vindu* for å minimere grenseeffekter.

Vindu* er en vektingsfunksjon som brukes til å kontrollere effekter på grunn av sidelober i spektrale estimater.

Deretter ble de dominerende frekvensene til det originale signalet detektert i området fra 500 Hz til 9.8 kHz, noe som gjorde det mulig å oppnå maskeringsfrekvenser fM,l for dette segmentet. I tillegg ble data overført i et lite område fra 9.8 til 10 kHz for å fastslå plasseringen av underbærerne ved mottakeren. Den øvre grensen for frekvensområdet som ble brukt ble satt til 10 kHz på grunn av den lave følsomheten til smarttelefonmikrofoner ved høye frekvenser.

Maskeringsfrekvenser ble bestemt for hvert analysert segment individuelt. Ved å bruke HPS-metoden (Harmonic Product Spectrum) ble de tre dominerende frekvensene identifisert og deretter avrundet til nærmeste toner på den harmoniske kromatiske skalaen. Dette er hvordan hovedtonene fF,i = 1…3 ble oppnådd, som ligger mellom tastene C0 (16.35 Hz) og B0 (30.87 Hz). Basert på det faktum at grunntonene er for lave for bruk i dataoverføring, ble deres høyere oktaver 500kfF,i beregnet i området 9.8 Hz ... 2 kHz. Mange av disse frekvensene (fO,l1) var mer uttalt på grunn av HPSens natur.

Lesing mellom notene: dataoverføringssystemet i musikk
Bilde #2: Beregnede oktaver fO,l1 for grunntonene og harmoniske fH,l2 til den sterkeste tonen.

Det resulterende settet med oktaver og harmoniske ble brukt som maskeringsfrekvenser, hvorfra OFDM-underbærefrekvensene fSC,k ble utledet. To underbærere ble satt inn under og over hver maskeringsfrekvens.

Deretter ble spekteret til Hi-lydsegmentet filtrert ved underbærefrekvenser fSC,k. Etter det ble et OFDM-symbol opprettet basert på informasjonsbitene i Bi, på grunn av hvilket det sammensatte segmentet Ci kunne overføres gjennom høyttaleren. Størrelsene og fasene til underbærerne må velges slik at mottakeren kan trekke ut de overførte dataene mens lytteren ikke merker endringer i melodien.

Lesing mellom notene: dataoverføringssystemet i musikk
Bilde nr. 3: en del av spekteret og underbærebølgefrekvensene til Hi-segmentet til den originale melodien.

Når et lydsignal med informasjon kodet i det spilles av gjennom høyttalere, tar mikrofonen til mottakerenheten det opp. For å finne startposisjonene til innebygde OFDM-symboler, må postene først båndpassfiltreres. På denne måten trekkes det øvre frekvensområdet ut, der det ikke er noen musikalske interferenssignaler mellom underbærere. Du kan finne begynnelsen av OFDM-symboler ved å bruke et syklisk prefiks.

Etter å ha oppdaget starten på OFDM-symboler, får mottakeren informasjon om de mest dominerende tonene gjennom høyfrekvent domenedekoding. I tillegg er OFDM ganske motstandsdyktig mot smalbåndsinterferenskilder, siden de bare påvirker noen av underbærerne.

Praktiske prøver

KRK Rokit 8-høyttaleren fungerte som kilden til de modifiserte melodiene, og Nexus 5X-smarttelefonen spilte rollen som mottaker.

Lesing mellom notene: dataoverføringssystemet i musikk
Bilde #4: Forskjellen mellom faktiske OFDM og korrelasjonstopper målt innendørs ved 5m mellom høyttaler og mikrofon.

De fleste OFDM-punktene ligger i området fra 0 til 25 ms, så du kan finne en gyldig start innenfor det sykliske prefikset på 66.6 ms. Forskerne bemerker at mottakeren (i dette eksperimentet, en smarttelefon) tar hensyn til at OFDM-symboler spilles med jevne mellomrom, noe som forbedrer deteksjonen deres.

Den første tingen å sjekke var effekten av avstand på bitfeilrate (BER). For å gjøre dette ble det utført tre tester i ulike typer rom: en korridor med teppe, et kontor med linoleum på gulvet og et auditorium med tregulv.


Sangen som ble valgt som testperson var "And The Cradle Will Rock" av Van Halen.

Lydvolumet ble justert slik at lydnivået målt av smarttelefonen i en avstand på 2 m fra høyttaleren var 63 dB.

Lesing mellom notene: dataoverføringssystemet i musikk
Bilde nr. 5: BER-indikatorer avhengig av avstanden mellom høyttaleren og mikrofonen (blå linje - publikum, grønn - korridor, oransje - kontor).

I gangen ble en lyd på 40 dB fanget opp av en smarttelefon i en avstand på opptil 24 meter fra høyttaleren. I klasserommet i en avstand på 15 m var lyden 55 dB, og på kontoret i en avstand på 8 meter nådde lydnivået som ble oppfattet av smarttelefonen 57 dB.

Fordi auditoriet og kontoret er mer gjenklang, overskrider sene OFDM-symbolekko den sykliske prefikslengden og øker BER.

Etterklang* - en gradvis reduksjon i lydintensitet på grunn av dens mange refleksjoner.

Forskerne demonstrerte videre allsidigheten til systemet deres ved å bruke det på 6 forskjellige sanger fra tre sjangre (tabell nedenfor).

Lesing mellom notene: dataoverføringssystemet i musikk
Tabell nr. 1: sanger brukt i prøver.

Gjennom tabelldataene kan vi også se bithastigheten og bitfeilfrekvensene for hver sang. Datahastighetene er forskjellige fordi differensial BPSK (phase shift keying) fungerer bedre når de samme underbærerne brukes. Og dette er mulig når tilstøtende segmenter inneholder de samme maskeringselementene. Kontinuerlig høye sanger gir en optimal base for dataskjuling fordi maskeringsfrekvensene er sterkere tilstede over et bredt frekvensområde. Høyt tempo musikk kan bare delvis maskere OFDM-symboler på grunn av den faste lengden på analysevinduet.

Deretter begynte folk å teste systemet, som måtte finne ut hvilken melodi som var original og hvilken som ble modifisert av informasjonen som var innebygd i den. Til dette formålet ble det lagt ut 12 sekunders utdrag av sanger fra bord nr. 1 på en spesiell nettside.

I det første eksperimentet (E1) fikk hver deltaker enten et modifisert eller originalt fragment å lytte til og måtte bestemme om fragmentet var originalt eller modifisert. I det andre eksperimentet (E2) kunne deltakerne lytte til begge versjonene så mange ganger de ville, og deretter bestemme hvilken som var original og hvilken som ble modifisert.

Lesing mellom notene: dataoverføringssystemet i musikk
Tabell nr. 2: resultater av forsøk E1 og E2.

Resultatene av det første eksperimentet har to indikatorer: p(O|O) - prosentandelen av deltakerne som korrekt merket den originale melodien og p(O|M) - prosentandelen av deltakerne som merket den modifiserte versjonen av melodien som original.

Interessant nok anså noen deltakere, ifølge forskerne, visse endrede melodier for å være mer originale enn selve originalen. Gjennomsnittet av begge eksperimentene antyder at den gjennomsnittlige lytteren ikke vil legge merke til en forskjell mellom en vanlig melodi og en der data var innebygd.

Naturligvis vil musikkeksperter og musikere kunne oppdage noen unøyaktigheter og mistenkelige elementer i de endrede melodiene, men disse elementene er ikke så betydelige at de forårsaker ubehag.

Og nå kan vi selv være med på eksperimentet. Nedenfor er to versjoner av samme melodi - den originale og den modifiserte. Kan du høre forskjellen?

Originalversjon av melodien
vs
Modifisert versjon av melodien

For en mer detaljert forståelse av nyansene i studien anbefaler jeg å ta en titt på rapportere forskningsgruppe.

Du kan også laste ned et ZIP-arkiv med lydfiler av de originale og modifiserte låtene som ble brukt i studien på denne linken.

Epilog

I dette arbeidet beskrev doktorgradsstudenter fra ETH Zürich et fantastisk dataoverføringssystem innen musikk. For å gjøre dette brukte de frekvensmaskering, som gjorde det mulig å legge inn dataene i melodien som ble spilt av høyttaleren. Denne melodien oppfattes av mikrofonen til enheten, som gjenkjenner de skjulte dataene og dekoder dem, mens den gjennomsnittlige lytteren ikke en gang vil merke forskjellen. I fremtiden planlegger gutta å utvikle systemet sitt, og velge mer avanserte metoder for å introdusere data i lyd.

Når noen finner på noe uvanlig, og viktigst av alt, noe som fungerer, er vi alltid glade. Men enda mer glede er det at denne oppfinnelsen ble skapt av unge mennesker. Vitenskap har ingen aldersbegrensninger. Og hvis unge synes vitenskap er kjedelig, så blir den presentert fra feil vinkel, for å si det sånn. Tross alt, som vi vet, er vitenskap en fantastisk verden som aldri slutter å forbløffe.

Fredag ​​off-top:


Siden vi snakker om musikk, eller rettere sagt rockemusikk, er her en fantastisk reise gjennom rockens vidder.


Queen, "Radio Ga Ga" (1984).

Takk for at du leser, vær nysgjerrig og ha en flott helg folkens! 🙂

Takk for at du bor hos oss. Liker du artiklene våre? Vil du se mer interessant innhold? Støtt oss ved å legge inn en bestilling eller anbefale til venner, 30 % rabatt for Habr-brukere på en unik analog av inngangsnivåservere, som ble oppfunnet av oss for deg: Hele sannheten om VPS (KVM) E5-2650 v4 (6 kjerner) 10GB DDR4 240GB SSD 1Gbps fra $20 eller hvordan dele en server? (tilgjengelig med RAID1 og RAID10, opptil 24 kjerner og opptil 40 GB DDR4).

Dell R730xd 2 ganger billigere? Bare her 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV fra $199 i Nederland! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - fra $99! Lese om Hvordan bygge infrastruktur corp. klasse med bruk av Dell R730xd E5-2650 v4-servere verdt 9000 euro for en krone?

Kilde: www.habr.com

Legg til en kommentar