Læsning mellem tonerne: dataoverførselssystemet inde i musik

Læsning mellem tonerne: dataoverførselssystemet inde i musik

Udtryk, hvad ord ikke kan formidle; føle en bred vifte af følelser sammenflettet i en orkan af følelser; at bryde væk fra jorden, himlen og endda selve universet, gå på en rejse, hvor der ikke er nogen kort, ingen veje, ingen tegn; opfind, fortæl og oplev en hel historie, der altid vil forblive unik og uforlignelig. Alt dette kan lade sig gøre ved musik – en kunst, der har eksisteret i mange tusinde år og glæder vores ører og hjerter.

Musik, eller rettere musikalske værker, kan imidlertid tjene ikke kun til æstetisk fornøjelse, men også til transmission af information indkodet i dem, beregnet til en enhed og usynlig for lytteren. I dag vil vi stifte bekendtskab med en meget usædvanlig undersøgelse, hvor kandidatstuderende fra ETH Zürich, ubemærket af det menneskelige øre, kunne introducere visse data i musikværker, på grund af hvilken musikken i sig selv bliver en datatransmissionskanal. Hvordan implementerede de præcis deres teknologi, er melodierne med og uden de indlejrede data meget forskellige, og hvad viste praktiske tests? Det lærer vi om fra forskernes rapport. Gå.

Forskningsgrundlag

Forskerne kalder deres teknologi for akustisk datatransmissionsteknologi. Når en højttaler spiller en modificeret melodi, opfatter en person det som normalt, men for eksempel kan en smartphone læse kodet information mellem linjerne, eller rettere mellem tonerne, så at sige. Forskere (det faktum, at disse fyre stadig er kandidatstuderende, forhindrer dem ikke i at være videnskabsmænd) kalder transmissionshastigheden og pålideligheden, mens de opretholder niveauet af disse parametre, uanset den valgte lydfil, som det vigtigste aspekt i implementeringen af denne dataoverførselsteknik. Psykoakustik, som studerer de psykologiske og fysiologiske aspekter af menneskers opfattelse af lyde, hjælper med at klare denne opgave.

Kernen i akustisk datatransmission kan kaldes OFDM (ortogonal frequency division multiplexing), hvilket sammen med tilpasningen af ​​subcarriers til kildemusikken over tid gjorde det muligt at udnytte det transmitterede frekvensspektrum maksimalt til informationstransmission. Takket være dette var det muligt at opnå en transmissionshastighed på 412 bps over en afstand på op til 24 meter (fejlrate < 10%). Praktiske eksperimenter, der involverede 40 frivillige, bekræftede det faktum, at det er næsten umuligt at høre forskellen mellem den originale melodi og den, hvori informationen var indlejret.

Hvor kan denne teknologi anvendes i praksis? Forskere har deres eget svar: Næsten alle moderne smartphones, bærbare computere og andre håndholdte enheder er udstyret med mikrofoner, og mange offentlige steder (caféer, restauranter, indkøbscentre osv.) har højttalere med baggrundsmusik. Denne baggrundsmelodi kan for eksempel indeholde data til tilslutning til et Wi-Fi-netværk uden behov for yderligere handlinger.

De generelle træk ved akustisk datatransmission er blevet tydelige for os; lad os nu gå videre til en detaljeret undersøgelse af strukturen af ​​dette system.

Systembeskrivelse

Introduktionen af ​​data i melodien sker på grund af frekvensmaskering. I tidsvinduer identificeres maskeringsfrekvenser, og OFDM-underbærere tæt på disse maskeringselementer er fyldt med data.

Læsning mellem tonerne: dataoverførselssystemet inde i musik
Billede #1: Konvertering af den originale fil til et sammensat signal (melodi + data) transmitteret gennem højttalerne.

Til at begynde med er det originale lydsignal opdelt i successive segmenter til analyse. Hvert sådant segment (Hi) af L = 8820 prøver, svarende til 200 ms, multipliceres med vindue* for at minimere grænseeffekter.

Vindue* er en vægtningsfunktion, der bruges til at kontrollere effekter på grund af sidesløjfer i spektrale estimater.

Dernæst blev de dominerende frekvenser af det originale signal detekteret i området fra 500 Hz til 9.8 kHz, hvilket gjorde det muligt at opnå maskeringsfrekvenser fM,l for dette segment. Derudover blev data transmitteret i et lille område fra 9.8 til 10 kHz for at fastslå placeringen af ​​underbærerne ved modtageren. Den øvre grænse for det anvendte frekvensområde blev sat til 10 kHz på grund af den lave følsomhed af smartphonemikrofoner ved høje frekvenser.

Maskeringsfrekvenser blev bestemt for hvert analyseret segment individuelt. Ved hjælp af HPS-metoden (Harmonic Product Spectrum) blev de tre dominerende frekvenser identificeret og derefter afrundet til de nærmeste toner på den harmoniske kromatiske skala. Sådan opnås hovedtonerne fF,i = 1…3, der ligger mellem tangenterne C0 (16.35 Hz) og B0 (30.87 Hz). Baseret på det faktum, at grundtonerne er for lave til brug i datatransmission, blev deres højere oktaver 500kfF,i beregnet i området 9.8 Hz ... 2 kHz. Mange af disse frekvenser (fO,l1) var mere udtalte på grund af HPS'ens natur.

Læsning mellem tonerne: dataoverførselssystemet inde i musik
Billede #2: Beregnede oktaver fO,l1 for de grundlæggende toner og harmoniske fH,l2 af den stærkeste tone.

Det resulterende sæt af oktaver og harmoniske blev brugt som maskeringsfrekvenser, hvorfra OFDM-underbærebølgefrekvenserne fSC,k blev afledt. To underbærere blev indsat under og over hver maskeringsfrekvens.

Dernæst blev spektret af Hi-lydsegmentet filtreret ved underbærefrekvenser fSC,k. Derefter blev der oprettet et OFDM-symbol baseret på informationsbittene i Bi, på grund af hvilket det sammensatte segment Ci kunne transmitteres gennem højttaleren. Underbærernes størrelser og faser skal vælges således, at modtageren kan udtrække de transmitterede data, mens lytteren ikke bemærker ændringer i melodien.

Læsning mellem tonerne: dataoverførselssystemet inde i musik
Billede nr. 3: en del af spektret og underbærebølgefrekvenserne for Hi-segmentet af den originale melodi.

Når et lydsignal med indkodet information afspilles gennem højttalere, optager mikrofonen på den modtagende enhed det. For at finde startpositionerne for indlejrede OFDM-symboler skal posterne først båndpasfiltreres. På denne måde udvindes det øvre frekvensområde, hvor der ikke er musikalske interferenssignaler mellem underbærere. Du kan finde begyndelsen af ​​OFDM-symboler ved hjælp af et cyklisk præfiks.

Efter at have detekteret starten af ​​OFDM-symboler, opnår modtageren information om de mest dominerende toner gennem højfrekvent domæneafkodning. Derudover er OFDM ret modstandsdygtig over for smalbåndsinterferenskilder, da de kun påvirker nogle af underbærerne.

Praktiske prøver

KRK Rokit 8-højttaleren fungerede som kilden til de modificerede melodier, og Nexus 5X-smartphonen spillede rollen som den modtagende part.

Læsning mellem tonerne: dataoverførselssystemet inde i musik
Billede #4: Forskellen mellem faktiske OFDM og korrelationstoppe målt indendørs ved 5m mellem højttaler og mikrofon.

De fleste OFDM-punkter ligger i området fra 0 til 25 ms, så du kan finde en gyldig start inden for det cykliske præfiks på 66.6 ms. Forskerne bemærker, at modtageren (i dette eksperiment, en smartphone) tager højde for, at OFDM-symboler afspilles periodisk, hvilket forbedrer deres detektion.

Den første ting at kontrollere var effekten af ​​afstand på bitfejlfrekvens (BER). For at gøre dette blev der udført tre tests i forskellige typer rum: en korridor med tæppe, et kontor med linoleum på gulvet og et auditorium med trægulv.


Sangen "And The Cradle Will Rock" af Van Halen blev valgt som testperson.

Lydstyrken blev justeret, så lydniveauet målt af smartphonen i en afstand af 2 m fra højttaleren var 63 dB.

Læsning mellem tonerne: dataoverførselssystemet inde i musik
Billede nr. 5: BER-indikatorer afhængig af afstanden mellem højttaleren og mikrofonen (blå linje - publikum, grøn - korridor, orange - kontor).

På gangen blev en lyd på 40 dB opfanget af en smartphone i en afstand på op til 24 meter fra højttaleren. I klasseværelset i en afstand af 15 m var lyden 55 dB, og på kontoret i en afstand af 8 meter nåede lydniveauet, som smartphonen opfatter, 57 dB.

Fordi auditoriet og kontoret er mere genklangende, overskrider sene OFDM-symbolekkoer den cykliske præfikslængde og øger BER.

Efterklang* - et gradvist fald i lydintensiteten på grund af dens mange refleksioner.

Forskerne demonstrerede yderligere alsidigheden af ​​deres system ved at anvende det på 6 forskellige sange fra tre genrer (tabel nedenfor).

Læsning mellem tonerne: dataoverførselssystemet inde i musik
Tabel nr. 1: sange brugt i test.

Gennem tabeldataene kan vi også se bithastigheden og bitfejlfrekvenserne for hver sang. Datahastighederne er forskellige, fordi differential BPSK (phase shift keying) fungerer bedre, når de samme underbærere bruges. Og dette er muligt, når tilstødende segmenter indeholder de samme maskeringselementer. Kontinuerligt høje sange giver en optimal base for dataskjulering, fordi maskeringsfrekvenserne er stærkere til stede over et bredt frekvensområde. Musik i højt tempo kan kun delvist maskere OFDM-symboler på grund af den faste længde af analysevinduet.

Derefter begyndte folk at teste systemet, som skulle afgøre, hvilken melodi der var original, og hvilken der blev ændret af informationen indlejret i det. Til dette formål blev 12-sekunders uddrag af sange fra bord nr. 1 lagt på en særlig hjemmeside.

I det første eksperiment (E1) fik hver deltager enten et modificeret eller originalt fragment at lytte til og skulle beslutte, om fragmentet var originalt eller modificeret. I det andet eksperiment (E2) kunne deltagerne lytte til begge versioner så mange gange, som de ville, og derefter beslutte, hvilken der var original, og hvilken der var modificeret.

Læsning mellem tonerne: dataoverførselssystemet inde i musik
Tabel nr. 2: resultater af forsøg E1 og E2.

Resultaterne af det første eksperiment har to indikatorer: p(O|O) - procentdelen af ​​deltagere, der korrekt markerede den originale melodi og p(O|M) - procentdelen af ​​deltagere, der markerede den modificerede version af melodien som original.

Interessant nok anså nogle deltagere ifølge forskerne visse ændrede melodier for at være mere originale end selve originalen. Gennemsnittet af begge eksperimenter tyder på, at den gennemsnitlige lytter ikke ville bemærke en forskel mellem en almindelig melodi og en, hvori data var indlejret.

Naturligvis vil musikeksperter og musikere være i stand til at opdage nogle unøjagtigheder og mistænkelige elementer i de ændrede melodier, men disse elementer er ikke så væsentlige, at de forårsager ubehag.

Og nu kan vi selv være med i eksperimentet. Nedenfor er to versioner af samme melodi - den originale og den modificerede. Kan du høre forskel?

Original version af melodien
vs
Ændret version af melodien

For et mere detaljeret bekendtskab med nuancerne i undersøgelsen, anbefaler jeg at se på rapport forskningsgruppe.

Du kan også downloade et ZIP-arkiv med lydfiler af de originale og modificerede melodier, der blev brugt i undersøgelsen på dette link.

Epilog

I dette arbejde beskrev kandidatstuderende fra ETH Zürich et fantastisk datatransmissionssystem inden for musik. For at gøre dette brugte de frekvensmaskering, som gjorde det muligt at indlejre dataene i melodien, der spilles af højttaleren. Denne melodi opfattes af enhedens mikrofon, som genkender de skjulte data og afkoder dem, mens den gennemsnitlige lytter ikke engang vil bemærke forskellen. I fremtiden planlægger fyrene at udvikle deres system ved at vælge mere avancerede metoder til at introducere data i lyd.

Når nogen finder på noget usædvanligt, og vigtigst af alt, noget, der virker, er vi altid glade. Men endnu mere glæde er det, at denne opfindelse blev skabt af unge mennesker. Videnskaben har ingen aldersbegrænsninger. Og hvis de unge finder videnskaben kedelig, så bliver den så at sige præsenteret fra en forkert vinkel. Når alt kommer til alt, som vi ved, er videnskab en fantastisk verden, der aldrig holder op med at forbløffe.

Fredag ​​off-top:


Da vi taler om musik, eller rettere rockmusik, er her en vidunderlig rejse gennem rockens vidder.


Queen, "Radio Ga Ga" (1984).

Tak fordi du læste med, bliv nysgerrig, og hav en god weekend gutter! 🙂

Tak fordi du blev hos os. Kan du lide vores artikler? Vil du se mere interessant indhold? Støt os ved at afgive en ordre eller anbefale til venner, 30% rabat til Habr-brugere på en unik analog af entry-level servere, som er opfundet af os til dig: Hele sandheden om VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps fra $20 eller hvordan deler man en server? (tilgængelig med RAID1 og RAID10, op til 24 kerner og op til 40 GB DDR4).

Dell R730xd 2 gange billigere? Kun her 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV fra $199 i Holland! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - fra $99! Læse om Hvordan man bygger infrastruktur corp. klasse med brug af Dell R730xd E5-2650 v4-servere til en værdi af 9000 euro for en krone?

Kilde: www.habr.com

Tilføj en kommentar