Att läsa mellan tonerna: dataöverföringssystemet inuti musik

Att läsa mellan tonerna: dataöverföringssystemet inuti musik

Uttryck vad ord inte kan förmedla; känna en mängd olika känslor sammanflätade i en orkan av känslor; att bryta sig loss från jorden, himlen och till och med själva universum, gå på en resa där det inte finns några kartor, inga vägar, inga tecken; hitta på, berätta och upplev en hel historia som alltid kommer att förbli unik och oefterhärmlig. Allt detta kan göras med musik – en konst som har funnits i många tusen år och gläder våra öron och hjärtan.

Men musik, eller snarare musikaliska verk, kan tjäna inte bara för estetiskt nöje, utan också för överföring av information kodad i dem, avsedd för någon enhet och osynlig för lyssnaren. Idag kommer vi att bekanta oss med en mycket ovanlig studie där doktorander från ETH Zürich, obemärkt av det mänskliga örat, kunde introducera viss data i musikverk, på grund av vilken musiken i sig blir en dataöverföringskanal. Hur exakt implementerade de sin teknik, är melodierna med och utan inbäddade data väldigt olika och vad visade praktiska tester? Det lär vi oss av forskarnas rapport. Gå.

Forskningsunderlag

Forskarna kallar sin teknik för akustisk dataöverföringsteknik. När en talare spelar en modifierad melodi uppfattar en person det som normalt, men till exempel kan en smartphone läsa kodad information mellan raderna, eller snarare mellan tonerna så att säga. Forskare (det faktum att dessa killar fortfarande är doktorander hindrar dem inte från att vara forskare) kallar överföringshastigheten och tillförlitligheten samtidigt som nivån på dessa parametrar bibehålls, oavsett vald ljudfil, som den viktigaste aspekten i implementeringen av denna dataöverföringsteknik. Psykoakustik, som studerar de psykologiska och fysiologiska aspekterna av människans uppfattning av ljud, hjälper till att klara av denna uppgift.

Kärnan i akustisk dataöverföring kan kallas OFDM (ortogonal frequency division multiplexing), vilket tillsammans med anpassningen av underbärvågor till källmusiken över tid gjorde det möjligt att maximalt utnyttja det överförda frekvensspektrumet för informationsöverföring. Tack vare detta var det möjligt att uppnå en överföringshastighet på 412 bps över ett avstånd på upp till 24 meter (felfrekvens < 10%). Praktiska experiment som involverade 40 frivilliga bekräftade det faktum att det är nästan omöjligt att höra skillnaden mellan originalmelodin och den som informationen var inbäddad i.

Var kan denna teknik tillämpas i praktiken? Forskare har sitt eget svar: nästan alla moderna smartphones, bärbara datorer och andra handhållna enheter är utrustade med mikrofoner, och många offentliga platser (kaféer, restauranger, köpcentra, etc.) har högtalare med bakgrundsmusik. Denna bakgrundsmelodi kan till exempel innehålla data för att ansluta till ett Wi-Fi-nätverk utan att ytterligare åtgärder krävs.

De allmänna egenskaperna hos akustisk dataöverföring har blivit tydliga för oss; låt oss nu gå vidare till en detaljerad studie av strukturen för detta system.

Systembeskrivning

Införandet av data i melodin sker på grund av frekvensmaskering. I tidsluckor identifieras maskeringsfrekvenser och OFDM-underbärvågor nära dessa maskeringselement fylls med data.

Att läsa mellan tonerna: dataöverföringssystemet inuti musik
Bild #1: Konvertering av originalfilen till en sammansatt signal (melodi + data) som sänds genom högtalarna.

Till att börja med delas den ursprungliga ljudsignalen upp i successiva segment för analys. Varje sådant segment (Hi) av L = 8820 sampel, lika med 200 ms, multipliceras med fönster* för att minimera gränseffekter.

Fönster* är en viktningsfunktion som används för att kontrollera effekter på grund av sidolober i spektraluppskattningar.

Därefter detekterades de dominerande frekvenserna för den ursprungliga signalen i området från 500 Hz till 9.8 kHz, vilket gjorde det möjligt att erhålla maskeringsfrekvenser fM,l för detta segment. Dessutom sändes data i ett litet område från 9.8 till 10 kHz för att fastställa platsen för underbärvågorna vid mottagaren. Den övre gränsen för det använda frekvensområdet sattes till 10 kHz på grund av den låga känsligheten hos smartphonemikrofoner vid höga frekvenser.

Maskeringsfrekvenser bestämdes för varje analyserat segment individuellt. Med hjälp av HPS-metoden (Harmonic Product Spectrum) identifierades de tre dominanta frekvenserna och avrundades sedan till närmaste toner på den harmoniska kromatiska skalan. Så här erhölls huvudtonerna fF,i = 1…3, som ligger mellan tangenterna C0 (16.35 Hz) och B0 (30.87 Hz). Baserat på det faktum att grundtonerna är för låga för användning vid dataöverföring, beräknades deras högre oktaver 500kfF,i i intervallet 9.8 Hz ... 2 kHz. Många av dessa frekvenser (fO,l1) var mer uttalade på grund av HPS:s natur.

Att läsa mellan tonerna: dataöverföringssystemet inuti musik
Bild #2: Beräknade oktaver fO,l1 för grundtonerna och övertonerna fH,l2 för den starkaste tonen.

Den resulterande uppsättningen av oktaver och övertoner användes som maskeringsfrekvenser, från vilka OFDM-underbärvågsfrekvenserna fSC,k härleddes. Två underbärvågor sattes in under och över varje maskeringsfrekvens.

Därefter filtrerades spektrumet för Hi-ljudsegmentet vid underbärvågsfrekvenserna fSC,k. Därefter skapades en OFDM-symbol baserat på informationsbitarna i Bi, på grund av vilken det sammansatta segmentet Ci kunde sändas genom högtalaren. Storleken och faserna för underbärvågorna måste väljas så att mottagaren kan extrahera den överförda datan medan lyssnaren inte märker förändringar i melodin.

Att läsa mellan tonerna: dataöverföringssystemet inuti musik
Bild nr 3: en del av spektrumet och underbärvågsfrekvenserna för Hi-segmentet i den ursprungliga melodin.

När en ljudsignal med information kodad spelas upp genom högtalare, spelar den mottagande enhetens mikrofon in den. För att hitta startpositionerna för inbäddade OFDM-symboler måste posterna först bandpassfiltreras. På så sätt extraheras det övre frekvensområdet, där det inte finns några musikaliska störsignaler mellan underbärvågor. Du kan hitta början av OFDM-symboler med ett cykliskt prefix.

Efter att ha detekterat starten av OFDM-symboler får mottagaren information om de mest dominerande tonerna genom högfrekvent domänavkodning. Dessutom är OFDM ganska resistent mot smalbandsstörningskällor, eftersom de bara påverkar några av underbärvågorna.

Praktiska prov

KRK Rokit 8-högtalaren fungerade som källan till de modifierade melodierna, och Nexus 5X-smarttelefonen spelade rollen som den mottagande parten.

Att läsa mellan tonerna: dataöverföringssystemet inuti musik
Bild #4: Skillnaden mellan faktiska OFDM och korrelationstoppar uppmätt inomhus vid 5 m mellan högtalare och mikrofon.

De flesta OFDM-punkter ligger i intervallet från 0 till 25 ms, så du kan hitta en giltig start inom det cykliska prefixet på 66.6 ms. Forskarna noterar att mottagaren (i detta experiment, en smartphone) tar hänsyn till att OFDM-symboler spelas regelbundet, vilket förbättrar deras upptäckt.

Det första att kontrollera var effekten av avstånd på bitfelsfrekvensen (BER). För att göra detta genomfördes tre tester i olika typer av rum: en korridor med matta, ett kontor med linoleum på golvet och ett auditorium med trägolv.


Låten "And The Cradle Will Rock" av Van Halen valdes som testperson.

Ljudvolymen justerades så att ljudnivån uppmätt av smarttelefonen på ett avstånd av 2 m från högtalaren var 63 dB.

Att läsa mellan tonerna: dataöverföringssystemet inuti musik
Bild nr 5: BER-indikatorer beroende på avståndet mellan högtalaren och mikrofonen (blå linje - publik, grön - korridor, orange - kontor).

I korridoren fångades ett ljud på 40 dB av en smartphone på ett avstånd av upp till 24 meter från högtalaren. I klassrummet på ett avstånd av 15 m var ljudet 55 dB, och på kontoret på ett avstånd av 8 meter nådde ljudnivån som uppfattades av smartphonen 57 dB.

Eftersom auditoriet och kontoret är mer efterklangande, överskrider sena OFDM-symbolekon den cykliska prefixlängden och ökar BER.

Eko* - en gradvis minskning av ljudintensiteten på grund av dess multipla reflektioner.

Forskarna visade ytterligare mångsidigheten i deras system genom att tillämpa det på 6 olika låtar från tre genrer (tabell nedan).

Att läsa mellan tonerna: dataöverföringssystemet inuti musik
Tabell nr 1: låtar som används i tester.

Genom tabelldata kan vi också se bithastigheten och bitfelsfrekvensen för varje låt. Datahastigheterna är olika eftersom differentiell BPSK (phase shift keying) fungerar bättre när samma underbärvågor används. Och detta är möjligt när intilliggande segment innehåller samma maskeringselement. Kontinuerligt höga låtar ger en optimal bas för att dölja data eftersom maskeringsfrekvenserna är starkare närvarande över ett brett frekvensområde. Musik i högt tempo kan bara delvis maskera OFDM-symboler på grund av analysfönstrets fasta längd.

Därefter började folk testa systemet, som var tvungna att avgöra vilken melodi som var original och vilken som modifierades av informationen inbäddad i den. För detta ändamål har 12 sekunder långa utdrag av sånger från bord nr 1 lagts ut på en särskild webbplats.

I det första experimentet (E1) fick varje deltagare antingen ett modifierat eller originalfragment att lyssna på och fick bestämma om fragmentet var original eller modifierat. I det andra experimentet (E2) kunde deltagarna lyssna på båda versionerna så många gånger de ville och sedan bestämma vilken som var original och vilken som modifierades.

Att läsa mellan tonerna: dataöverföringssystemet inuti musik
Tabell nr 2: resultat av experiment El och E1.

Resultaten av det första experimentet har två indikatorer: p(O|O) - andelen deltagare som korrekt markerade originalmelodin och p(O|M) - andelen deltagare som markerade den modifierade versionen av melodin som original.

Intressant nog ansåg vissa deltagare, enligt forskarna, att vissa ändrade melodier var mer originella än själva originalet. Genomsnittet av båda experimenten tyder på att den genomsnittliga lyssnaren inte skulle märka någon skillnad mellan en vanlig melodi och en i vilken data var inbäddad.

Naturligtvis kommer musikexperter och musiker att kunna upptäcka vissa felaktigheter och misstänkta element i de ändrade melodierna, men dessa element är inte så betydande att de orsakar obehag.

Och nu kan vi själva ta del av experimentet. Nedan finns två versioner av samma melodi - den ursprungliga och den modifierade. Kan du höra skillnaden?

Originalversionen av melodin
vs
Modifierad version av melodin

För en mer detaljerad bekantskap med studiens nyanser rekommenderar jag att titta på Rapportera forskningsgrupp.

Du kan också ladda ner ett ZIP-arkiv med ljudfiler med original och modifierade låtar som användes i studien på denna länk.

Epilog

I detta arbete beskrev doktorander från ETH Zürich ett fantastiskt dataöverföringssystem inom musik. För att göra detta använde de frekvensmaskering, vilket gjorde det möjligt att bädda in datan i melodin som spelades av högtalaren. Denna melodi uppfattas av enhetens mikrofon, som känner igen dolda data och avkodar den, medan den genomsnittliga lyssnaren inte ens kommer att märka skillnaden. I framtiden planerar killarna att utveckla sitt system och välja mer avancerade metoder för att introducera data i ljud.

När någon kommer på något ovanligt, och viktigast av allt, något som fungerar, är vi alltid glada. Men ännu mer glädje är att denna uppfinning skapades av unga människor. Vetenskapen har inga åldersbegränsningar. Och om ungdomar tycker att vetenskapen är tråkig, så presenteras den från fel håll, så att säga. När allt kommer omkring, som vi vet, är vetenskap en fantastisk värld som aldrig slutar att förvåna.

Fredag ​​off-top:


Eftersom vi pratar om musik, eller snarare rockmusik, kommer här en underbar resa genom rockens vidder.


Queen, "Radio Ga Ga" (1984).

Tack för att du läser, var nyfiken och ha en trevlig helg grabbar! 🙂

Tack för att du stannar hos oss. Gillar du våra artiklar? Vill du se mer intressant innehåll? Stöd oss ​​genom att lägga en beställning eller rekommendera till vänner, 30 % rabatt för Habr-användare på en unik analog av nybörjarservrar, som uppfanns av oss för dig: Hela sanningen om VPS (KVM) E5-2650 v4 (6 kärnor) 10GB DDR4 240GB SSD 1Gbps från $20 eller hur delar man en server? (tillgänglig med RAID1 och RAID10, upp till 24 kärnor och upp till 40 GB DDR4).

Dell R730xd 2 gånger billigare? Bara här 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV från $199 i Nederländerna! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - från $99! Läs om Hur man bygger infrastructure corp. klass med användning av Dell R730xd E5-2650 v4-servrar värda 9000 XNUMX euro för en slant?

Källa: will.com

Lägg en kommentar