Tussen de noten lezen: het datatransmissiesysteem in muziek

Tussen de noten lezen: het datatransmissiesysteem in muziek

Druk uit wat woorden niet kunnen overbrengen; voel een grote verscheidenheid aan emoties, verweven in een orkaan van gevoelens; om los te komen van de aarde, de lucht en zelfs het universum zelf, op een reis te gaan waar geen kaarten, geen wegen, geen borden zijn; bedenk, vertel en beleef een heel verhaal dat altijd uniek en onnavolgbaar zal blijven. Dit alles kan worden gedaan door muziek - een kunst die al vele duizenden jaren bestaat en onze oren en harten verrukt.

Muziek, of beter gezegd muziekwerken, kunnen echter niet alleen dienen voor esthetisch plezier, maar ook voor de overdracht van informatie die erin is gecodeerd, bedoeld voor een bepaald apparaat en onzichtbaar voor de luisteraar. Vandaag maken we kennis met een zeer ongebruikelijk onderzoek waarin afgestudeerde studenten van de ETH Zürich, onopgemerkt door het menselijk oor, bepaalde gegevens in muziekwerken konden introduceren, waardoor de muziek zelf een datatransmissiekanaal wordt. Hoe hebben ze hun technologie precies geïmplementeerd, zijn de melodieën met en zonder de embedded data heel anders, en wat hebben praktijktesten opgeleverd? Dat leren we uit het rapport van de onderzoekers. Gaan.

Onderzoeksbasis

De onderzoekers noemen hun technologie akoestische datatransmissietechnologie. Wanneer een spreker een aangepaste melodie speelt, ervaart een mens dat als normaal, maar een smartphone kan bijvoorbeeld gecodeerde informatie tussen de regels door lezen, of beter gezegd tussen de noten, om het zo maar te zeggen. Wetenschappers (het feit dat deze jongens nog steeds afgestudeerde studenten zijn, belet hen niet wetenschappers te zijn) noemen de snelheid en betrouwbaarheid van de transmissie met behoud van het niveau van deze parameters, ongeacht het geselecteerde audiobestand, als het belangrijkste aspect bij de implementatie van deze techniek voor gegevensoverdracht. Psychoakoestiek, die de psychologische en fysiologische aspecten van de menselijke perceptie van geluiden bestudeert, helpt bij het omgaan met deze taak.

De kern van akoestische datatransmissie kan OFDM (orthogonale frequentieverdelingsmultiplexing) worden genoemd, wat het, samen met de aanpassing van subdraaggolven aan de bronmuziek in de loop van de tijd, mogelijk maakte om maximaal gebruik te maken van het verzonden frequentiespectrum voor informatieoverdracht. Hierdoor was het mogelijk om een ​​transmissiesnelheid van 412 bps te bereiken over een afstand tot 24 meter (foutpercentage < 10%). Praktische experimenten met 40 vrijwilligers bevestigden het feit dat het bijna onmogelijk is om het verschil te horen tussen de originele melodie en de melodie waarin de informatie was ingebed.

Waar kan deze technologie in de praktijk worden toegepast? Onderzoekers hebben hun eigen antwoord: bijna alle moderne smartphones, laptops en andere draagbare apparaten zijn uitgerust met microfoons, en veel openbare plaatsen (cafés, restaurants, winkelcentra, enz.) hebben luidsprekers met achtergrondmuziek. Deze achtergrondmelodie kan bijvoorbeeld gegevens bevatten voor verbinding met een Wi-Fi-netwerk zonder dat er extra acties nodig zijn.

De algemene kenmerken van akoestische datatransmissie zijn ons duidelijk geworden; laten we nu verder gaan met een gedetailleerde studie van de structuur van dit systeem.

Systeembeschrijving

De introductie van gegevens in de melodie vindt plaats als gevolg van frequentiemaskering. In tijdsleuven worden maskeringsfrequenties geïdentificeerd en OFDM-subdraaggolven dichtbij deze maskeringselementen worden gevuld met gegevens.

Tussen de noten lezen: het datatransmissiesysteem in muziek
Afbeelding #1: Het originele bestand converteren naar een samengesteld signaal (melodie + data) dat via de luidsprekers wordt verzonden.

Om te beginnen wordt het originele audiosignaal voor analyse in opeenvolgende segmenten verdeeld. Elk dergelijk segment (Hi) van L = 8820 monsters, gelijk aan 200 ms, wordt vermenigvuldigd met raam* om grenseffecten te minimaliseren.

Raam* is een weegfunctie die wordt gebruikt om effecten als gevolg van zijlobben in spectrale schattingen te controleren.

Vervolgens werden de dominante frequenties van het oorspronkelijke signaal gedetecteerd in het bereik van 500 Hz tot 9.8 kHz, waardoor het mogelijk werd om voor dit segment maskeringsfrequenties fM,l te verkrijgen. Bovendien werden gegevens verzonden in een klein bereik van 9.8 tot 10 kHz om de locatie van de hulpdraaggolven bij de ontvanger vast te stellen. De bovengrens van het gebruikte frequentiebereik is vastgesteld op 10 kHz vanwege de lage gevoeligheid van smartphonemicrofoons bij hoge frequenties.

Maskeringsfrequenties werden voor elk geanalyseerd segment afzonderlijk bepaald. Met behulp van de HPS-methode (Harmonic Product Spectrum) werden de drie dominante frequenties geïdentificeerd en vervolgens afgerond naar de dichtstbijzijnde noten op de harmonische chromatische schaal. Zo werden de hoofdnoten fF,i = 1…3 verkregen, liggend tussen de toonsoorten C0 (16.35 Hz) en B0 (30.87 Hz). Gebaseerd op het feit dat de fundamentele noten te laag zijn voor gebruik bij datatransmissie, werden hun hogere octaven 500kfF,i berekend in het bereik van 9.8 Hz ... 2 kHz. Veel van deze frequenties (fO,l1) waren meer uitgesproken vanwege de aard van de HPS.

Tussen de noten lezen: het datatransmissiesysteem in muziek
Afbeelding #2: Berekende octaven fO,l1 voor de grondnoten en harmonischen fH,l2 van de sterkste toon.

De resulterende reeks octaven en harmonischen werd gebruikt als maskeringsfrequenties, waarvan de OFDM-hulpdraaggolffrequenties fSC,k werden afgeleid. Onder en boven elke maskeerfrequentie werden twee subdraaggolven ingevoegd.

Vervolgens werd het spectrum van het Hi-audiosegment gefilterd op de hulpdraaggolffrequenties fSC,k. Daarna werd een OFDM-symbool gemaakt op basis van de informatiebits in Bi, waardoor het samengestelde segment Ci via de luidspreker kon worden verzonden. De grootten en fasen van de subdraaggolven moeten zo worden gekozen dat de ontvanger de verzonden gegevens kan extraheren terwijl de luisteraar geen veranderingen in de melodie opmerkt.

Tussen de noten lezen: het datatransmissiesysteem in muziek
Afbeelding nr. 3: een deel van het spectrum en de hulpdraaggolffrequenties van het Hi-segment van de originele melodie.

Wanneer een audiosignaal met daarin gecodeerde informatie via luidsprekers wordt afgespeeld, neemt de microfoon van het ontvangende apparaat dit op. Om de startposities van ingebedde OFDM-symbolen te vinden, moeten de records eerst door banddoorlaat worden gefilterd. Op deze manier wordt het bovenste frequentiebereik geëxtraheerd, waar er geen muzikale interferentiesignalen tussen hulpdraaggolven zijn. U kunt het begin van OFDM-symbolen vinden met behulp van een cyclisch voorvoegsel.

Na het detecteren van het begin van OFDM-symbolen verkrijgt de ontvanger informatie over de meest dominante noten via hoogfrequente domeindecodering. Bovendien is OFDM behoorlijk resistent tegen smalbandige interferentiebronnen, aangezien deze slechts enkele subdraaggolven beïnvloeden.

Praktische testen

De KRK Rokit 8-luidspreker fungeerde als bron van de aangepaste melodieën en de Nexus 5X-smartphone speelde de rol van de ontvangende partij.

Tussen de noten lezen: het datatransmissiesysteem in muziek
Afbeelding #4: Verschil tussen werkelijke OFDM en correlatiepieken binnenshuis gemeten op 5 meter tussen luidspreker en microfoon.

De meeste OFDM-punten liggen in het bereik van 0 tot 25 ms, dus u kunt een geldige start vinden binnen het cyclische voorvoegsel van 66.6 ms. De onderzoekers merken op dat de ontvanger (in dit experiment een smartphone) er rekening mee houdt dat OFDM-symbolen periodiek worden afgespeeld, wat hun detectie verbetert.

Het eerste dat we moesten controleren was het effect van de afstand op de bit error rate (BER). Hiervoor zijn drie tests uitgevoerd in verschillende soorten ruimtes: een gang met tapijt, een kantoor met linoleum op de vloer en een auditorium met een houten vloer.


Als proefpersoon werd het nummer ‘And The Cradle Will Rock’ van Van Halen gekozen.

Het geluidsvolume werd zo aangepast dat het door de smartphone gemeten geluidsniveau op een afstand van 2 m van de speaker 63 dB bedroeg.

Tussen de noten lezen: het datatransmissiesysteem in muziek
Afbeelding nr. 5: BER-indicatoren afhankelijk van de afstand tussen de spreker en de microfoon (blauwe lijn - publiek, groen - gang, oranje - kantoor).

In de gang werd een geluid van 40 dB opgepikt door een smartphone op een afstand van maximaal 24 meter van de speaker. In het klaslokaal op een afstand van 15 m was het geluid 55 dB, en op kantoor op een afstand van 8 meter bereikte het door de smartphone waargenomen geluidsniveau 57 dB.

Omdat het auditorium en het kantoor meer weergalmen, overschrijden late OFDM-symboolecho's de cyclische prefixlengte en verhogen de BER.

Nagalm* - een geleidelijke afname van de geluidsintensiteit vanwege de meervoudige reflecties.

De onderzoekers demonstreerden verder de veelzijdigheid van hun systeem door het toe te passen op zes verschillende nummers uit drie genres (tabel hieronder).

Tussen de noten lezen: het datatransmissiesysteem in muziek
Tabel nr. 1: liedjes gebruikt in tests.

Via de tabelgegevens kunnen we ook de bitsnelheid en bitfoutpercentages voor elk nummer zien. De datasnelheden zijn verschillend omdat differentiële BPSK (phase shift keying) beter werkt wanneer dezelfde subdraaggolven worden gebruikt. En dit is mogelijk wanneer aangrenzende segmenten dezelfde maskeringselementen bevatten. Continu luide nummers bieden een optimale basis voor het verbergen van gegevens, omdat de maskeringsfrequenties sterker aanwezig zijn over een breed frequentiebereik. Snelle muziek kan OFDM-symbolen slechts gedeeltelijk maskeren vanwege de vaste lengte van het analysevenster.

Vervolgens begonnen mensen het systeem te testen, die moesten bepalen welke melodie origineel was en welke werd aangepast door de informatie die erin was ingebed. Voor dit doel werden fragmenten van 12 seconden van liedjes uit tabel nr. 1 op een speciale website geplaatst.

In het eerste experiment (E1) kreeg elke deelnemer een aangepast of origineel fragment om naar te luisteren en moest hij beslissen of het fragment origineel of aangepast was. In het tweede experiment (E2) konden deelnemers zo vaak naar beide versies luisteren als ze wilden, en vervolgens beslissen welke origineel was en welke aangepast was.

Tussen de noten lezen: het datatransmissiesysteem in muziek
Tabel nr. 2: resultaten van experimenten E1 en E2.

De resultaten van het eerste experiment hebben twee indicatoren: p(O|O) - het percentage deelnemers dat de originele melodie correct heeft gemarkeerd en p(O|M) - het percentage deelnemers dat de aangepaste versie van de melodie als origineel heeft gemarkeerd.

Interessant genoeg vonden sommige deelnemers, volgens de onderzoekers, bepaalde gewijzigde melodieën origineler dan het origineel zelf. Het gemiddelde van beide experimenten suggereert dat de gemiddelde luisteraar geen verschil zou merken tussen een gewone melodie en een melodie waarin gegevens waren ingebed.

Uiteraard zullen muziekexperts en muzikanten enkele onnauwkeurigheden en verdachte elementen in de gewijzigde melodieën kunnen ontdekken, maar deze elementen zijn niet zo belangrijk dat ze ongemak veroorzaken.

En nu kunnen wij zelf deelnemen aan het experiment. Hieronder staan ​​twee versies van dezelfde melodie: de originele en de aangepaste. Kun je het verschil horen?

Originele versie van de melodie
vs
Aangepaste versie van de melodie

Voor een meer gedetailleerde kennismaking met de nuances van de studie raad ik aan om naar te kijken verslag onderzoeksgroep.

Je kunt ook een ZIP-archief downloaden met audiobestanden van de originele en gewijzigde melodieën die in het onderzoek zijn gebruikt op deze link.

epiloog

In dit werk beschreven studenten van de ETH Zürich een verbazingwekkend datatransmissiesysteem binnen de muziek. Om dit te doen, gebruikten ze frequentiemaskering, waardoor het mogelijk werd om de gegevens in te sluiten in de melodie die door de spreker werd gespeeld. Deze melodie wordt waargenomen door de microfoon van het apparaat, die de verborgen gegevens herkent en decodeert, terwijl de gemiddelde luisteraar het verschil niet eens zal merken. In de toekomst zijn de jongens van plan hun systeem te ontwikkelen en meer geavanceerde methoden te selecteren voor het introduceren van gegevens in audio.

Als iemand iets ongewoons bedenkt, en vooral: iets dat werkt, zijn we altijd blij. Maar nog leuker is dat deze uitvinding door jongeren is bedacht. Wetenschap kent geen leeftijdsbeperkingen. En als jongeren wetenschap saai vinden, dan wordt het als het ware vanuit de verkeerde invalshoek gepresenteerd. Zoals we weten is de wetenschap tenslotte een verbazingwekkende wereld die nooit ophoudt te verbazen.

Vrijdag off-top:


Omdat we het over muziek hebben, of beter gezegd over rockmuziek, volgt hier een prachtige reis door de uitgestrekte rockgebieden.


Koningin, "Radio Ga Ga" (1984).

Bedankt voor het lezen, blijf nieuwsgierig en een fijn weekend jongens! 🙂

Bedankt dat je bij ons bent gebleven. Vind je onze artikelen leuk? Wil je meer interessante inhoud zien? Steun ons door een bestelling te plaatsen of door vrienden aan te bevelen, 30% korting voor Habr-gebruikers op een unieke analoog van instapservers, die door ons voor u is uitgevonden: De hele waarheid over VPS (KVM) E5-2650 v4 (6 kernen) 10 GB DDR4 240 GB SSD 1 Gbps vanaf $ 20 of hoe een server te delen? (beschikbaar met RAID1 en RAID10, tot 24 cores en tot 40GB DDR4).

Dell R730xd 2 keer goedkoper? Alleen hier 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV vanaf $199 in Nederland! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - vanaf $99! Lees over Hoe infrastructuur corp te bouwen. klasse met het gebruik van Dell R730xd E5-2650 v4-servers ter waarde van 9000 euro voor een cent?

Bron: www.habr.com

Voeg een reactie