Zwischen den Noten lesen: das Datenübertragungssystem in der Musik

Zwischen den Noten lesen: das Datenübertragungssystem in der Musik

Drücken Sie aus, was Worte nicht vermitteln können; eine Vielzahl von Emotionen spüren, die in einem Hurrikan von Gefühlen miteinander verflochten sind; sich von der Erde, dem Himmel und sogar dem Universum selbst zu lösen und sich auf eine Reise zu begeben, auf der es keine Karten, keine Straßen, keine Schilder gibt; eine ganze Geschichte erfinden, erzählen und erleben, die immer einzigartig und unnachahmlich bleiben wird. All dies kann durch Musik erreicht werden – eine Kunst, die es schon seit vielen tausend Jahren gibt und die unsere Ohren und Herzen erfreut.

Musik bzw. Musikwerke können jedoch nicht nur dem ästhetischen Vergnügen dienen, sondern auch der Übertragung von darin kodierten Informationen, die für ein bestimmtes Gerät bestimmt und für den Hörer unsichtbar sind. Heute lernen wir eine sehr ungewöhnliche Studie kennen, bei der es Doktoranden der ETH Zürich gelang, unbemerkt für das menschliche Ohr bestimmte Daten in Musikwerke einzubringen, wodurch die Musik selbst zum Datenübertragungskanal wird. Wie genau haben sie ihre Technologie umgesetzt, sind die Melodien mit und ohne die eingebetteten Daten sehr unterschiedlich und was haben praktische Tests ergeben? Das erfahren wir aus dem Bericht der Forscher. Gehen.

Forschungsgrundlage

Akustische Datenübertragungstechnik nennen die Forscher ihre Technik. Wenn ein Sprecher eine veränderte Melodie abspielt, nimmt der Mensch dies als normal wahr, aber beispielsweise kann ein Smartphone verschlüsselte Informationen zwischen den Zeilen bzw. sozusagen zwischen den Noten lesen. Wissenschaftler (die Tatsache, dass diese Jungs noch Doktoranden sind, hindert sie nicht daran, Wissenschaftler zu sein) bezeichnen die Geschwindigkeit und Zuverlässigkeit der Übertragung unter Beibehaltung des Niveaus dieser Parameter, unabhängig von der ausgewählten Audiodatei, als den wichtigsten Aspekt bei der Umsetzung von diese Datenübertragungstechnik. Bei der Bewältigung dieser Aufgabe hilft die Psychoakustik, die die psychologischen und physiologischen Aspekte der menschlichen Wahrnehmung von Geräuschen untersucht.

Der Kern der akustischen Datenübertragung kann als OFDM (Orthogonal Frequency Division Multiplexing) bezeichnet werden, das zusammen mit der zeitlichen Anpassung der Unterträger an die Quellmusik eine maximale Nutzung des übertragenen Frequenzspektrums für die Informationsübertragung ermöglichte. Dadurch konnte eine Übertragungsgeschwindigkeit von 412 bps über eine Distanz von bis zu 24 Metern erreicht werden (Fehlerrate < 10 %). Praktische Experimente mit 40 Freiwilligen bestätigten die Tatsache, dass es nahezu unmöglich ist, den Unterschied zwischen der Originalmelodie und der Melodie, in die die Informationen eingebettet waren, zu hören.

Wo kann diese Technologie in der Praxis angewendet werden? Forscher haben ihre eigene Antwort: Fast alle modernen Smartphones, Laptops und andere Handheld-Geräte sind mit Mikrofonen ausgestattet und viele öffentliche Orte (Cafés, Restaurants, Einkaufszentren usw.) verfügen über Lautsprecher mit Hintergrundmusik. Diese Hintergrundmelodie kann beispielsweise Daten zur Verbindung mit einem WLAN-Netzwerk enthalten, ohne dass zusätzliche Aktionen erforderlich sind.

Die allgemeinen Merkmale der akustischen Datenübertragung sind uns klar geworden. Kommen wir nun zu einer detaillierten Untersuchung der Struktur dieses Systems.

Systembeschreibung

Die Eingabe von Daten in die Melodie erfolgt durch Frequenzmaskierung. In Zeitschlitzen werden Maskierungsfrequenzen identifiziert und OFDM-Unterträger in der Nähe dieser Maskierungselemente mit Daten gefüllt.

Zwischen den Noten lesen: das Datenübertragungssystem in der Musik
Bild Nr. 1: Konvertieren der Originaldatei in ein zusammengesetztes Signal (Melodie + Daten), das über die Lautsprecher übertragen wird.

Zunächst wird das ursprüngliche Audiosignal zur Analyse in aufeinanderfolgende Segmente unterteilt. Jedes dieser Segmente (Hi) von L = 8820 Abtastwerten, gleich 200 ms, wird mit multipliziert Fenster* Grenzeffekte zu minimieren.

Fenster* ist eine Gewichtungsfunktion, die zur Steuerung von Effekten aufgrund von Nebenkeulen in Spektralschätzungen verwendet wird.

Anschließend wurden die dominanten Frequenzen des Originalsignals im Bereich von 500 Hz bis 9.8 kHz erfasst, was es ermöglichte, Maskierungsfrequenzen fM,l für dieses Segment zu erhalten. Darüber hinaus wurden Daten in einem kleinen Bereich von 9.8 bis 10 kHz übertragen, um die Position der Unterträger am Empfänger festzustellen. Aufgrund der geringen Empfindlichkeit von Smartphone-Mikrofonen bei hohen Frequenzen wurde die Obergrenze des verwendeten Frequenzbereichs auf 10 kHz festgelegt.

Die Maskierungsfrequenzen wurden für jedes analysierte Segment einzeln bestimmt. Mithilfe der HPS-Methode (Harmonic Product Spectrum) wurden die drei dominanten Frequenzen identifiziert und dann auf die nächsten Noten der harmonischen chromatischen Skala gerundet. So entstanden die Haupttöne fF,i = 1…3, die zwischen den Tasten C0 (16.35 Hz) und B0 (30.87 Hz) liegen. Aufgrund der Tatsache, dass die Grundtöne für die Verwendung in der Datenübertragung zu tief sind, wurden ihre höheren Oktaven 500kfF,i im Bereich 9.8 Hz ... 2 kHz berechnet. Viele dieser Frequenzen (fO,l1) waren aufgrund der Natur des HPS stärker ausgeprägt.

Zwischen den Noten lesen: das Datenübertragungssystem in der Musik
Bild #2: Berechnete Oktaven fO,l1 für die Grundtöne und Harmonischen fH,l2 des stärksten Tons.

Der resultierende Satz von Oktaven und Harmonischen wurde als Maskierungsfrequenzen verwendet, aus denen die OFDM-Unterträgerfrequenzen fSC,k abgeleitet wurden. Unterhalb und oberhalb jeder Maskierungsfrequenz wurden zwei Unterträger eingefügt.

Als nächstes wurde das Spektrum des Hi-Audiosegments bei den Unterträgerfrequenzen fSC,k gefiltert. Anschließend wurde auf Basis der Informationsbits in Bi ein OFDM-Symbol erstellt, wodurch das zusammengesetzte Segment Ci über den Lautsprecher übertragen werden konnte. Die Beträge und Phasen der Unterträger müssen so gewählt werden, dass der Empfänger die übertragenen Daten extrahieren kann, ohne dass der Hörer Änderungen in der Melodie bemerkt.

Zwischen den Noten lesen: das Datenübertragungssystem in der Musik
Bild Nr. 3: Teil des Spektrums und der Hilfsträgerfrequenzen des Hi-Segments der Originalmelodie.

Wenn ein Audiosignal mit darin codierten Informationen über Lautsprecher abgespielt wird, zeichnet das Mikrofon des Empfangsgeräts es auf. Um die Startpositionen eingebetteter OFDM-Symbole zu finden, müssen die Datensätze zunächst bandpassgefiltert werden. Auf diese Weise wird der obere Frequenzbereich extrahiert, in dem es keine musikalischen Interferenzsignale zwischen den Unterträgern gibt. Sie können den Anfang von OFDM-Symbolen mithilfe eines zyklischen Präfixes finden.

Nach der Erkennung des Beginns von OFDM-Symbolen erhält der Empfänger durch Hochfrequenzbereichsdekodierung Informationen über die dominantesten Noten. Darüber hinaus ist OFDM recht resistent gegenüber schmalbandigen Störquellen, da diese nur einen Teil der Unterträger beeinträchtigen.

Praktische Tests

Der Lautsprecher KRK Rokit 8 fungierte als Quelle der modifizierten Melodien und das Smartphone Nexus 5X fungierte als Empfänger.

Zwischen den Noten lesen: das Datenübertragungssystem in der Musik
Bild Nr. 4: Unterschied zwischen tatsächlichem OFDM und Korrelationsspitzen, gemessen in Innenräumen bei 5 m zwischen Lautsprecher und Mikrofon.

Die meisten OFDM-Punkte liegen im Bereich von 0 bis 25 ms, sodass Sie einen gültigen Start innerhalb des zyklischen Präfixes von 66.6 ms finden können. Die Forscher stellen fest, dass der Empfänger (in diesem Experiment ein Smartphone) berücksichtigt, dass OFDM-Symbole regelmäßig abgespielt werden, was deren Erkennung verbessert.

Das erste, was überprüft werden musste, war die Auswirkung der Entfernung auf die Bitfehlerrate (BER). Dazu wurden drei Tests in unterschiedlichen Raumtypen durchgeführt: einem Flur mit Teppich, einem Büro mit Linoleumboden und einem Auditorium mit Holzboden.


Als Testthema wurde das Lied „And The Cradle Will Rock“ von Van Halen ausgewählt.

Die Lautstärke wurde so angepasst, dass der vom Smartphone gemessene Schallpegel in 2 m Entfernung vom Lautsprecher 63 dB betrug.

Zwischen den Noten lesen: das Datenübertragungssystem in der Musik
Bild Nr. 5: BER-Anzeigen abhängig vom Abstand zwischen Sprecher und Mikrofon (blaue Linie – Publikum, grün – Flur, orange – Büro).

Im Flur wurde von einem Smartphone in einer Entfernung von bis zu 40 Metern vom Lautsprecher ein Geräusch von 24 dB aufgenommen. Im Klassenzimmer betrug der Schallpegel in 15 m Entfernung 55 dB und im Büro erreichte der vom Smartphone wahrgenommene Schallpegel in 8 m Entfernung 57 dB.

Da das Auditorium und das Büro stärker hallend sind, überschreiten späte OFDM-Symbolechos die Länge des zyklischen Präfixes und erhöhen die BER.

Nachhall* - eine allmähliche Abnahme der Schallintensität aufgrund seiner Mehrfachreflexionen.

Die Forscher demonstrierten außerdem die Vielseitigkeit ihres Systems, indem sie es auf sechs verschiedene Songs aus drei Genres anwendeten (Tabelle unten).

Zwischen den Noten lesen: das Datenübertragungssystem in der Musik
Tabelle Nr. 1: In Tests verwendete Lieder.

Außerdem können wir anhand der Tabellendaten die Bitrate und Bitfehlerraten für jedes Lied sehen. Die Datenraten sind unterschiedlich, da differenzielles BPSK (Phase Shift Keying) bei Verwendung der gleichen Unterträger besser funktioniert. Und dies ist möglich, wenn benachbarte Segmente dieselben Maskierungselemente enthalten. Kontinuierlich laute Lieder bieten eine optimale Grundlage für das Ausblenden von Daten, da die Maskierungsfrequenzen über einen weiten Frequenzbereich stärker vorhanden sind. Schnelle Musik kann OFDM-Symbole aufgrund der festen Länge des Analysefensters nur teilweise maskieren.

Als nächstes begannen die Leute damit, das System zu testen. Sie mussten feststellen, welche Melodie ursprünglich war und welche durch die darin eingebetteten Informationen modifiziert wurde. Zu diesem Zweck wurden 12-sekündige Auszüge von Liedern aus Tabelle Nr. 1 auf einer speziellen Website veröffentlicht.

Im ersten Experiment (E1) erhielt jeder Teilnehmer entweder ein modifiziertes oder ein Originalfragment zum Anhören und musste entscheiden, ob das Fragment original oder modifiziert war. Im zweiten Experiment (E2) konnten die Teilnehmer beide Versionen so oft anhören, wie sie wollten, und dann entscheiden, welche Originalversion und welche modifiziert war.

Zwischen den Noten lesen: das Datenübertragungssystem in der Musik
Tabelle Nr. 2: Ergebnisse der Experimente E1 und E2.

Die Ergebnisse des ersten Experiments weisen zwei Indikatoren auf: p(O|O) – der Prozentsatz der Teilnehmer, die die Originalmelodie korrekt markiert haben, und p(O|M) – der Prozentsatz der Teilnehmer, die die modifizierte Version der Melodie als Original markiert haben.

Interessanterweise hielten einige Teilnehmer den Forschern zufolge bestimmte veränderte Melodien für origineller als das Original selbst. Der Durchschnitt beider Experimente legt nahe, dass der durchschnittliche Hörer keinen Unterschied zwischen einer normalen Melodie und einer Melodie, in die Daten eingebettet sind, bemerken würde.

Natürlich können Musikexperten und Musiker einige Ungenauigkeiten und verdächtige Elemente in den veränderten Melodien entdecken, aber diese Elemente sind nicht so bedeutsam, dass sie Unbehagen hervorrufen könnten.

Und jetzt können wir selbst an dem Experiment teilnehmen. Nachfolgend finden Sie zwei Versionen derselben Melodie – das Original und die modifizierte. Kannst du den Unterschied hören?

Originalversion der Melodie
vs
Modifizierte Version der Melodie

Für eine detailliertere Bekanntschaft mit den Nuancen der Studie empfehle ich einen Blick auf Bericht Forschungsgruppe.

Sie können auch ein ZIP-Archiv mit Audiodateien der in der Studie verwendeten Original- und modifizierten Melodien herunterladen unter Link.

Letzter Akt

In dieser Arbeit beschrieben Doktoranden der ETH Zürich ein erstaunliches Datenübertragungssystem innerhalb der Musik. Dazu nutzten sie die Frequenzmaskierung, die es ermöglichte, die Daten in die vom Lautsprecher gespielte Melodie einzubetten. Diese Melodie wird vom Mikrofon des Geräts wahrgenommen, das die verborgenen Daten erkennt und entschlüsselt, während der durchschnittliche Zuhörer den Unterschied nicht einmal bemerken wird. In Zukunft planen die Jungs, ihr System weiterzuentwickeln und fortschrittlichere Methoden zur Eingabe von Daten in Audio auszuwählen.

Wenn sich jemand etwas Ungewöhnliches und vor allem Funktionierendes einfallen lässt, freuen wir uns immer. Aber noch mehr Freude macht es, dass diese Erfindung von jungen Menschen gemacht wurde. In der Wissenschaft gibt es keine Altersbeschränkungen. Und wenn junge Leute Wissenschaft langweilig finden, dann wird sie sozusagen aus dem falschen Blickwinkel präsentiert. Schließlich ist die Wissenschaft, wie wir wissen, eine erstaunliche Welt, die immer wieder aufs Neue überrascht.

Freitag Off-Top:


Da es sich um Musik bzw. Rockmusik handelt, folgt hier eine wunderbare Reise durch die Weiten des Rock.


Königin, „Radio Ga Ga“ (1984).

Vielen Dank fürs Lesen, bleiben Sie neugierig und wünschen Ihnen ein tolles Wochenende, Leute! 🙂

Vielen Dank, dass Sie bei uns geblieben sind. Gefallen Ihnen unsere Artikel? Möchten Sie weitere interessante Inhalte sehen? Unterstützen Sie uns, indem Sie eine Bestellung aufgeben oder an Freunde weiterempfehlen. 30 % Rabatt für Habr-Benutzer auf ein einzigartiges Analogon von Einstiegsservern, das von uns für Sie erfunden wurde: Die ganze Wahrheit über VPS (KVM) E5-2650 v4 (6 Kerne) 10 GB DDR4 240 GB SSD 1 Gbit/s ab 20 $ oder wie teilt man sich einen Server? (verfügbar mit RAID1 und RAID10, bis zu 24 Kerne und bis zu 40 GB DDR4).

Dell R730xd 2-mal günstiger? Nur hier 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6 GHz 14C 64 GB DDR4 4 x 960 GB SSD 1 Gbit/s 100 TV ab 199 $ in den Niederlanden! Dell R420 – 2x E5-2430 2.2 GHz 6C 128 GB DDR3 2 x 960 GB SSD 1 Gbit/s 100 TB – ab 99 $! Lesen über Wie baut man ein Infrastrukturunternehmen auf? Klasse mit dem Einsatz von Dell R730xd E5-2650 v4 Servern im Wert von 9000 Euro für einen Cent?

Source: habr.com

Kommentar hinzufügen