Leggere tra le note: il sistema di trasmissione dei dati nella musica

Leggere tra le note: il sistema di trasmissione dei dati nella musica

Esprimi ciò che le parole non possono trasmettere; sentire un'ampia varietà di emozioni intrecciate in un uragano di sentimenti; staccarsi dalla terra, dal cielo e perfino dall'Universo stesso, intraprendendo un viaggio dove non ci sono mappe, né strade, né segnali; inventare, raccontare e vivere tutta una storia che rimarrà sempre unica e inimitabile. Tutto questo può essere fatto con la musica, un'arte che esiste da molte migliaia di anni e delizia le nostre orecchie e i nostri cuori.

Tuttavia, la musica, o meglio le opere musicali, può servire non solo per il piacere estetico, ma anche per la trasmissione di informazioni in esse codificate, destinate a qualche dispositivo e invisibili all'ascoltatore. Oggi faremo conoscenza con uno studio molto insolito in cui gli studenti laureati dell'ETH di Zurigo sono stati in grado, inosservati dall'orecchio umano, di introdurre determinati dati in opere musicali, grazie ai quali la musica stessa diventa un canale di trasmissione dati. Come hanno implementato esattamente la loro tecnologia, le melodie con e senza i dati incorporati sono molto diverse e cosa hanno mostrato i test pratici? Lo apprendiamo dal rapporto dei ricercatori. Andare.

Base di ricerca

I ricercatori chiamano la loro tecnologia tecnologia di trasmissione dati acustica. Quando un altoparlante suona una melodia modificata, una persona la percepisce come normale, ma, ad esempio, uno smartphone può leggere informazioni codificate tra le righe, o meglio tra le note, per così dire. Gli scienziati (il fatto che questi ragazzi siano ancora studenti laureati non impedisce loro di essere scienziati) chiamano la velocità e l'affidabilità della trasmissione mantenendo il livello di questi parametri, indipendentemente dal file audio selezionato, come l'aspetto più importante nell'implementazione di questa tecnica di trasferimento dati. La psicoacustica, che studia gli aspetti psicologici e fisiologici della percezione umana dei suoni, aiuta ad affrontare questo compito.

Il nucleo della trasmissione acustica dei dati può essere chiamato OFDM (multiplexing a divisione di frequenza ortogonale), che, insieme all'adattamento delle sottoportanti alla musica sorgente nel tempo, ha permesso di sfruttare al massimo lo spettro di frequenze trasmesso per la trasmissione delle informazioni. Grazie a ciò è stato possibile raggiungere una velocità di trasmissione di 412 bps su una distanza fino a 24 metri (tasso di errore < 10%). Esperimenti pratici che hanno coinvolto 40 volontari hanno confermato il fatto che è quasi impossibile sentire la differenza tra la melodia originale e quella in cui erano contenute le informazioni.

Dove può essere applicata nella pratica questa tecnologia? I ricercatori hanno la loro risposta: quasi tutti i moderni smartphone, laptop e altri dispositivi portatili sono dotati di microfoni e molti luoghi pubblici (bar, ristoranti, centri commerciali, ecc.) dispongono di altoparlanti con musica di sottofondo. Questa melodia di sottofondo può, ad esempio, includere dati per la connessione a una rete Wi-Fi senza la necessità di azioni aggiuntive.

Le caratteristiche generali della trasmissione dei dati acustici ci sono diventate chiare, passiamo ora allo studio dettagliato della struttura di questo sistema.

Descrizione del sistema

L'introduzione dei dati nella melodia avviene a causa del mascheramento della frequenza. Negli intervalli di tempo vengono identificate le frequenze di mascheramento e le sottoportanti OFDM vicine a questi elementi di mascheramento vengono riempite di dati.

Leggere tra le note: il sistema di trasmissione dei dati nella musica
Immagine n.1: Conversione del file originale in un segnale composito (melodia + dati) trasmesso attraverso gli altoparlanti.

Per cominciare, il segnale audio originale viene diviso in segmenti successivi per l'analisi. Ciascuno di questi segmenti (Hi) di L = 8820 campioni, pari a 200 ms, viene moltiplicato per finestra* per minimizzare gli effetti di confine.

Finestra* è una funzione di ponderazione utilizzata per controllare gli effetti dovuti ai lobi laterali nelle stime spettrali.

Successivamente, sono state rilevate le frequenze dominanti del segnale originale nell'intervallo da 500 Hz a 9.8 kHz, il che ha permesso di ottenere frequenze di mascheramento fM,l per questo segmento. Inoltre, i dati venivano trasmessi in un piccolo intervallo compreso tra 9.8 e 10 kHz per stabilire la posizione delle sottoportanti sul ricevitore. Il limite superiore della gamma di frequenza utilizzata è stato fissato a 10 kHz a causa della bassa sensibilità dei microfoni degli smartphone alle alte frequenze.

Le frequenze di mascheramento sono state determinate individualmente per ciascun segmento analizzato. Utilizzando il metodo HPS (Harmonic Product Spectrum) sono state individuate le tre frequenze dominanti e successivamente arrotondate alle note più vicine della scala cromatica armonica. In questo modo sono state ottenute le note principali fF,i = 1…3, comprese tra le chiavi C0 (16.35 Hz) e B0 (30.87 Hz). Considerando che le note fondamentali sono troppo basse per essere utilizzate nella trasmissione dati, le loro ottave più alte 500kfF,i sono state calcolate nell'intervallo 9.8 Hz ... 2 kHz. Molte di queste frequenze (fO,l1) erano più pronunciate a causa della natura dell'HPS.

Leggere tra le note: il sistema di trasmissione dei dati nella musica
Immagine n.2: Ottave calcolate fO,l1 per le note fondamentali e gli armonici fH,l2 del tono più forte.

L'insieme risultante di ottave e armoniche è stato utilizzato come frequenze di mascheramento, da cui sono state derivate le frequenze della sottoportante OFDM fSC,k. Due sottoportanti sono state inserite sotto e sopra ciascuna frequenza di mascheramento.

Successivamente, lo spettro del segmento audio Hi è stato filtrato alle frequenze della sottoportante fSC,k. Successivamente è stato creato un simbolo OFDM basato sui bit di informazione in Bi, grazie al quale il segmento composito Ci potrebbe essere trasmesso attraverso l'altoparlante. Le grandezze e le fasi delle sottoportanti devono essere scelte in modo che il ricevitore possa estrarre i dati trasmessi mentre l'ascoltatore non nota cambiamenti nella melodia.

Leggere tra le note: il sistema di trasmissione dei dati nella musica
Immagine n. 3: parte dello spettro e frequenze della sottoportante del segmento Hi della melodia originale.

Quando un segnale audio con informazioni codificate viene riprodotto attraverso gli altoparlanti, il microfono del dispositivo ricevente lo registra. Per trovare le posizioni iniziali dei simboli OFDM incorporati, i record devono prima essere filtrati passa banda. In questo modo viene estratta la gamma di frequenza superiore, dove non ci sono segnali di interferenza musicale tra le sottoportanti. È possibile trovare l'inizio dei simboli OFDM utilizzando un prefisso ciclico.

Dopo aver rilevato l'inizio dei simboli OFDM, il ricevitore ottiene informazioni sulle note più dominanti attraverso la decodifica del dominio ad alta frequenza. Inoltre, OFDM è abbastanza resistente alle fonti di interferenza a banda stretta, poiché colpiscono solo alcune sottoportanti.

Prove pratiche

L'altoparlante KRK Rokit 8 è stato la fonte delle melodie modificate e lo smartphone Nexus 5X ha svolto il ruolo di ricevente.

Leggere tra le note: il sistema di trasmissione dei dati nella musica
Immagine n. 4: differenza tra OFDM effettivo e picchi di correlazione misurati in interni a 5 m tra altoparlante e microfono.

La maggior parte dei punti OFDM si trovano nell'intervallo da 0 a 25 ms, quindi è possibile trovare un inizio valido all'interno del prefisso ciclico 66.6 ms. I ricercatori notano che il ricevitore (in questo esperimento, uno smartphone) tiene conto della riproduzione periodica dei simboli OFDM, il che ne migliora il rilevamento.

La prima cosa da verificare era l'effetto della distanza sul tasso di errore in bit (BER). A tale scopo sono stati effettuati tre test in diverse tipologie di ambienti: un corridoio con moquette, un ufficio con pavimento in linoleum e un auditorium con pavimento in legno.


La canzone scelta come soggetto del test è stata “And The Cradle Will Rock” di Van Halen.

Il volume del suono è stato regolato in modo tale che il livello sonoro misurato dallo smartphone a una distanza di 2 m dall'altoparlante fosse di 63 dB.

Leggere tra le note: il sistema di trasmissione dei dati nella musica
Immagine n. 5: Indicatori BER in base alla distanza tra l'oratore e il microfono (linea blu - pubblico, verde - corridoio, arancione - ufficio).

Nel corridoio uno smartphone ha captato un suono di 40 dB ad una distanza massima di 24 metri dall'altoparlante. In classe a una distanza di 15 m il suono era di 55 dB, mentre in ufficio a una distanza di 8 metri il livello del suono percepito dallo smartphone ha raggiunto i 57 dB.

Poiché l'auditorium e l'ufficio sono più riverberanti, gli echi tardivi dei simboli OFDM superano la lunghezza del prefisso ciclico e aumentano il BER.

Riverbero* - una diminuzione graduale dell'intensità del suono dovuta alle sue molteplici riflessioni.

I ricercatori hanno ulteriormente dimostrato la versatilità del loro sistema applicandolo a 6 brani diversi di tre generi (tabella sotto).

Leggere tra le note: il sistema di trasmissione dei dati nella musica
Tabella n.1: brani utilizzati nelle prove.

Inoltre, attraverso i dati della tabella, possiamo vedere il bit rate e il tasso di errore bit per ogni brano. Le velocità dei dati sono diverse perché il BPSK differenziale (phase shift keying) funziona meglio quando vengono utilizzate le stesse sottoportanti. E questo è possibile quando segmenti adiacenti contengono gli stessi elementi di mascheramento. I brani ad alto volume continuo forniscono una base ottimale per l'occultamento dei dati poiché le frequenze di mascheramento sono più fortemente presenti su un'ampia gamma di frequenze. La musica dal ritmo veloce può mascherare solo parzialmente i simboli OFDM a causa della lunghezza fissa della finestra di analisi.

Successivamente, le persone hanno iniziato a testare il sistema, per determinare quale melodia fosse originale e quale fosse modificata dalle informazioni in essa contenute. A tale scopo, su un sito Web speciale sono stati pubblicati estratti di 12 secondi di canzoni dalla tabella n. 1.

Nel primo esperimento (E1), a ciascun partecipante è stato dato da ascoltare un frammento modificato o originale e ha dovuto decidere se il frammento era originale o modificato. Nel secondo esperimento (E2), i partecipanti potevano ascoltare entrambe le versioni quante volte volevano, e poi decidere quale fosse originale e quale modificata.

Leggere tra le note: il sistema di trasmissione dei dati nella musica
Tabella n.2: risultati degli esperimenti E1 ed E2.

I risultati del primo esperimento hanno due indicatori: p(O|O) - la percentuale di partecipanti che hanno contrassegnato correttamente la melodia originale e p(O|M) - la percentuale di partecipanti che hanno contrassegnato la versione modificata della melodia come originale.

È interessante notare che alcuni partecipanti, secondo i ricercatori, consideravano alcune melodie alterate più originali dell'originale stesso. La media di entrambi gli esperimenti suggerisce che l’ascoltatore medio non noterebbe alcuna differenza tra una melodia normale e una in cui sono incorporati dei dati.

Naturalmente gli esperti di musica e i musicisti potranno individuare nelle melodie modificate alcune imprecisioni ed elementi sospetti, ma questi elementi non sono così significativi da causare disagio.

E ora noi stessi possiamo prendere parte all'esperimento. Di seguito sono riportate due versioni della stessa melodia: quella originale e quella modificata. Riesci a sentire la differenza?

Versione originale della melodia
vs
Versione modificata della melodia

Per una conoscenza più dettagliata delle sfumature dello studio, consiglio di guardare доклад gruppo di ricerca.

Puoi anche scaricare un archivio ZIP di file audio dei brani originali e modificati utilizzati nello studio su questo link.

Finale

In questo lavoro gli studenti laureati dell'ETH di Zurigo hanno descritto uno straordinario sistema di trasmissione dati nell'ambito della musica. Per fare ciò, hanno utilizzato il mascheramento della frequenza, che ha permesso di incorporare i dati nella melodia riprodotta dall'oratore. Questa melodia viene percepita dal microfono del dispositivo, che riconosce i dati nascosti e li decodifica, mentre l'ascoltatore medio non si accorgerà nemmeno della differenza. In futuro, i ragazzi hanno in programma di sviluppare il proprio sistema, selezionando metodi più avanzati per introdurre i dati nell'audio.

Quando qualcuno esce con qualcosa di insolito e, soprattutto, qualcosa che funzioni, siamo sempre felici. Ma la gioia ancora più grande è che questa invenzione sia stata creata dai giovani. La scienza non ha limiti di età. E se i giovani trovano la scienza noiosa, significa che viene presentata, per così dire, dalla prospettiva sbagliata. Dopotutto, come sappiamo, la scienza è un mondo straordinario che non smette mai di stupire.

Venerdì in anteprima:


Visto che parliamo di musica, o meglio di musica rock, ecco uno splendido viaggio nelle distese del rock.


Regina, "Radio Ga Ga" (1984).

Grazie per aver letto, restate curiosi e buon fine settimana ragazzi! 🙂

Grazie per stare con noi. Ti piacciono i nostri articoli? Vuoi vedere contenuti più interessanti? Sostienici effettuando un ordine o raccomandando agli amici, Sconto del 30% per gli utenti Habr su un analogo unico di server entry-level, che è stato inventato da noi per te: Tutta la verità su VPS (KVM) E5-2650 v4 (6 core) 10 GB DDR4 240 GB SSD 1 Gbps da $ 20 o come condividere un server? (disponibile con RAID1 e RAID10, fino a 24 core e fino a 40 GB DDR4).

Dell R730xd 2 volte più economico? Solo qui 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV da $199 In Olanda! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - da $99! Leggi Come costruire Infrastructure Corp. classe con l'utilizzo di server Dell R730xd E5-2650 v4 del valore di 9000 euro per un centesimo?

Fonte: habr.com

Aggiungi un commento