Lectura entre notes: el sistema de transmissió de dades dins de la música

Lectura entre notes: el sistema de transmissió de dades dins de la música

Expressar allò que les paraules no poden transmetre; sentir una gran varietat d'emocions entrellaçades en un huracà de sentiments; trencar amb la terra, el cel i fins i tot el mateix Univers, fent un viatge on no hi ha mapes, ni carreteres, ni senyals; inventar, explicar i viure tota una història que sempre romandrà única i inimitable. Tot això es pot fer amb la música, un art que ha existit durant molts milers d'anys i que delecta les nostres orelles i cors.

Tanmateix, la música, o més aviat les obres musicals, poden servir no només per al plaer estètic, sinó també per a la transmissió d'informació codificada en elles, destinada a algun dispositiu i invisible per a l'oient. Avui coneixerem un estudi molt inusual en què els estudiants de postgrau de l'ETH Zurich van poder introduir, sense que l'oïda humana no s'apercibi, certes dades a les obres musicals, de manera que la música en si es converteix en un canal de transmissió de dades. Com van implementar exactament la seva tecnologia, les melodies amb i sense les dades incrustades són molt diferents i què van demostrar les proves pràctiques? Ens assabentem de l'informe dels investigadors. Vés.

Base de recerca

Els investigadors anomenen la seva tecnologia tecnologia de transmissió de dades acústiques. Quan un altaveu toca una melodia modificada, una persona la percep com a normal, però, per exemple, un telèfon intel·ligent pot llegir informació codificada entre línies, o més aviat entre les notes, per dir-ho així. Els científics (el fet que aquests nois encara siguin estudiants de postgrau no impedeix que siguin científics) anomenen la velocitat i la fiabilitat de la transmissió mantenint el nivell d'aquests paràmetres, independentment del fitxer d'àudio seleccionat, com l'aspecte més important en la implementació de aquesta tècnica de transferència de dades. La psicoacústica, que estudia els aspectes psicològics i fisiològics de la percepció humana dels sons, ajuda a fer front a aquesta tasca.

El nucli de la transmissió de dades acústiques es pot anomenar OFDM (multiplexació per divisió de freqüència ortogonal), que, juntament amb l'adaptació de les subportadores a la música font al llarg del temps, va permetre aprofitar al màxim l'espectre de freqüències transmeses per a la transmissió d'informació. Gràcies a això, es va aconseguir una velocitat de transmissió de 412 bps en una distància de fins a 24 metres (taxa d'error < 10%). Els experiments pràctics amb 40 voluntaris van confirmar el fet que és gairebé impossible escoltar la diferència entre la melodia original i la que s'incrustava la informació.

On es pot aplicar aquesta tecnologia a la pràctica? Els investigadors tenen la seva pròpia resposta: gairebé tots els telèfons intel·ligents, ordinadors portàtils i altres dispositius de mà moderns estan equipats amb micròfons, i molts llocs públics (cafeteries, restaurants, centres comercials, etc.) tenen altaveus amb música de fons. Aquesta melodia de fons pot, per exemple, incloure dades per connectar-se a una xarxa Wi-Fi sense necessitat d'accions addicionals.

Les característiques generals de la transmissió de dades acústiques ens han quedat clares; ara passem a un estudi detallat de l'estructura d'aquest sistema.

Descripció del sistema

La introducció de dades a la melodia es produeix a causa de l'emmascarament de freqüència. A les franges horàries, s'identifiquen les freqüències d'emmascarament i les subportadores OFDM properes a aquests elements d'emmascarament s'omplen de dades.

Lectura entre notes: el sistema de transmissió de dades dins de la música
Imatge #1: Convertint el fitxer original en un senyal compost (melodia + dades) transmès pels altaveus.

Per començar, el senyal d'àudio original es divideix en segments successius per a l'anàlisi. Cada segment (Hi) de L = 8820 mostres, igual a 200 ms, es multiplica per finestra* per minimitzar els efectes de frontera.

Finestra* és una funció de ponderació utilitzada per controlar els efectes deguts als lòbuls laterals en les estimacions espectrals.

A continuació, es van detectar les freqüències dominants del senyal original en el rang de 500 Hz a 9.8 kHz, fet que va permetre obtenir freqüències d'emmascarament fM,l per a aquest segment. A més, les dades es van transmetre en un petit rang de 9.8 a 10 kHz per establir la ubicació de les subportadores al receptor. El límit superior del rang de freqüències utilitzat es va establir en 10 kHz a causa de la baixa sensibilitat dels micròfons dels telèfons intel·ligents a altes freqüències.

Es van determinar les freqüències d'emmascarament per a cada segment analitzat individualment. Mitjançant el mètode HPS (Harmonic Product Spectrum), es van identificar les tres freqüències dominants i després es van arrodonir a les notes més properes a l'escala cromàtica harmònica. Així es van obtenir les notes principals fF,i = 1…3, situades entre les tecles C0 (16.35 Hz) i B0 (30.87 Hz). A partir del fet que les notes fonamentals són massa baixes per utilitzar-les en la transmissió de dades, les seves octaves més altes 500kfF,i es van calcular en el rang de 9.8 Hz ... 2 kHz. Moltes d'aquestes freqüències (fO,l1) eren més pronunciades a causa de la naturalesa de l'HPS.

Lectura entre notes: el sistema de transmissió de dades dins de la música
Imatge #2: Octaves calculades fO,l1 per a les notes fonamentals i els harmònics fH,l2 del to més fort.

El conjunt resultant d'octaves i harmònics es va utilitzar com a freqüències d'emmascarament, de les quals es van derivar les freqüències de subportadora OFDM fSC,k. Es van inserir dues subportadores per sota i per sobre de cada freqüència d'emmascarament.

A continuació, es va filtrar l'espectre del segment d'àudio Hi a les freqüències de subportadora fSC, k. Després d'això, es va crear un símbol OFDM basat en els bits d'informació en Bi, a causa del qual es podia transmetre el segment compost Ci a través de l'altaveu. Les magnituds i fases de les subportadores s'han d'escollir perquè el receptor pugui extreure les dades transmeses mentre l'oient no noti canvis en la melodia.

Lectura entre notes: el sistema de transmissió de dades dins de la música
Imatge núm. 3: part de l'espectre i les freqüències subportadores del segment Hi de la melodia original.

Quan es reprodueix un senyal d'àudio amb informació codificada a través dels altaveus, el micròfon del dispositiu receptor el grava. Per trobar les posicions inicials dels símbols OFDM incrustats, primer cal filtrar els registres amb pas de banda. D'aquesta manera, s'extreu el rang de freqüència superior, on no hi ha senyals d'interferència musical entre subportadores. Podeu trobar l'inici dels símbols OFDM mitjançant un prefix cíclic.

Després de detectar l'inici dels símbols OFDM, el receptor obté informació sobre les notes més dominants mitjançant la descodificació del domini d'alta freqüència. A més, OFDM és bastant resistent a les fonts d'interferència de banda estreta, ja que només afecten algunes de les subportadores.

Proves pràctiques

L'altaveu KRK Rokit 8 va actuar com a font de les melodies modificades i el telèfon intel·ligent Nexus 5X va fer el paper de la part receptora.

Lectura entre notes: el sistema de transmissió de dades dins de la música
Imatge #4: Diferència entre l'OFDM real i els pics de correlació mesurats a l'interior a 5 m entre l'altaveu i el micròfon.

La majoria dels punts OFDM es troben en el rang de 0 a 25 ms, de manera que podeu trobar un inici vàlid dins del prefix cíclic de 66.6 ms. Els investigadors assenyalen que el receptor (en aquest experiment, un telèfon intel·ligent) té en compte que els símbols OFDM es reprodueixen periòdicament, cosa que millora la seva detecció.

El primer que cal comprovar va ser l'efecte de la distància sobre la taxa d'error de bits (BER). Per fer-ho, es van fer tres proves en diferents tipus d'habitacions: un passadís amb moqueta, un despatx amb linòleum a terra, i un auditori amb terra de fusta.


La cançó "And The Cradle Will Rock" de Van Halen va ser escollida com a tema de prova.

El volum del so es va ajustar de manera que el nivell de so mesurat pel telèfon intel·ligent a una distància de 2 m de l'altaveu fos de 63 dB.

Lectura entre notes: el sistema de transmissió de dades dins de la música
Imatge núm. 5: Indicadors BER en funció de la distància entre l'altaveu i el micròfon (línia blava - públic, verd - passadís, taronja - oficina).

Al passadís, un so de 40 dB va ser captat per un telèfon intel·ligent a una distància de fins a 24 metres de l'altaveu. A l'aula a una distància de 15 m el so era de 55 dB, i a l'oficina a una distància de 8 metres el nivell de so percebut pel telèfon intel·ligent arribava als 57 dB.

Com que l'auditori i l'oficina són més reverberants, els ecos tardans del símbol OFDM superen la longitud del prefix cíclic i augmenten el BER.

Reverberació* - una disminució gradual de la intensitat del so a causa dels seus múltiples reflexos.

Els investigadors van demostrar encara més la versatilitat del seu sistema aplicant-lo a 6 cançons diferents de tres gèneres (taula a continuació).

Lectura entre notes: el sistema de transmissió de dades dins de la música
Taula núm. 1: cançons utilitzades a les proves.

A més, a través de les dades de la taula, podem veure la taxa de bits i les taxes d'error de bits de cada cançó. Les tarifes de dades són diferents perquè BPSK diferencial (clau de canvi de fase) funciona millor quan s'utilitzen els mateixos subportadors. I això és possible quan els segments adjacents contenen els mateixos elements d'emmascarament. Les cançons contínuament altes proporcionen una base òptima per amagar dades perquè les freqüències d'emmascarament estan més fortament presents en un ampli rang de freqüències. La música de ritme ràpid només pot emmascarar parcialment els símbols OFDM a causa de la longitud fixa de la finestra d'anàlisi.

A continuació, la gent va començar a provar el sistema, que havia de determinar quina melodia era original i quina era modificada per la informació incrustada en ella. Amb aquesta finalitat, es van penjar fragments de 12 segons de cançons de la taula núm. 1 en un lloc web especial.

En el primer experiment (E1), a cada participant se li va donar un fragment modificat o original per escoltar i havia de decidir si el fragment era original o modificat. En el segon experiment (E2), els participants podien escoltar les dues versions tantes vegades com volguessin, i després decidir quina era l'original i quina es modificava.

Lectura entre notes: el sistema de transmissió de dades dins de la música
Taula núm. 2: resultats dels experiments E1 i E2.

Els resultats del primer experiment tenen dos indicadors: p(O|O) - el percentatge de participants que van marcar correctament la melodia original i p(O|M) - el percentatge de participants que van marcar la versió modificada de la melodia com a original.

Curiosament, alguns participants, segons els investigadors, consideraven que certes melodies alterades eren més originals que l'original en si. La mitjana d'ambdós experiments suggereix que l'oient mitjà no notaria cap diferència entre una melodia normal i una en què s'incrusten dades.

Naturalment, els experts musicals i els músics podran detectar algunes imprecisions i elements sospitosos en les melodies modificades, però aquests elements no són tan significatius com per causar molèsties.

I ara nosaltres mateixos podem participar en l'experiment. A continuació es mostren dues versions de la mateixa melodia: l'original i la modificada. Pots escoltar la diferència?

Versió original de la melodia
vs
Versió modificada de la melodia

Per a un coneixement més detallat dels matisos de l'estudi, recomano mirar informe grup de recerca.

També podeu descarregar un arxiu ZIP dels fitxers d'àudio de les cançons originals i modificades utilitzades a l'estudi a aquest enllaç.

Epíleg

En aquest treball, estudiants de postgrau de l'ETH Zurich van descriure un increïble sistema de transmissió de dades dins de la música. Per fer-ho, van utilitzar l'emmascarament de freqüència, que va permetre incrustar les dades a la melodia que tocava l'altaveu. Aquesta melodia la percep el micròfon del dispositiu, que reconeix les dades ocultes i les descodifica, mentre que l'oient mitjà ni tan sols notarà la diferència. En el futur, els nois tenen previst desenvolupar el seu sistema, seleccionant mètodes més avançats per introduir dades a l'àudio.

Quan a algú se li passa alguna cosa inusual i, sobretot, alguna cosa que funciona, sempre estem contents. Però encara més alegria és que aquest invent va ser creat per joves. La ciència no té restriccions d'edat. I si els joves troben la ciència avorrida, llavors s'està presentant des d'un angle equivocat, per dir-ho d'alguna manera. Al cap i a la fi, com sabem, la ciència és un món sorprenent que no deixa de sorprendre.

Divendres fora de dalt:


Com que parlem de música, o més aviat de música rock, aquí teniu un viatge meravellós per les extensions del rock.


Queen, "Radio Ga Ga" (1984).

Gràcies per llegir, sigueu curiosos i passeu un bon cap de setmana nois! 🙂

Gràcies per quedar-te amb nosaltres. T'agraden els nostres articles? Vols veure més contingut interessant? Doneu-nos suport fent una comanda o recomanant als amics, 30% de descompte per als usuaris d'Habr en un únic anàleg de servidors d'entrada, que hem inventat per a tu: Tota la veritat sobre VPS (KVM) E5-2650 v4 (6 nuclis) 10 GB DDR4 240 GB SSD 1 Gbps des de 20 dòlars o com compartir un servidor? (disponible amb RAID1 i RAID10, fins a 24 nuclis i fins a 40 GB DDR4).

Dell R730xd 2 vegades més barat? Només aquí 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6 GHz 14C 64 GB DDR4 4 x 960 GB SSD 1 Gbps 100 TV des de 199 $ als Països Baixos! Dell R420 - 2x E5-2430 2.2 Ghz 6C 128 GB DDR3 2 x 960 GB SSD 1 Gbps 100 TB - a partir de 99 $! Llegeix sobre Com construir infrastructure corp. classe amb l'ús de servidors Dell R730xd E5-2650 v4 per valor de 9000 euros per un cèntim?

Font: www.habr.com

Afegeix comentari