Citirea între note: sistemul de transmitere a datelor în interiorul muzicii

Citirea între note: sistemul de transmitere a datelor în interiorul muzicii

Exprimați ceea ce cuvintele nu pot transmite; simți o mare varietate de emoții împletite într-un uragan de sentimente; să se desprindă de pământ, de cer și chiar de Universul însuși, mergând într-o călătorie în care nu există hărți, drumuri, semne; inventează, spune și experimentează o întreagă poveste care va rămâne mereu unică și inimitabilă. Toate acestea pot fi realizate prin muzică - o artă care există de multe mii de ani și care ne încântă urechile și inimile.

Cu toate acestea, muzica, sau mai degrabă operele muzicale, pot servi nu numai pentru plăcerea estetică, ci și pentru transmiterea de informații codificate în ele, destinate unui dispozitiv și invizibile pentru ascultător. Astăzi ne vom familiariza cu un studiu foarte neobișnuit în care studenții absolvenți de la ETH Zurich au putut, neobservați de urechea umană, să introducă anumite date în lucrări muzicale, datorită cărora muzica în sine devine un canal de transmisie a datelor. Cum anume și-au implementat tehnologia, melodiile cu și fără datele încorporate sunt foarte diferite și ce au arătat testele practice? Aflăm despre acest lucru din raportul cercetătorilor. Merge.

Baza cercetării

Cercetătorii numesc tehnologia lor tehnologie de transmisie acustică a datelor. Când un difuzor redă o melodie modificată, o persoană o percepe ca fiind normală, dar, de exemplu, un smartphone poate citi informații codificate între rânduri, sau mai degrabă între note, ca să spunem așa. Oamenii de știință (faptul că acești băieți sunt încă absolvenți nu îi împiedică să fie oameni de știință) numesc viteza și fiabilitatea transmisiei menținând în același timp nivelul acestor parametri, indiferent de fișierul audio selectat, drept cel mai important aspect în implementarea această tehnică de transfer de date. Psihoacustica, care studiază aspectele psihologice și fiziologice ale percepției umane a sunetelor, ajută la rezolvarea acestei sarcini.

Miezul transmisiei de date acustice poate fi numit OFDM (multiplexarea diviziunii de frecvență ortogonală), care, împreună cu adaptarea subpurtătorilor la muzica sursă în timp, a făcut posibilă utilizarea maximă a spectrului de frecvență transmis pentru transmiterea informațiilor. Datorită acestui fapt, a fost posibilă atingerea unei viteze de transmisie de 412 bps pe o distanță de până la 24 de metri (rata de eroare < 10%). Experimentele practice care au implicat 40 de voluntari au confirmat faptul că este aproape imposibil să auzi diferența dintre melodia originală și cea în care a fost încorporată informația.

Unde poate fi aplicată această tehnologie în practică? Cercetătorii au propriul răspuns: aproape toate smartphone-urile, laptopurile și alte dispozitive portabile moderne sunt echipate cu microfoane, iar multe locuri publice (cafenele, restaurante, centre comerciale etc.) au difuzoare cu muzică de fundal. Această melodie de fundal poate include, de exemplu, date pentru conectarea la o rețea Wi-Fi fără a fi nevoie de acțiuni suplimentare.

Caracteristicile generale ale transmisiei de date acustice ne-au devenit clare; acum să trecem la un studiu detaliat al structurii acestui sistem.

Descrierea sistemului

Introducerea datelor în melodie are loc datorită mascării frecvenței. În intervalele de timp, frecvențele de mascare sunt identificate și subpurtătoarele OFDM apropiate de aceste elemente de mascare sunt umplute cu date.

Citirea între note: sistemul de transmitere a datelor în interiorul muzicii
Imaginea #1: Convertirea fișierului original într-un semnal compus (melodie + date) transmis prin difuzoare.

Pentru început, semnalul audio original este împărțit în segmente succesive pentru analiză. Fiecare astfel de segment (Hi) de L = 8820 eșantioane, egal cu 200 ms, este înmulțit cu fereastră* pentru a minimiza efectele la limită.

Fereastră* este o funcție de ponderare utilizată pentru a controla efectele datorate lobilor laterali în estimările spectrale.

În continuare, frecvențele dominante ale semnalului original au fost detectate în intervalul de la 500 Hz la 9.8 kHz, ceea ce a făcut posibilă obținerea frecvențelor de mascare fM,l pentru acest segment. În plus, datele au fost transmise într-un interval mic de la 9.8 la 10 kHz pentru a stabili locația subpurtătorilor la receptor. Limita superioară a intervalului de frecvență utilizat a fost setată la 10 kHz din cauza sensibilității scăzute a microfoanelor smartphone-urilor la frecvențe înalte.

Frecvențele de mascare au fost determinate pentru fiecare segment analizat în mod individual. Folosind metoda HPS (Harmonic Product Spectrum), cele trei frecvențe dominante au fost identificate și apoi rotunjite la cele mai apropiate note de pe scara cromatică armonică. Așa s-au obținut notele principale fF,i = 1…3, aflate între tastele C0 (16.35 Hz) și B0 (30.87 Hz). Pe baza faptului că notele fundamentale sunt prea scăzute pentru a fi utilizate în transmisia de date, octavele lor mai mari 500kfF,i au fost calculate în intervalul 9.8 Hz ... 2 kHz. Multe dintre aceste frecvențe (fO,l1) au fost mai pronunțate datorită naturii HPS.

Citirea între note: sistemul de transmitere a datelor în interiorul muzicii
Imaginea #2: Octave calculate fO,l1 pentru notele fundamentale și armonicile fH,l2 ale celui mai puternic ton.

Setul rezultat de octave și armonici a fost folosit ca frecvențe de mascare, din care au fost derivate frecvențele subpurtătoare OFDM fSC,k. Două subpurtătoare au fost inserate sub și deasupra fiecărei frecvențe de mascare.

Apoi, spectrul segmentului audio Hi a fost filtrat la frecvențele subpurtătoare fSC,k. După aceea, a fost creat un simbol OFDM pe baza biților de informații din Bi, datorită căruia segmentul compozit Ci a putut fi transmis prin difuzor. Mărimile și fazele subpurtătoarelor trebuie alese astfel încât receptorul să poată extrage datele transmise în timp ce ascultătorul nu observă modificări ale melodiei.

Citirea între note: sistemul de transmitere a datelor în interiorul muzicii
Imaginea nr. 3: parte din spectrul și frecvențele subpurtătoare ale segmentului Hi al melodiei originale.

Când un semnal audio cu informații codificate în el este redat prin difuzoare, microfonul dispozitivului receptor îl înregistrează. Pentru a găsi pozițiile de pornire ale simbolurilor OFDM încorporate, înregistrările trebuie mai întâi să fie filtrate trece-bandă. În acest fel, se extrage gama de frecvență superioară, unde nu există semnale de interferență muzicală între subpurtători. Puteți găsi începutul simbolurilor OFDM folosind un prefix ciclic.

După detectarea începutului simbolurilor OFDM, receptorul obține informații despre cele mai dominante note prin decodificarea domeniului de înaltă frecvență. În plus, OFDM este destul de rezistent la sursele de interferență în bandă îngustă, deoarece acestea afectează doar unii dintre subpurtători.

Teste practice

Difuzorul KRK Rokit 8 a acționat ca sursă a melodiilor modificate, iar smartphone-ul Nexus 5X a jucat rolul persoanei care primește.

Citirea între note: sistemul de transmitere a datelor în interiorul muzicii
Imaginea #4: Diferența dintre OFDM real și vârfurile de corelare măsurate în interior la 5m între difuzor și microfon.

Cele mai multe puncte OFDM se află în intervalul de la 0 la 25 ms, așa că puteți găsi un început valid în prefixul ciclic de 66.6 ms. Cercetătorii notează că receptorul (în acest experiment, un smartphone) ține cont de faptul că simbolurile OFDM sunt redate periodic, ceea ce îmbunătățește detectarea acestora.

Primul lucru de verificat a fost efectul distanței asupra ratei de eroare pe biți (BER). Pentru a face acest lucru, au fost efectuate trei teste în diferite tipuri de încăperi: un coridor cu mochetă, un birou cu linoleum pe podea și un auditoriu cu podea din lemn.


Piesa „And The Cradle Will Rock” de Van Halen a fost aleasă ca subiect de testare.

Volumul sunetului a fost reglat astfel încât nivelul sunetului măsurat de smartphone la o distanță de 2 m de difuzor să fie de 63 dB.

Citirea între note: sistemul de transmitere a datelor în interiorul muzicii
Imaginea nr. 5: Indicatori BER in functie de distanta dintre difuzor si microfon (linia albastra - audienta, verde - coridor, portocaliu - birou).

Pe hol, un sunet de 40 dB a fost captat de un smartphone la o distanță de până la 24 de metri de difuzor. In sala de clasa la o distanta de 15 m sunetul era de 55 dB, iar in birou la o distanta de 8 metri nivelul sunetului perceput de smartphone a ajuns la 57 dB.

Deoarece auditoriul și biroul sunt mai reverberante, ecourile tardive ale simbolului OFDM depășesc lungimea prefixului ciclic și măresc BER.

Reverberaţie* - o scădere treptată a intensității sunetului datorită reflexiilor sale multiple.

Cercetătorii au demonstrat în continuare versatilitatea sistemului lor, aplicând-o la 6 melodii diferite din trei genuri (tabelul de mai jos).

Citirea între note: sistemul de transmitere a datelor în interiorul muzicii
Tabelul nr. 1: cântece folosite în teste.

De asemenea, prin datele din tabel, putem vedea rata de biți și ratele de eroare de biți pentru fiecare melodie. Ratele de date sunt diferite deoarece BPSK diferențial (phase shift keying) funcționează mai bine atunci când sunt utilizați aceiași subpurtători. Și acest lucru este posibil atunci când segmentele adiacente conțin aceleași elemente de mascare. Cântecele cu zgomot continuu oferă o bază optimă pentru ascunderea datelor, deoarece frecvențele de mascare sunt prezente mai puternic pe o gamă largă de frecvențe. Muzica cu ritm rapid poate masca doar parțial simbolurile OFDM datorită lungimii fixe a ferestrei de analiză.

Apoi, oamenii au început să testeze sistemul, care a trebuit să determine care melodie era originală și care era modificată de informațiile încorporate în ea. În acest scop, pe un site special au fost postate fragmente de cântece de 12 secunde din tabelul nr. 1.

În primul experiment (E1), fiecărui participant i s-a dat fie un fragment modificat, fie original pentru a asculta și a trebuit să decidă dacă fragmentul era original sau modificat. În cel de-al doilea experiment (E2), participanții au putut asculta ambele versiuni de câte ori doreau și apoi să decidă care era originală și care a fost modificată.

Citirea între note: sistemul de transmitere a datelor în interiorul muzicii
Tabelul nr. 2: rezultatele experimentelor E1 și E2.

Rezultatele primului experiment au doi indicatori: p(O|O) - procentul de participanți care au marcat corect melodia originală și p(O|M) - procentul de participanți care au marcat versiunea modificată a melodiei ca originală.

În mod interesant, unii participanți, potrivit cercetătorilor, au considerat anumite melodii modificate ca fiind mai originale decât originalul în sine. Media ambelor experimente sugerează că ascultătorul mediu nu ar observa o diferență între o melodie obișnuită și una în care au fost încorporate date.

Desigur, experții în muzică și muzicienii vor putea detecta unele inexactități și elemente suspecte în melodiile modificate, dar aceste elemente nu sunt atât de semnificative încât să provoace disconfort.

Și acum noi înșine putem lua parte la experiment. Mai jos sunt două versiuni ale aceleiași melodii - cea originală și cea modificată. Poti auzi diferenta?

Versiunea originală a melodiei
vs
Versiune modificată a melodiei

Pentru o cunoaștere mai detaliată a nuanțelor studiului, vă recomand să vă uitați la raport grup de cercetare.

De asemenea, puteți descărca o arhivă ZIP cu fișiere audio ale melodiilor originale și modificate utilizate în studiu la acest link.

Epilog

În această lucrare, studenții absolvenți de la ETH Zurich au descris un sistem uimitor de transmisie de date în muzică. Pentru a face acest lucru, au folosit mascarea de frecvență, care a făcut posibilă încorporarea datelor în melodia redată de difuzor. Această melodie este percepută de microfonul dispozitivului, care recunoaște datele ascunse și le decodifică, în timp ce ascultătorul mediu nici măcar nu va observa diferența. În viitor, băieții plănuiesc să-și dezvolte sistemul, selectând metode mai avansate pentru introducerea datelor în audio.

Când cineva vine cu ceva neobișnuit și, cel mai important, ceva care funcționează, suntem întotdeauna fericiți. Dar și mai multă bucurie este că această invenție a fost creată de tineri. Știința nu are restricții de vârstă. Și dacă tinerii consideră știința plictisitoare, atunci ea este prezentată dintr-un unghi greșit, ca să spunem așa. La urma urmei, după cum știm, știința este o lume uimitoare care nu încetează să uimească.

Vineri off-top:


Întrucât vorbim de muzică, sau mai degrabă de muzică rock, iată o călătorie minunată prin întinderile rock-ului.


Queen, „Radio Ga Ga” (1984).

Mulțumesc pentru citit, rămâneți curioși și un weekend minunat băieți! 🙂

Vă mulțumim că ați rămas cu noi. Vă plac articolele noastre? Vrei să vezi mai mult conținut interesant? Susține-ne plasând o comandă sau recomandând prietenilor, Reducere de 30% pentru utilizatorii Habr la un analog unic de servere entry-level, care a fost inventat de noi pentru tine: Întregul adevăr despre VPS (KVM) E5-2650 v4 (6 nuclee) 10GB DDR4 240GB SSD 1Gbps de la 20 USD sau cum să partajezi un server? (disponibil cu RAID1 și RAID10, până la 24 de nuclee și până la 40 GB DDR4).

Dell R730xd de 2 ori mai ieftin? Numai aici 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV de la 199 USD in Olanda! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - de la 99 USD! Citește despre Cum se construiește infrastructura corp. clasa cu folosirea serverelor Dell R730xd E5-2650 v4 in valoare de 9000 euro pentru un ban?

Sursa: www.habr.com

Adauga un comentariu