Pagbabasa sa pagitan ng mga tala: ang sistema ng paghahatid ng data sa loob ng musika

Pagbabasa sa pagitan ng mga tala: ang sistema ng paghahatid ng data sa loob ng musika

Ipahayag kung ano ang hindi maaaring ipahiwatig ng mga salita; madama ang isang malawak na iba't ibang mga emosyon na magkakaugnay sa isang unos ng damdamin; upang humiwalay sa lupa, sa langit at maging sa Uniberso mismo, sa paglalakbay kung saan walang mga mapa, walang mga kalsada, walang mga palatandaan; mag-imbento, magkuwento at maranasan ang isang buong kuwento na palaging mananatiling kakaiba at walang katulad. Ang lahat ng ito ay maaaring gawin sa pamamagitan ng musika - isang sining na umiral sa libu-libong taon at nakalulugod sa ating mga tainga at puso.

Gayunpaman, ang musika, o sa halip na mga musikal na gawa, ay maaaring magsilbi hindi lamang para sa aesthetic na kasiyahan, kundi pati na rin para sa paghahatid ng impormasyong naka-encode sa kanila, na nilayon para sa ilang aparato at hindi nakikita ng nakikinig. Ngayon ay makikilala natin ang isang hindi pangkaraniwang pag-aaral kung saan ang mga nagtapos na mag-aaral mula sa ETH Zurich ay nagawang, hindi napapansin ng tainga ng tao, na ipakilala ang ilang data sa mga musikal na gawa, dahil sa kung saan ang musika mismo ay nagiging isang channel ng paghahatid ng data. Paano nga ba nila ipinatupad ang kanilang teknolohiya, ibang-iba ba ang mga melodies na mayroon at walang naka-embed na data, at ano ang ipinakita ng mga praktikal na pagsubok? Nalaman namin ang tungkol dito mula sa ulat ng mga mananaliksik. Pumunta ka.

Batayan sa pananaliksik

Tinatawag ng mga mananaliksik ang kanilang teknolohiyang acoustic data transmission technology. Kapag ang isang tagapagsalita ay nagpatugtog ng isang binagong melody, ang isang tao ay nakikita ito bilang normal, ngunit, halimbawa, ang isang smartphone ay maaaring magbasa ng naka-encode na impormasyon sa pagitan ng mga linya, o sa halip sa pagitan ng mga tala, wika nga. Ang mga siyentipiko (ang katotohanan na ang mga taong ito ay nagtapos na mga mag-aaral ay hindi pumipigil sa kanila na maging mga siyentipiko) na tinatawag ang bilis at pagiging maaasahan ng paghahatid habang pinapanatili ang antas ng mga parameter na ito, anuman ang napiling audio file, bilang ang pinakamahalagang aspeto sa pagpapatupad ng ang pamamaraan ng paglilipat ng data na ito. Ang psychoacoustics, na nag-aaral ng sikolohikal at pisyolohikal na aspeto ng pang-unawa ng tao sa mga tunog, ay nakakatulong upang makayanan ang gawaing ito.

Ang core ng acoustic data transmission ay maaaring tawaging OFDM (orthogonal frequency division multiplexing), na, kasama ang adaptasyon ng mga subcarrier sa pinagmulang musika sa paglipas ng panahon, ay naging posible upang magamit nang maximum ang transmitted frequency spectrum para sa paghahatid ng impormasyon. Dahil dito, posible na makamit ang bilis ng paghahatid na 412 bps sa layo na hanggang 24 metro (rate ng error < 10%). Kinumpirma ng mga praktikal na eksperimento na kinasasangkutan ng 40 boluntaryo ang katotohanan na halos imposibleng marinig ang pagkakaiba sa pagitan ng orihinal na melody at ng kung saan naka-embed ang impormasyon.

Saan maaaring magamit ang teknolohiyang ito sa pagsasanay? May sariling sagot ang mga mananaliksik: halos lahat ng modernong smartphone, laptop at iba pang handheld device ay nilagyan ng mga mikropono, at maraming pampublikong lugar (cafe, restaurant, shopping center, atbp.) ay may mga speaker na may background music. Ang background melody na ito, halimbawa, ay maaaring magsama ng data para sa pagkonekta sa isang Wi-Fi network nang hindi nangangailangan ng mga karagdagang pagkilos.

Ang mga pangkalahatang tampok ng acoustic data transmission ay naging malinaw sa amin; ngayon ay lumipat tayo sa isang detalyadong pag-aaral ng istraktura ng system na ito.

Paglalarawan ng System

Ang pagpapakilala ng data sa melody ay nangyayari dahil sa frequency masking. Sa mga puwang ng oras, tinutukoy ang mga frequency ng masking at ang mga subcarrier ng OFDM na malapit sa mga elementong ito ng masking ay puno ng data.

Pagbabasa sa pagitan ng mga tala: ang sistema ng paghahatid ng data sa loob ng musika
Larawan #1: Pag-convert ng orihinal na file sa isang pinagsama-samang signal (melody + data) na ipinadala sa pamamagitan ng mga speaker.

Upang magsimula, ang orihinal na signal ng audio ay nahahati sa magkakasunod na mga segment para sa pagsusuri. Ang bawat naturang segment (Hi) ng L = 8820 sample, katumbas ng 200 ms, ay pinarami ng bintana* upang mabawasan ang mga epekto sa hangganan.

Bintana* ay isang function ng weighting na ginagamit upang kontrolin ang mga epekto dahil sa mga sidelobe sa mga spectral na pagtatantya.

Susunod, ang nangingibabaw na mga frequency ng orihinal na signal ay nakita sa saklaw mula 500 Hz hanggang 9.8 kHz, na naging posible upang makakuha ng mga masking frequency fM,l para sa segment na ito. Bilang karagdagan, ang data ay ipinadala sa isang maliit na saklaw mula 9.8 hanggang 10 kHz upang maitatag ang lokasyon ng mga subcarrier sa receiver. Ang pinakamataas na limitasyon ng frequency range na ginamit ay itinakda sa 10 kHz dahil sa mababang sensitivity ng mga smartphone microphone sa matataas na frequency.

Natukoy ang mga frequency ng masking para sa bawat nasuri na segment nang paisa-isa. Gamit ang pamamaraan ng HPS (Harmonic Product Spectrum), natukoy ang tatlong nangingibabaw na frequency at pagkatapos ay bilugan sa pinakamalapit na mga nota sa harmonic chromatic scale. Ito ay kung paano nakuha ang mga pangunahing tala fF,i = 1…3, na nasa pagitan ng mga key C0 (16.35 Hz) at B0 (30.87 Hz). Batay sa katotohanan na ang mga pangunahing tala ay masyadong mababa para sa paggamit sa paghahatid ng data, ang kanilang mas mataas na octaves 500kfF,i ay kinakalkula sa hanay na 9.8 Hz ... 2 kHz. Marami sa mga frequency na ito (fO, l1) ay mas malinaw dahil sa likas na katangian ng HPS.

Pagbabasa sa pagitan ng mga tala: ang sistema ng paghahatid ng data sa loob ng musika
Larawan #2: Kinakalkula ang mga octaves fO,l1 para sa mga pangunahing nota at harmonika na fH,l2 ng pinakamalakas na tono.

Ang nagresultang hanay ng mga octaves at harmonic ay ginamit bilang mga masking frequency, kung saan nagmula ang OFDM subcarrier frequency fSC, k. Dalawang subcarrier ang ipinasok sa ibaba at sa itaas ng bawat dalas ng masking.

Susunod, ang spectrum ng Hi audio segment ay na-filter sa subcarrier frequency fSC,k. Pagkatapos nito, nilikha ang isang simbolo ng OFDM batay sa mga bit ng impormasyon sa Bi, dahil sa kung saan ang composite segment na Ci ay maaaring maipadala sa pamamagitan ng speaker. Ang mga magnitude at phase ng mga subcarrier ay dapat piliin upang makuha ng receiver ang ipinadalang data habang hindi napapansin ng tagapakinig ang mga pagbabago sa melody.

Pagbabasa sa pagitan ng mga tala: ang sistema ng paghahatid ng data sa loob ng musika
Larawan No. 3: bahagi ng spectrum at subcarrier na mga frequency ng Hi segment ng orihinal na melody.

Kapag ang isang audio signal na may impormasyong naka-encode dito ay nilalaro sa pamamagitan ng mga speaker, itinatala ito ng mikropono ng tumatanggap na device. Upang mahanap ang mga panimulang posisyon ng mga naka-embed na simbolo ng OFDM, kailangan munang ma-filter ng bandpass ang mga tala. Sa ganitong paraan, na-extract ang upper frequency range, kung saan walang musical interference signals sa pagitan ng mga subcarrier. Mahahanap mo ang simula ng mga simbolo ng OFDM gamit ang cyclic prefix.

Matapos matukoy ang simula ng mga simbolo ng OFDM, nakakakuha ang receiver ng impormasyon tungkol sa mga pinaka nangingibabaw na tala sa pamamagitan ng high frequency domain decoding. Bilang karagdagan, ang OFDM ay medyo lumalaban sa narrowband na mga pinagmumulan ng interference, dahil nakakaapekto lamang ang mga ito sa ilan sa mga subcarrier.

Mga praktikal na pagsusulit

Ang KRK Rokit 8 speaker ay kumilos bilang pinagmulan ng binagong melodies, at ang Nexus 5X na smartphone ang gumanap sa papel ng tumatanggap na partido.

Pagbabasa sa pagitan ng mga tala: ang sistema ng paghahatid ng data sa loob ng musika
Larawan #4: Ang pagkakaiba sa pagitan ng aktwal na OFDM at mga taluktok ng ugnayan na sinusukat sa loob ng bahay sa 5m sa pagitan ng speaker at mikropono.

Karamihan sa mga puntos ng OFDM ay nasa hanay mula 0 hanggang 25 ms, kaya makakahanap ka ng wastong simula sa loob ng 66.6 ms cyclic prefix. Napansin ng mga mananaliksik na ang receiver (sa eksperimentong ito, isang smartphone) ay isinasaalang-alang na ang mga simbolo ng OFDM ay nilalaro nang pana-panahon, na nagpapabuti sa kanilang pagtuklas.

Ang unang bagay na dapat suriin ay ang epekto ng distansya sa bit error rate (BER). Upang gawin ito, tatlong mga pagsubok ang isinagawa sa iba't ibang uri ng mga silid: isang koridor na may karpet, isang opisina na may linoleum sa sahig, at isang auditorium na may sahig na gawa sa kahoy.


Ang kantang "And The Cradle Will Rock" ni Van Halen ang napili bilang test subject.

Ang dami ng tunog ay naayos upang ang antas ng tunog na sinusukat ng smartphone sa layo na 2 m mula sa speaker ay 63 dB.

Pagbabasa sa pagitan ng mga tala: ang sistema ng paghahatid ng data sa loob ng musika
Larawan No. 5: Mga indicator ng BER depende sa distansya sa pagitan ng speaker at mikropono (asul na linya - audience, berde - corridor, orange - opisina).

Sa pasilyo, isang tunog na 40 dB ang nakuha ng isang smartphone sa layo na hanggang 24 metro mula sa speaker. Sa silid-aralan sa layo na 15 m ang tunog ay 55 dB, at sa opisina sa layo na 8 metro ang antas ng tunog na nakikita ng smartphone ay umabot sa 57 dB.

Dahil ang auditorium at opisina ay mas masigla, ang late OFDM symbol echoes ay lumampas sa cyclic prefix length at tumataas ang BER.

Reverberation* - isang unti-unting pagbaba sa intensity ng tunog dahil sa maramihang pagmuni-muni nito.

Ipinakita pa ng mga mananaliksik ang versatility ng kanilang system sa pamamagitan ng paglalapat nito sa 6 na magkakaibang kanta mula sa tatlong genre (talahanayan sa ibaba).

Pagbabasa sa pagitan ng mga tala: ang sistema ng paghahatid ng data sa loob ng musika
Talahanayan Blg. 1: mga kantang ginamit sa mga pagsusulit.

Gayundin, sa pamamagitan ng data ng talahanayan, makikita natin ang bit rate at bit error rate para sa bawat kanta. Magkaiba ang mga rate ng data dahil mas gumagana ang differential BPSK (phase shift keying) kapag parehong mga subcarrier ang ginagamit. At ito ay posible kapag ang mga katabing segment ay naglalaman ng parehong mga elemento ng masking. Ang patuloy na malalakas na kanta ay nagbibigay ng pinakamainam na base para sa pagtatago ng data dahil ang mga masking frequency ay mas malakas na naroroon sa isang malawak na hanay ng frequency. Ang mabilis na takbo ng musika ay maaari lamang bahagyang itago ang mga simbolo ng OFDM dahil sa nakapirming haba ng window ng pagsusuri.

Susunod, sinimulan ng mga tao na subukan ang system, na kailangang matukoy kung aling melody ang orihinal at kung alin ang binago ng impormasyong naka-embed dito. Para sa layuning ito, ang 12-segundong mga sipi ng mga kanta mula sa talahanayan No. 1 ay nai-post sa isang espesyal na website.

Sa unang eksperimento (E1), ang bawat kalahok ay binigyan ng alinman sa binago o orihinal na fragment upang pakinggan at kailangang magpasya kung orihinal o binago ang fragment. Sa pangalawang eksperimento (E2), maaaring makinig ang mga kalahok sa parehong bersyon nang maraming beses hangga't gusto nila, at pagkatapos ay magpasya kung alin ang orihinal at alin ang binago.

Pagbabasa sa pagitan ng mga tala: ang sistema ng paghahatid ng data sa loob ng musika
Talahanayan Blg. 2: mga resulta ng mga eksperimento E1 at E2.

Ang mga resulta ng unang eksperimento ay may dalawang tagapagpahiwatig: p(O|O) - ang porsyento ng mga kalahok na wastong minarkahan ang orihinal na melody at p(O|M) - ang porsyento ng mga kalahok na minarkahan ang binagong bersyon ng melody bilang orihinal.

Kapansin-pansin, ang ilang mga kalahok, ayon sa mga mananaliksik, ay isinasaalang-alang ang ilang mga binagong melodies na mas orihinal kaysa sa orihinal mismo. Ang average ng parehong mga eksperimento ay nagmumungkahi na ang karaniwang tagapakinig ay hindi mapapansin ang isang pagkakaiba sa pagitan ng isang regular na melody at isa kung saan ang data ay naka-embed.

Natural, ang mga dalubhasa sa musika at musikero ay makakatuklas ng ilang mga kamalian at kahina-hinalang elemento sa mga binagong melodies, ngunit ang mga elementong ito ay hindi gaanong makabuluhan na magdulot ng kakulangan sa ginhawa.

At ngayon tayo mismo ay maaaring makibahagi sa eksperimento. Nasa ibaba ang dalawang bersyon ng parehong melody - ang orihinal at ang binagong isa. Naririnig mo ba ang pagkakaiba?

Orihinal na bersyon ng melody
vs
Binagong bersyon ng melody

Para sa isang mas detalyadong kakilala sa mga nuances ng pag-aaral, inirerekumenda ko ang pagtingin sa ulat pangkat ng pananaliksik.

Maaari ka ring mag-download ng ZIP archive ng mga audio file ng orihinal at binagong mga himig na ginamit sa pag-aaral sa ang link na ito.

Epilogo

Sa gawaing ito, inilarawan ng mga nagtapos na estudyante mula sa ETH Zurich ang isang kamangha-manghang sistema ng paghahatid ng data sa loob ng musika. Upang gawin ito, gumamit sila ng frequency masking, na naging posible na i-embed ang data sa melody na nilalaro ng speaker. Ang himig na ito ay nakikita ng mikropono ng device, na kinikilala ang nakatagong data at nagde-decode nito, habang ang karaniwang tagapakinig ay hindi mapapansin ang pagkakaiba. Sa hinaharap, plano ng mga lalaki na bumuo ng kanilang system, na pumipili ng mas advanced na mga pamamaraan para sa pagpapakilala ng data sa audio.

Kapag may naisip na hindi pangkaraniwan, at higit sa lahat, isang bagay na gumagana, palagi kaming masaya. Ngunit ang higit na kagalakan ay ang imbensyon na ito ay nilikha ng mga kabataan. Ang agham ay walang mga paghihigpit sa edad. At kung ang mga kabataan ay nakakatamad sa agham, kung gayon ito ay ipinakita mula sa maling anggulo, wika nga. Pagkatapos ng lahat, tulad ng alam natin, ang agham ay isang kamangha-manghang mundo na hindi tumitigil sa paghanga.

Biyernes off-top:


Dahil musika ang pinag-uusapan, o sa halip na musikang rock, narito ang isang napakagandang paglalakbay sa mga kalawakan ng rock.


Reyna, "Radio Ga Ga" (1984).

Salamat sa pagbabasa, manatiling mausisa, at magkaroon ng magandang weekend guys! πŸ™‚

Salamat sa pananatili sa amin. Gusto mo ba ang aming mga artikulo? Gustong makakita ng mas kawili-wiling nilalaman? Suportahan kami sa pamamagitan ng pag-order o pagrekomenda sa mga kaibigan, 30% na diskwento para sa mga gumagamit ng Habr sa isang natatanging analogue ng mga entry-level na server, na inimbento namin para sa iyo: Ang buong katotohanan tungkol sa VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps mula sa $20 o kung paano magbahagi ng server? (magagamit sa RAID1 at RAID10, hanggang 24 na core at hanggang 40GB DDR4).

Dell R730xd 2 beses na mas mura? Dito lang 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV mula $199 sa Netherlands! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - mula $99! Basahin ang tungkol sa Paano bumuo ng infrastructure corp. klase sa paggamit ng mga server ng Dell R730xd E5-2650 v4 na nagkakahalaga ng 9000 euro para sa isang sentimos?

Pinagmulan: www.habr.com

Magdagdag ng komento