Legado inter la notoj: la datumtranssendosistemo ene de muziko

Legado inter la notoj: la datumtranssendosistemo ene de muziko

Esprimi tion, kion vortoj ne povas transdoni; senti vastan gamon de emocioj interplektitaj en uragano de sentoj; disiĝi de la tero, de la ĉielo kaj eĉ de la Universo mem, irante en vojaĝo, kie ne estas mapoj, nek vojoj, nek signoj; elpensi, rakonti kaj sperti tutan historion, kiu ĉiam restos unika kaj neimitebla. Ĉio ĉi povas esti farita per muziko - arto kiu ekzistas de multaj miloj da jaroj kaj ĝojigas niajn orelojn kaj korojn.

Tamen la muziko, aŭ pli ĝuste muzikaj verkoj, povas servi ne nur por estetika plezuro, sed ankaŭ por la transsendo de informoj koditaj en ili, destinitaj por iu aparato kaj nevideblaj por la aŭskultanto. Hodiaŭ ni konatiĝos kun tre nekutima studo, en kiu diplomiĝaj studentoj de ETH Zuriko povis, nerimarkite de la homa orelo, enkonduki certajn datumojn en muzikajn verkojn, pro kio la muziko mem fariĝas kanalo de transdono de datumoj. Kiel precize ili efektivigis sian teknologion, ĉu la melodioj kun kaj sen la enigitaj datumoj estas tre malsamaj, kaj kion montris praktikaj testoj? Pri tio ni lernas el la raporto de la esploristoj. Iru.

Esplorbazo

La esploristoj nomas sian teknologion akustika transdono de datumoj teknologio. Kiam parolanto ludas modifitan melodion, homo perceptas ĝin kiel normala, sed, ekzemple, inteligenta telefono povas legi koditajn informojn inter la linioj, aŭ pli ĝuste inter la notoj, por tiel diri. Sciencistoj (la fakto, ke ĉi tiuj infanoj ankoraŭ estas diplomiĝintaj studentoj, ne malhelpas ilin esti sciencistoj) nomas la rapidecon kaj fidindecon de transdono konservante la nivelon de ĉi tiuj parametroj, sendepende de la elektita sondosiero, kiel la plej grava aspekto en la efektivigo de ĉi tiu tekniko de transigo de datumoj. Psikoakustiko, kiu studas la psikologiajn kaj fiziologiajn aspektojn de homa percepto de sonoj, helpas trakti ĉi tiun taskon.

La kerno de akustika datumtranssendo povas esti nomita OFDM (orta frekvencdivida multipleksado), kiu, kune kun la adaptado de subportantoj al la fontmuziko laŭlonge de la tempo, ebligis fari maksimuman uzon de la elsendita frekvenca spektro por informtranssendo. Dank' al ĉi tio, eblis atingi transdonon de 412 bps sur distanco de ĝis 24 metroj (erara indico < 10%). Praktikaj eksperimentoj kun 40 volontuloj konfirmis la fakton, ke estas preskaŭ neeble aŭdi la diferencon inter la origina melodio kaj tiu en kiu la informoj estis enigitaj.

Kie ĉi tiu teknologio povas esti aplikata en la praktiko? Esploristoj havas sian propran respondon: preskaŭ ĉiuj modernaj saĝtelefonoj, tekkomputiloj kaj aliaj porteblaj aparatoj estas ekipitaj per mikrofonoj, kaj multaj publikaj lokoj (kafejoj, restoracioj, komercaj centroj, ktp.) havas laŭtparolilojn kun fona muziko. Ĉi tiu fona melodio povas, ekzemple, inkluzivi datumojn por konekti al reto Wi-Fi sen bezono de pliaj agoj.

La ĝeneralaj trajtoj de akustika datumtranssendo fariĝis klaraj al ni; nun ni transiru al detala studo de la strukturo de ĉi tiu sistemo.

Sistema Priskribo

La enkonduko de datenoj en la melodion okazas pro frekvenca maskado. En temponiĉoj, maskaj frekvencoj estas identigitaj kaj OFDM-subaviad-kompanioj proksimaj al tiuj maskaj elementoj estas plenigitaj kun datenoj.

Legado inter la notoj: la datumtranssendosistemo ene de muziko
Bildo n-ro 1: Konverti la originalan dosieron en kunmetitan signalon (melodio + datumoj) transdonitan per la laŭtparoliloj.

Komence, la origina sonsignalo estas dividita en sinsekvajn segmentojn por analizo. Ĉiu tia segmento (Hi) de L = 8820 specimenoj, egala al 200 ms, estas multobligita per fenestro* por minimumigi limajn efikojn.

Fenestro* estas peza funkcio uzata por kontroli efikojn pro flankloboj en spektraj taksoj.

Poste, la dominaj frekvencoj de la origina signalo estis detektitaj en la intervalo de 500 Hz ĝis 9.8 kHz, kio ebligis akiri maskajn frekvencojn fM,l por ĉi tiu segmento. Krome, datenoj estis elsenditaj en malgranda intervalo de 9.8 ĝis 10 kHz por establi la lokon de la subaviad-kompanioj ĉe la ricevilo. La supra limo de la frekvencintervalo uzita estis fiksita al 10 kHz pro la malalta sentemo de saĝtelefonaj mikrofonoj ĉe altfrekvencoj.

Maskfrekvencoj estis determinitaj por ĉiu analizita segmento individue. Uzante la metodon HPS (Harmonic Product Spectrum), la tri dominaj frekvencoj estis identigitaj kaj tiam rondigitaj al la plej proksimaj notoj sur la harmonia kromata skalo. Tiel estis akiritaj la ĉefaj notoj fF,i = 1...3, kuŝantaj inter la klavoj C0 (16.35 Hz) kaj B0 (30.87 Hz). Surbaze de tio, ke la fundamentaj notoj estas tro malaltaj por uzo en transdono de datumoj, iliaj pli altaj oktavoj 500kfF,i estis kalkulitaj en la intervalo 9.8 Hz ... 2 kHz. Multaj el tiuj frekvencoj (fO,l1) estis pli okulfrapaj pro la naturo de la HPS.

Legado inter la notoj: la datumtranssendosistemo ene de muziko
Bildo #2: Kalkulitaj oktavoj fO,l1 por la fundamentaj notoj kaj harmonoj fH,l2 de la plej forta tono.

La rezulta aro de oktavoj kaj harmonoj estis utiligita kiel maskaj frekvencoj, de kiuj la OFDM-subportofrekvencoj fSC,k estis derivitaj. Du subaviad-kompanioj estis enigitaj sub kaj super ĉiu maskanta frekvenco.

Poste, la spektro de la Hi-aŭdsegmento estis filtrita ĉe subportumaj frekvencoj fSC,k. Post tio, OFDM-simbolo estis kreita surbaze de la informbitoj en Bi, pro kiu la kunmetita segmento Ci povus esti elsendita tra la parolanto. La grandecoj kaj fazoj de la subportantoj devas esti elektitaj tiel ke la ricevilo povas ĉerpi la elsenditajn datenojn dum la aŭskultanto ne rimarkas ŝanĝojn en la melodio.

Legado inter la notoj: la datumtranssendosistemo ene de muziko
Bildo n-ro 3: parto de la spektro kaj subportumaj frekvencoj de la Hi-segmento de la origina melodio.

Kiam sonsignalo kun informoj koditaj en ĝi estas ludata per laŭtparoliloj, la mikrofono de la ricevanta aparato registras ĝin. Por trovi la komencajn poziciojn de enigitaj OFDM-simboloj, la rekordoj unue devas esti bandpas filtritaj. Tiamaniere, la supra frekvencintervalo estas ĉerpita, kie ekzistas neniuj muzikaj interfersignaloj inter subaviad-kompanioj. Vi povas trovi la komencon de OFDM-simboloj uzante ciklan prefikson.

Post detektado de la komenco de OFDM-simboloj, la ricevilo akiras informojn pri la plej dominaj notoj per altfrekvenca domajna malkodado. Krome, OFDM estas sufiĉe rezistema al mallarĝbendaj interferfontoj, ĉar ili nur influas kelkajn el la subaviad-kompanioj.

Praktikaj provoj

La KRK Rokit 8-parolilo funkciis kiel la fonto de la modifitaj melodioj, kaj la Nexus 5X-saĝtelefono ludis la rolon de la ricevanta partio.

Legado inter la notoj: la datumtranssendosistemo ene de muziko
Bildo #4: Diferenco inter realaj OFDM kaj korelaciaj pintoj mezuritaj endome je 5m inter laŭtparolilo kaj mikrofono.

Plej multaj OFDM-punktoj situas en la intervalo de 0 ĝis 25 ms, do vi povas trovi validan komencon ene de la 66.6 ms cikla prefikso. La esploristoj rimarkas, ke la ricevilo (en ĉi tiu eksperimento, inteligenta telefono) konsideras, ke OFDM-simboloj periode ludas, kio plibonigas ilian detekton.

La unua afero por kontroli estis la efiko de distanco sur bita eraroprocento (BER). Por fari tion, tri provoj estis faritaj en diversaj specoj de ĉambroj: koridoro kun tapiŝo, oficejo kun linoleumo sur la planko, kaj aŭditorio kun ligna planko.


La kanto elektita kiel la testobjekto estis "And The Cradle Will Rock" de Van Halen.

La sonvolumo estis ĝustigita tiel ke la sonnivelo mezurita de la inteligenta telefono je distanco de 2 m de la laŭtparolilo estis 63 dB.

Legado inter la notoj: la datumtranssendosistemo ene de muziko
Bildo n-ro 5: BER-indikiloj depende de la distanco inter la parolanto kaj la mikrofono (blua linio - publiko, verda - koridoro, oranĝa - oficejo).

En la koridoro, sono de 40 dB estis kaptita de inteligenta telefono je distanco de ĝis 24 metroj de la laŭtparolilo. En la klasĉambro je distanco de 15 m la sono estis 55 dB, kaj en la oficejo je distanco de 8 metroj la nivelo de sono perceptita de la inteligenta telefono atingis 57 dB.

Ĉar la aŭditorio kaj oficejo estas pli resonantaj, malfruaj OFDM-simboleĥoj superas la ciklan prefiksolongon kaj pliigas la BER.

Resonado* - laŭgrada malkresko de sonintenso pro ĝiaj multoblaj reflektadoj.

La esploristoj plue pruvis la ĉiuflankecon de sia sistemo aplikante ĝin al 6 malsamaj kantoj el tri ĝenroj (tabelo malsupre).

Legado inter la notoj: la datumtranssendosistemo ene de muziko
Tabelo n-ro 1: kantoj uzataj en testoj.

Ankaŭ, per la tabelaj datumoj, ni povas vidi la bitratecon kaj bitajn erarojn por ĉiu kanto. La datentarifoj estas malsamaj ĉar diferenciga BPSK (fazŝanĝa klavado) funkcias pli bone kiam la samaj subaviad-kompanioj estas uzitaj. Kaj ĉi tio eblas kiam apudaj segmentoj enhavas la samajn maskajn elementojn. Daŭre laŭtaj kantoj provizas optimuman bazon por kaŝado de datumoj ĉar la maskaj frekvencoj estas pli forte ĉeestantaj en larĝa frekvenca gamo. Rapida muziko povas nur parte maski OFDM-simbolojn pro la fiksa longo de la analiza fenestro.

Poste, homoj komencis testi la sistemon, kiuj devis determini kiu melodio estis originala kaj kiu estis modifita per la informoj enigita en ĝi. Tiucele oni afiŝis 12-sekundajn fragmentojn de kantoj el la tabelo n-ro 1 en speciala retejo.

En la unua eksperimento (E1), ĉiu partoprenanto ricevis aŭ modifitan aŭ originan fragmenton por aŭskulti kaj devis decidi ĉu la fragmento estis originala aŭ modifita. En la dua eksperimento (E2), partoprenantoj povis aŭskulti ambaŭ versiojn tiom da fojoj kiom ili volis, kaj tiam decidi, kiu estis originala kaj kiu estis modifita.

Legado inter la notoj: la datumtranssendosistemo ene de muziko
Tabelo n-ro 2: rezultoj de eksperimentoj E1 kaj E2.

La rezultoj de la unua eksperimento havas du indikilojn: p(O|O) - la procento de partoprenantoj kiuj ĝuste markis la originan melodion kaj p(O|M) - la procento de partoprenantoj kiuj markis la modifitan version de la melodio kiel originala.

Interese, ke iuj partoprenantoj, laŭ la esploristoj, konsideris iujn ŝanĝitajn melodiojn pli originalaj ol la originalo mem. La mezumo de ambaŭ eksperimentoj sugestas ke la averaĝa aŭskultanto ne rimarkus diferencon inter regula melodio kaj unu en kiu datumoj estis enigitaj.

Kompreneble, muzikfakuloj kaj muzikistoj povos detekti kelkajn erarojn kaj suspektindajn elementojn en la ŝanĝitaj melodioj, sed ĉi tiuj elementoj ne estas tiom signifaj por kaŭzi malkomforton.

Kaj nun ni mem povas partopreni en la eksperimento. Malsupre estas du versioj de la sama melodio - la originala kaj la modifita. Ĉu vi povas aŭdi la diferencon?

Originala versio de la melodio
vs
Modifita versio de la melodio

Por pli detala konatiĝo kun la nuancoj de la studo, mi rekomendas rigardi raporto esplorgrupo.

Vi ankaŭ povas elŝuti ZIP-arkivon de sondosieroj de la originalaj kaj modifitaj melodioj uzataj en la studo ĉe ĉi tiu ligo.

Epilogo

En ĉi tiu laboro, diplomiĝaj studentoj de ETH Zuriko priskribis mirindan datumtranssendosistemon ene de muziko. Por fari tion, ili uzis frekvencan maskadon, kiu ebligis enigi la datumojn en la melodion ludata de la parolanto. Ĉi tiu melodio estas perceptata de la mikrofono de la aparato, kiu rekonas la kaŝitajn datumojn kaj malkodas ĝin, dum la averaĝa aŭskultanto eĉ ne rimarkos la diferencon. En la estonteco, la infanoj planas evoluigi sian sistemon, elektante pli altnivelajn metodojn por enkonduki datumojn en audio.

Kiam iu elpensas ion nekutima, kaj plej grave, ion kiu funkcias, ni ĉiam estas feliĉaj. Sed eĉ pli da ĝojo estas, ke ĉi tiu invento estis kreita de junuloj. Scienco ne havas aĝajn limojn. Kaj se junuloj trovas sciencon enuiga, tiam ĝi estas prezentita el malĝusta angulo, por tiel diri. Post ĉio, kiel ni scias, scienco estas mirinda mondo, kiu neniam ĉesas miri.

Vendredo ekstere:


Ĉar ni parolas pri muziko, aŭ pli ĝuste rok-muziko, jen mirinda vojaĝo tra la vastaĵoj de roko.


Reĝino, "Radio Ga Ga" (1984).

Dankon pro legado, restu scivolemaj kaj havu bonegan semajnfinon! 🙂

Dankon pro restado ĉe ni. Ĉu vi ŝatas niajn artikolojn? Ĉu vi volas vidi pli interesan enhavon? Subtenu nin farante mendon aŭ rekomendante al amikoj, 30% rabato por uzantoj de Habr sur unika analogo de enirnivelaj serviloj, kiu estis inventita de ni por vi: La tuta vero pri VPS (KVM) E5-2650 v4 (6 Kernoj) 10GB DDR4 240GB SSD 1Gbps de $ 20 aŭ kiel dividi servilon? (havebla kun RAID1 kaj RAID10, ĝis 24 kernoj kaj ĝis 40GB DDR4).

Dell R730xd 2 fojojn pli malmultekosta? Nur ĉi tie 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 televidilo ekde 199 USD en Nederlando! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - ekde $99! Legu pri Kiel konstrui infrastrukturan korpon. klaso kun la uzo de serviloj Dell R730xd E5-2650 v4 valorantaj 9000 eŭrojn por centono?

fonto: www.habr.com

Aldoni komenton