Að lesa á milli nótna: gagnaflutningskerfið innan tónlistar

Að lesa á milli nótna: gagnaflutningskerfið innan tónlistar

Tjáðu það sem orð geta ekki komið á framfæri; finna fyrir margs konar tilfinningum samtvinnuð í fellibyl tilfinninga; að slíta sig frá jörðinni, himninum og jafnvel alheiminum sjálfum, fara í ferðalag þar sem engin kort eru, engir vegir, engin merki; finna upp, segja og upplifa heila sögu sem verður alltaf einstök og óviðjafnanleg. Allt þetta er hægt að gera með tónlist - list sem hefur verið til í mörg þúsund ár og gleður eyru okkar og hjörtu.

Hins vegar getur tónlist, eða réttara sagt tónlistarverk, þjónað ekki aðeins fagurfræðilegri ánægju, heldur einnig til miðlunar upplýsinga sem eru kóðaðar í þeim, ætluð einhverjum tæki og ósýnilegar hlustandanum. Í dag munum við kynnast mjög óvenjulegri rannsókn þar sem útskriftarnemendur frá ETH Zürich gátu, án þess að mannseyra tók eftir, innleitt ákveðin gögn í tónlistarverk, þar sem tónlistin sjálf verður gagnaflutningsrás. Hvernig nákvæmlega innleiddu þeir tækni sína, eru laglínurnar með og án innbyggðu gagna mjög ólíkar og hvað sýndu verklegar prófanir? Við lærum um þetta af skýrslu rannsakenda. Farðu.

Rannsóknargrundvöllur

Rannsakendur kalla tækni sína hljóðræna gagnaflutningstækni. Þegar hátalari spilar breytta laglínu finnst manni það eðlilegt, en til dæmis getur snjallsími lesið kóðaðar upplýsingar á milli línanna, eða réttara sagt á milli nótna, ef svo má segja. Vísindamenn (sú staðreynd að þessir krakkar eru enn framhaldsnemar kemur ekki í veg fyrir að þeir séu vísindamenn) kalla hraða og áreiðanleika sendingar á meðan þeim er viðhaldið stigi þessara breytu, óháð valinni hljóðskrá, sem mikilvægasta þáttinn í útfærslu á þessa gagnaflutningstækni. Psychoacoustics, sem rannsakar sálfræðilegar og lífeðlisfræðilegar hliðar skynjunar mannsins á hljóðum, hjálpar til við að takast á við þetta verkefni.

Kjarninn í hljóðrænum gagnaflutningi má kalla OFDM (orthogonal frequency division multiplexing), sem ásamt aðlögun undirberja að upprunatónlistinni með tímanum, gerði það að verkum að hægt var að nýta útsenda tíðnirófið sem mest til upplýsingaflutnings. Þökk sé þessu var hægt að ná sendingarhraða upp á 412 bps yfir allt að 24 metra fjarlægð (villuhlutfall < 10%). Hagnýtar tilraunir með 40 sjálfboðaliðum staðfestu þá staðreynd að það er nánast ómögulegt að heyra muninn á upprunalegu laginu og þeirri sem upplýsingarnar voru felldar inn í.

Hvar er hægt að beita þessari tækni í reynd? Vísindamenn hafa sitt eigið svar: næstum allir nútíma snjallsímar, fartölvur og önnur handtölvur eru með hljóðnemum og margir opinberir staðir (kaffihús, veitingastaðir, verslunarmiðstöðvar osfrv.) eru með hátalara með bakgrunnstónlist. Þetta bakgrunnslag getur til dæmis innihaldið gögn til að tengjast Wi-Fi neti án þess að þörf sé á frekari aðgerðum.

Almennir eiginleikar hljóðgagnaflutnings hafa orðið okkur ljós; nú skulum við halda áfram að ítarlegri rannsókn á uppbyggingu þessa kerfis.

Kerfislýsing

Innleiðing gagna inn í laglínuna á sér stað vegna tíðnigrímu. Í tímaraufum eru grímutíðni auðkennd og OFDM undirberar nálægt þessum grímuþáttum eru fylltir með gögnum.

Að lesa á milli nótna: gagnaflutningskerfið innan tónlistar
Mynd #1: Umbreytir upprunalegu skránni í samsett merki (lag + gögn) sem sent er í gegnum hátalarana.

Til að byrja með er upprunalega hljóðmerkinu skipt í röð hluta til greiningar. Hver slíkur hluti (Hi) af L = 8820 sýnum, jafnt og 200 ms, er margfaldaður með gluggi* til að lágmarka landamæraáhrif.

Gluggi* er vogunaraðgerð sem notuð er til að stjórna áhrifum vegna hliðarsnefa í litrófsmati.

Næst greindust ríkjandi tíðnir upprunalega merkisins á bilinu frá 500 Hz til 9.8 kHz, sem gerði það mögulegt að fá grímutíðni fM,l fyrir þennan hluta. Að auki voru gögn send á litlu bili frá 9.8 til 10 kHz til að ákvarða staðsetningu undirberanna við móttakandann. Efri mörk tíðnisviðsins sem notað var voru stillt á 10 kHz vegna lítillar næmni snjallsímahljóðnema á háum tíðnum.

Grímunartíðni var ákvörðuð fyrir hvern greindan hluta fyrir sig. Með því að nota HPS (Harmonic Product Spectrum) aðferðina voru þrjár ríkjandi tíðnirnar auðkenndar og þær síðan rúnaðar að næstu nótum á harmonicchromatic skalanum. Þannig fengust aðaltónarnir fF,i = 1…3, sem liggja á milli takkanna C0 (16.35 Hz) og B0 (30.87 Hz). Byggt á þeirri staðreynd að grunnnóturnar eru of lágar til að nota við gagnaflutning, voru hærri áttundir þeirra 500kfF,i reiknaðar á bilinu 9.8 Hz ... 2 kHz. Margar þessara tíðna (fO,l1) voru meira áberandi vegna eðlis HPS.

Að lesa á milli nótna: gagnaflutningskerfið innan tónlistar
Mynd #2: Reiknaðar áttundir fO,l1 fyrir grunnnóturnar og harmonikkurnar fH,l2 í sterkasta tóninum.

Samlagið af áttundum og harmonikum sem myndast var notað sem grímutíðni, þaðan sem OFDM undirburðartíðnin fSC,k voru fengnar. Tveir undirberar voru settir fyrir neðan og fyrir ofan hverja grímutíðni.

Næst var litróf Hi-hljóðhlutasins síað við undirburðartíðni fSC,k. Eftir það var búið til OFDM tákn byggt á upplýsingabitunum í Bi, þar sem hægt var að senda samsetta hluti Ci í gegnum hátalarann. Velja þarf stærð og fasa undirberanna þannig að viðtakandinn geti dregið út send gögn á meðan hlustandinn tekur ekki eftir breytingum á laglínunni.

Að lesa á milli nótna: gagnaflutningskerfið innan tónlistar
Mynd nr. 3: hluti af litrófinu og undirburðartíðni Hi-hluta upprunalegu lagsins.

Þegar hljóðmerki með upplýsingum kóðaðar í það er spilað í gegnum hátalara tekur hljóðnemi móttökutækisins það upp. Til að finna upphafsstöður innbyggðra OFDM tákna þarf fyrst að sía færslurnar með bandpass. Þannig er efra tíðnisviðið dregið út þar sem engin tónlistartruflumerki eru á milli undirbera. Þú getur fundið upphaf OFDM tákna með því að nota hringlaga forskeyti.

Eftir að hafa fundið upphaf OFDM tákna fær móttakandinn upplýsingar um ríkustu nóturnar með hátíðni lénsafkóðun. Að auki er OFDM nokkuð ónæmur fyrir þröngbandstruflunum, þar sem þeir hafa aðeins áhrif á suma undirberanna.

Verkleg próf

KRK Rokit 8 hátalarinn virkaði sem uppspretta breyttu laglínunnar og Nexus 5X snjallsíminn gegndi hlutverki móttökuaðilans.

Að lesa á milli nótna: gagnaflutningskerfið innan tónlistar
Mynd #4: Mismunur á raunverulegum OFDM og fylgnitoppum mældir innandyra á 5m milli hátalara og hljóðnema.

Flestir OFDM punktar liggja á bilinu frá 0 til 25 ms, svo þú getur fundið gilda byrjun innan 66.6 ms hringlaga forskeytsins. Rannsakendur taka fram að móttakarinn (í þessari tilraun, snjallsími) tekur tillit til þess að OFDM tákn eru spiluð reglulega, sem bætir uppgötvun þeirra.

Það fyrsta sem þarf að athuga var áhrif fjarlægðar á bitvilluhlutfall (BER). Til þess voru gerðar þrjár prófanir í mismunandi gerðum herbergja: gang með teppi, skrifstofu með línóleum á gólfi og sal með viðargólfi.


Lagið „And The Cradle Will Rock“ eftir Van Halen var valið sem prófunarefni.

Hljóðstyrkurinn var stilltur þannig að hljóðstyrkur snjallsímans í 2 m fjarlægð frá hátalara var 63 dB.

Að lesa á milli nótna: gagnaflutningskerfið innan tónlistar
Mynd nr. 5: BER vísar eftir fjarlægð milli hátalara og hljóðnema (blá lína - áhorfendur, grænn - gangur, appelsínugulur - skrifstofa).

Á ganginum heyrðist 40 dB hljóð í snjallsíma í allt að 24 metra fjarlægð frá hátalaranum. Í kennslustofunni í 15 m fjarlægð var hljóðið 55 dB og á skrifstofunni í 8 metra fjarlægð náði hljóðstigið sem snjallsíminn skynjaði 57 dB.

Vegna þess að salurinn og skrifstofan eru endurómandi, fara seint OFDM tákn bergmál yfir hringlaga forskeytslengdina og auka BER.

Ómur* - smám saman lækkun á hljóðstyrk vegna margfaldrar endurkasts þess.

Rannsakendur sýndu enn frekar fram á fjölhæfni kerfis þeirra með því að nota það á 6 mismunandi lög úr þremur tegundum (tafla hér að neðan).

Að lesa á milli nótna: gagnaflutningskerfið innan tónlistar
Tafla nr. 1: lög notuð í prófum.

Einnig, í gegnum töflugögnin, getum við séð bitahraða og bitavilluhlutfall fyrir hvert lag. Gagnahraðinn er mismunandi vegna þess að mismunadrifið BPSK (phase shift keying) virkar betur þegar sömu undirberi eru notuð. Og þetta er mögulegt þegar aðliggjandi hlutar innihalda sömu grímuþættina. Stöðugt hávær lög veita ákjósanlegan grunn til að fela gögn vegna þess að grímutíðnin eru sterkari til staðar á breitt tíðnisvið. Hröð tónlist getur aðeins dulið OFDM tákn að hluta vegna fastrar lengdar greiningargluggans.

Því næst byrjaði fólk að prófa kerfið, sem þurfti að ákvarða hvaða lag væri upprunalegt og hver var breytt með upplýsingum sem felast í því. Í því skyni voru 12 sekúndna útdrættir af lögum af borði nr. 1 settir á sérstaka vefsíðu.

Í fyrstu tilrauninni (E1) fékk hver þátttakandi annað hvort breytt eða frumlegt brot til að hlusta á og þurfti að ákveða hvort brotið væri frumlegt eða breytt. Í seinni tilrauninni (E2) gátu þátttakendur hlustað á báðar útgáfurnar eins oft og þeir vildu og síðan ákveðið hvor þeirra væri upprunaleg og hvor var breytt.

Að lesa á milli nótna: gagnaflutningskerfið innan tónlistar
Tafla nr. 2: niðurstöður tilrauna E1 og E2.

Niðurstöður fyrstu tilraunarinnar hafa tvær vísbendingar: p(O|O) - hlutfall þátttakenda sem merktu upprunalega laglínuna rétt og p(O|M) - hlutfall þátttakenda sem merktu breytta útgáfu laglínunnar sem upprunalega.

Athyglisvert er að sumir þátttakendur, að sögn rannsakenda, töldu ákveðnar breyttar laglínur vera frumlegri en frumlagið sjálft. Meðaltal beggja tilraunanna bendir til þess að meðalhlustandi myndi ekki taka eftir mun á venjulegri laglínu og þeirri sem gögn voru felld inn í.

Auðvitað munu tónlistarsérfræðingar og tónlistarmenn geta greint einhverja ónákvæmni og grunsamlega þætti í breyttum laglínum, en þessir þættir eru ekki það mikilvægir að þeir valdi óþægindum.

Og nú getum við sjálf tekið þátt í tilrauninni. Hér að neðan eru tvær útgáfur af sömu laglínunni - upprunalega og breytta. Geturðu heyrt muninn?

Upprunaleg útgáfa af laglínunni
vs
Breytt útgáfa af laglínunni

Fyrir ítarlegri kynningu á blæbrigðum rannsóknarinnar mæli ég með að skoða skýrsla rannsóknarhópur.

Þú getur líka halað niður ZIP skjalasafni með hljóðskrám af upprunalegu og breyttu lagunum sem notaðar voru í rannsókninni á þessi tengill.

Eftirmáli

Í þessari vinnu lýstu útskriftarnemar frá ETH Zurich mögnuðu gagnaflutningskerfi innan tónlistar. Til þess notuðu þeir tíðnigrímu sem gerði það mögulegt að fella gögnin inn í laglínuna sem hátalarinn spilar. Þetta lag er skynjað af hljóðnema tækisins, sem þekkir falin gögn og afkóðar þau, á meðan venjulegur hlustandi tekur ekki einu sinni eftir muninum. Í framtíðinni ætla strákarnir að þróa kerfið sitt og velja fullkomnari aðferðir til að koma gögnum inn í hljóð.

Þegar einhverjum dettur eitthvað óvenjulegt í hug, og síðast en ekki síst, eitthvað sem virkar, erum við alltaf ánægð. En enn meiri gleði er að þessi uppfinning var búin til af ungu fólki. Vísindin hafa engar aldurstakmarkanir. Og ef ungu fólki finnst vísindi leiðinleg, þá er verið að setja þau fram frá röngu sjónarhorni, ef svo má að orði komast. Eftir allt saman, eins og við vitum, eru vísindi ótrúleg heimur sem hættir aldrei að koma á óvart.

Föstudagur off-top:


Þar sem við erum að tala um tónlist, eða réttara sagt rokktónlist, er hér dásamlegt ferðalag um víðáttur rokksins.


Queen, "Radio Ga Ga" (1984).

Takk fyrir að lesa, vertu forvitin og eigið frábæra helgi krakkar! 🙂

Þakka þér fyrir að vera hjá okkur. Líkar þér við greinarnar okkar? Viltu sjá meira áhugavert efni? Styðjið okkur með því að leggja inn pöntun eða mæla með því við vini, 30% afsláttur fyrir Habr notendur á einstökum hliðstæðum upphafsþjónum, sem var fundið upp af okkur fyrir þig: Allur sannleikurinn um VPS (KVM) E5-2650 v4 (6 kjarna) 10GB DDR4 240GB SSD 1Gbps frá $20 eða hvernig á að deila netþjóni? (fáanlegt með RAID1 og RAID10, allt að 24 kjarna og allt að 40GB DDR4).

Dell R730xd 2 sinnum ódýrari? Aðeins hér 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 sjónvarp frá $199 í Hollandi! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - frá $99! Lestu um Hvernig á að byggja upp infrastructure Corp. flokki með notkun Dell R730xd E5-2650 v4 netþjóna að verðmæti 9000 evrur fyrir eyri?

Heimild: www.habr.com

Bæta við athugasemd