Lukeminen nuottien välistä: tiedonsiirtojärjestelmä musiikin sisällä

Lukeminen nuottien välistä: tiedonsiirtojärjestelmä musiikin sisällä

Ilmaise mitä sanat eivät voi välittää; tuntea monenlaisia ​​tunteita kietoutuneena tunteiden hurrikaaniin; irtautua maasta, taivaasta ja jopa itse maailmankaikkeudesta, lähteä matkalle, jossa ei ole karttoja, teitä, ei merkkejä; keksiä, kertoa ja kokea koko tarina, joka pysyy aina ainutlaatuisena ja jäljittelemättömänä. Kaiken tämän pystyy tekemään musiikki - taide, joka on ollut olemassa tuhansia vuosia ja ilahduttaa korviamme ja sydäntämme.

Musiikki tai pikemminkin musiikkiteokset voivat kuitenkin palvella paitsi esteettistä nautintoa myös niihin koodatun, jollekin laitteelle tarkoitetun ja kuuntelijalle näkymätön tiedon välittämiseen. Tänään tutustumme hyvin epätavalliseen tutkimukseen, jossa ETH Zürichin jatko-opiskelijat pystyivät ihmiskorvan huomaamatta tuomaan musiikkiteoksiin tiettyä dataa, jonka ansiosta itse musiikista tulee tiedonsiirtokanava. Miten he tarkastivat teknologiansa käyttöön, ovatko melodiat upotetun datan kanssa ja ilman hyvin erilaisia, ja mitä käytännön testit osoittivat? Opimme tästä tutkijoiden raportista. Mennä.

Tutkimuspohja

Tutkijat kutsuvat tekniikkaansa akustiseksi tiedonsiirtotekniikaksi. Kun puhuja soittaa modifioitua melodiaa, ihminen näkee sen normaalina, mutta esimerkiksi älypuhelin pystyy lukemaan koodattua tietoa rivien välistä tai niin sanotusti nuottien välistä. Tiedemiehet (se, että nämä kaverit ovat edelleen jatko-opiskelijoita, ei estä heitä olemasta tiedemiehiä) kutsuvat lähetyksen nopeutta ja luotettavuutta säilyttäen samalla näiden parametrien tason valitusta äänitiedostosta riippumatta tärkeimmäksi aspektiksi ohjelman toteutuksessa. tätä tiedonsiirtotekniikkaa. Psykoakustiikka, joka tutkii ihmisen äänihavainnon psykologisia ja fysiologisia puolia, auttaa selviytymään tästä tehtävästä.

Akustisen tiedonsiirron ydintä voidaan kutsua OFDM:ksi (orthogonal Frequency Division Multiplexing), joka yhdessä alikantoaaltojen mukauttamisen lähdemusiikkiin ajan myötä mahdollisti lähetetyn taajuusspektrin maksimaalisen hyödyntämisen tiedonsiirtoon. Tämän ansiosta oli mahdollista saavuttaa 412 bps:n siirtonopeus jopa 24 metrin etäisyydellä (virheprosentti < 10 %). Käytännön kokeet, joihin osallistui 40 vapaaehtoista, vahvistivat sen tosiasian, että on lähes mahdotonta kuulla eroa alkuperäisen melodian ja sen melodian välillä, johon tieto oli upotettu.

Missä tätä tekniikkaa voidaan soveltaa käytännössä? Tutkijoilla on oma vastaus: melkein kaikki nykyaikaiset älypuhelimet, kannettavat tietokoneet ja muut kädessä pidetyt laitteet on varustettu mikrofonilla, ja monilla julkisilla paikoilla (kahviloissa, ravintoloissa, ostoskeskuksissa jne.) on taustamusiikkikaiuttimet. Tämä taustamelodia voi sisältää esimerkiksi dataa Wi-Fi-verkkoon yhdistämiseksi ilman lisätoimia.

Akustisen tiedonsiirron yleiset piirteet ovat tulleet meille selväksi, siirrytään nyt tämän järjestelmän rakenteen yksityiskohtaiseen tutkimukseen.

Järjestelmän kuvaus

Datan tuominen melodiaan tapahtuu taajuuden peittämisen vuoksi. Aikaväleissä maskaustaajuudet tunnistetaan ja näitä peiteelementtejä lähellä olevat OFDM-alikantoaallot täytetään tiedolla.

Lukeminen nuottien välistä: tiedonsiirtojärjestelmä musiikin sisällä
Kuva #1: Alkuperäisen tiedoston muuntaminen yhdistelmäsignaaliksi (melodia + data), joka lähetetään kaiuttimien kautta.

Aluksi alkuperäinen audiosignaali jaetaan peräkkäisiin segmentteihin analysointia varten. Jokainen tällainen segmentti (Hi) L = 8820 näytteestä, joka vastaa 200 ms, kerrotaan ikkuna* rajavaikutusten minimoimiseksi.

Ikkuna* on painotusfunktio, jota käytetään kontrolloimaan sivukeiloista johtuvia vaikutuksia spektriestimaateissa.

Seuraavaksi havaittiin alkuperäisen signaalin hallitsevat taajuudet välillä 500 Hz - 9.8 kHz, mikä mahdollisti maskaustaajuuksien fM,l saamisen tälle segmentille. Lisäksi dataa lähetettiin pienellä alueella 9.8 - 10 kHz apukantoaaltojen sijainnin määrittämiseksi vastaanottimessa. Käytetyn taajuusalueen ylärajaksi asetettiin 10 kHz älypuhelinmikrofonien alhaisen herkkyyden vuoksi korkeilla taajuuksilla.

Peittotaajuudet määritettiin kullekin analysoidulle segmentille erikseen. HPS (Harmonic Product Spectrum) -menetelmää käyttäen tunnistettiin kolme hallitsevaa taajuutta ja pyöristettiin sitten harmonisen kromaattisen asteikon lähimpään säveleen. Näin saatiin päääänet fF,i = 1…3, jotka sijaitsevat näppäinten C0 (16.35 Hz) ja B0 (30.87 Hz) välissä. Sen perusteella, että perusäänet ovat liian matalat käytettäväksi tiedonsiirrossa, niiden korkeammat oktaavit 500kfF,i laskettiin 9.8 Hz ... 2 kHz alueelle. Monet näistä taajuuksista (fO,l1) olivat voimakkaampia HPS:n luonteen vuoksi.

Lukeminen nuottien välistä: tiedonsiirtojärjestelmä musiikin sisällä
Kuva #2: Lasketut oktaavit fO,l1 vahvimman äänen perussävelille ja harmonisille fH,l2.

Tuloksena saatua joukkoa oktaaveja ja harmonisia käytettiin maskitaajuuksina, joista johdettiin OFDM-alikantoaaltojen taajuudet fSC,k. Kaksi apukantoaaltoa lisättiin kunkin peitetaajuuden alle ja yläpuolelle.

Seuraavaksi Hi-audiosegmentin spektri suodatettiin apukantoaaltojen taajuuksilla fSC,k. Tämän jälkeen luotiin Bi:n informaatiobittien perusteella OFDM-symboli, jonka ansiosta komposiittisegmentti Ci voitiin lähettää kaiuttimen kautta. Apukantoaaltojen suuruudet ja vaiheet on valittava siten, että vastaanotin voi poimia lähetetyn datan, kun kuuntelija ei huomaa muutoksia melodiassa.

Lukeminen nuottien välistä: tiedonsiirtojärjestelmä musiikin sisällä
Kuva nro 3: osa alkuperäisen melodian Hi-segmentin spektriä ja apukantoaaltojen taajuuksia.

Kun äänisignaali, johon on koodattu tietoa, toistetaan kaiuttimien kautta, vastaanottavan laitteen mikrofoni tallentaa sen. Upotettujen OFDM-symbolien aloituspaikan löytämiseksi tietueet on ensin kaistanpäästösuodatettava. Tällä tavalla poimitaan ylempi taajuusalue, jossa apukantoaaltojen välillä ei ole musiikillisia häiriösignaaleja. Löydät OFDM-symbolien alun käyttämällä syklistä etuliitettä.

Havaittuaan OFDM-symbolien alun vastaanotin saa tietoa hallitsevimmista sävelistä suurtaajuusalueen dekoodauksen avulla. Lisäksi OFDM on melko kestävä kapeakaistaisille häiriölähteille, koska ne vaikuttavat vain joihinkin alikantoaaltoisiin.

Käytännön kokeet

KRK Rokit 8 -kaiutin toimi modifioitujen melodioiden lähteenä ja Nexus 5X -älypuhelin vastaanottavana osapuolena.

Lukeminen nuottien välistä: tiedonsiirtojärjestelmä musiikin sisällä
Kuva 4: Ero todellisen OFDM:n ja korrelaatiohuippujen välillä mitattuna sisätiloissa 5 metrin etäisyydeltä kaiuttimen ja mikrofonin välillä.

Useimmat OFDM-pisteet ovat alueella 0–25 ms, joten voit löytää kelvollisen alun 66.6 ms:n syklisestä etuliitteestä. Tutkijat huomauttavat, että vastaanotin (tässä kokeessa älypuhelin) ottaa huomioon, että OFDM-symbolit toistetaan ajoittain, mikä parantaa niiden havaitsemista.

Ensimmäinen asia, joka tarkistettiin, oli etäisyyden vaikutus bittivirhesuhteeseen (BER). Tätä varten tehtiin kolme testiä erityyppisissä huoneissa: käytävällä matto, toimistossa, jossa oli linoleumi lattialla, ja auditoriossa puulattialla.


Testikohteeksi valittiin Van Halenin ”And The Cradle Will Rock”.

Äänenvoimakkuus säädettiin siten, että älypuhelimen mittaama äänitaso 2 metrin etäisyydellä kaiuttimesta oli 63 dB.

Lukeminen nuottien välistä: tiedonsiirtojärjestelmä musiikin sisällä
Kuva nro 5: BER-ilmaisimet riippuen kaiuttimen ja mikrofonin välisestä etäisyydestä (sininen viiva - yleisö, vihreä - käytävä, oranssi - toimisto).

Käytävällä älypuhelin poimi 40 dB:n äänen jopa 24 metrin etäisyydeltä kaiuttimesta. Luokkahuoneessa 15 metrin etäisyydellä ääni oli 55 dB ja toimistossa 8 metrin etäisyydellä älypuhelimen havaitseman äänen taso oli 57 dB.

Koska auditorio ja toimisto ovat kaikuvampia, myöhäiset OFDM-symbolien kaiut ylittävät syklisen etuliitepituuden ja lisäävät BER:ää.

Jälkikaiunta* - äänen voimakkuuden asteittainen lasku sen moninkertaisten heijastusten vuoksi.

Tutkijat osoittivat lisäksi järjestelmänsä monipuolisuutta soveltamalla sitä kuuteen eri kappaleeseen kolmesta genrestä (taulukko alla).

Lukeminen nuottien välistä: tiedonsiirtojärjestelmä musiikin sisällä
Taulukko 1: testeissä käytetyt kappaleet.

Taulukkotietojen kautta voimme myös nähdä kunkin kappaleen bittinopeuden ja bittivirhesuhteet. Datanopeudet ovat erilaisia, koska differentiaalinen BPSK (phase shift keying) toimii paremmin, kun käytetään samoja apukantoaaltoja. Ja tämä on mahdollista, kun vierekkäiset segmentit sisältävät samat peiteelementit. Jatkuvasti äänekkäät kappaleet tarjoavat optimaalisen pohjan tietojen piilottamiseen, koska maskitaajuudet ovat voimakkaammin läsnä laajalla taajuusalueella. Nopeatempoinen musiikki voi peittää OFDM-symbolit vain osittain analyysiikkunan kiinteän pituuden vuoksi.

Seuraavaksi ihmiset alkoivat testata järjestelmää, ja heidän täytyi määrittää, mikä melodia oli alkuperäinen ja mitä siihen upotettu tieto muunsi. Tätä tarkoitusta varten 12 sekunnin pituiset otteet kappaleista taulukosta nro 1 julkaistiin erityiselle verkkosivustolle.

Ensimmäisessä kokeessa (E1) jokaiselle osallistujalle annettiin joko muokattu tai alkuperäinen fragmentti kuunneltavaksi ja hänen oli päätettävä, oliko fragmentti alkuperäinen vai modifioitu. Toisessa kokeessa (E2) osallistujat saattoivat kuunnella molempia versioita niin monta kertaa kuin halusivat ja päättää sitten kumpi oli alkuperäinen ja kumpi muokattu.

Lukeminen nuottien välistä: tiedonsiirtojärjestelmä musiikin sisällä
Taulukko 2: kokeiden E1 ja E2 tulokset.

Ensimmäisen kokeen tuloksilla on kaksi indikaattoria: p(O|O) - niiden osallistujien prosenttiosuus, jotka merkitsivät oikein alkuperäisen melodian ja p(O|M) - niiden osallistujien prosenttiosuus, jotka merkitsivät sävelmän muunnetun version alkuperäiseksi.

Mielenkiintoista on, että jotkut osallistujat pitivät tutkijoiden mukaan tiettyjä muunnettuja melodioita alkuperäistä itseään alkuperäisempinä. Molempien kokeiden keskiarvo viittaa siihen, että keskivertokuuntelija ei huomaa eroa tavallisen melodian ja sellaisen melodian välillä, johon on upotettu data.

Luonnollisesti musiikin asiantuntijat ja muusikot pystyvät havaitsemaan muuttuneista melodioista joitain epätarkkuuksia ja epäilyttäviä elementtejä, mutta nämä elementit eivät ole niin merkittäviä, että ne aiheuttaisivat epämukavuutta.

Ja nyt voimme itse osallistua kokeiluun. Alla on kaksi versiota samasta melodiasta - alkuperäinen ja muokattu. Kuuletko eron?

Alkuperäinen versio melodiasta
vs
Muokattu versio melodiasta

Jos haluat tutustua tarkemmin tutkimuksen vivahteisiin, suosittelen katsomaan raportti tutkimusryhmä.

Voit myös ladata ZIP-arkiston tutkimuksessa käytettyjen alkuperäisten ja muokattujen kappaleiden äänitiedostoista osoitteesta linkki.

Epilogi

Tässä työssä ETH Zürichin jatko-opiskelijat kuvasivat hämmästyttävää musiikin tiedonsiirtojärjestelmää. Tätä varten he käyttivät taajuuden peittämistä, mikä mahdollisti tiedon upotamisen kaiuttimen soittamaan melodiaan. Tämän melodian havaitsee laitteen mikrofoni, joka tunnistaa piilotetut tiedot ja purkaa sen, kun taas tavallinen kuuntelija ei edes huomaa eroa. Tulevaisuudessa kaverit aikovat kehittää järjestelmäänsä valitsemalla kehittyneempiä menetelmiä datan tuomiseksi ääneen.

Kun joku keksii jotain epätavallista, ja mikä tärkeintä, jotain toimivaa, olemme aina iloisia. Mutta vielä suurempi ilo on, että tämän keksinnön ovat luoneet nuoret. Tieteellä ei ole ikärajoituksia. Ja jos nuorten mielestä tiede on tylsää, niin se esitetään niin sanotusti väärästä näkökulmasta. Loppujen lopuksi, kuten tiedämme, tiede on hämmästyttävä maailma, joka ei koskaan lakkaa hämmästyttämästä.

Perjantain off-top:


Koska puhumme musiikista tai pikemminkin rock-musiikista, tässä on upea matka rockin avaruudessa.


Queen, "Radio Ga Ga" (1984).

Kiitos kun luit, pysy utelias ja hyvää viikonloppua kaverit! 🙂

Kiitos, että pysyt kanssamme. Pidätkö artikkeleistamme? Haluatko nähdä mielenkiintoisempaa sisältöä? Tue meitä tekemällä tilauksen tai suosittelemalla ystäville, 30 %:n alennus Habr-käyttäjille ainutlaatuisesta lähtötason palvelimien analogista, jonka me keksimme sinulle: Koko totuus VPS (KVM) E5-2650 v4 (6 ydintä) 10 Gt DDR4 240 Gt SSD 1 Gbps alkaen 20 dollarista tai kuinka jakaa palvelin? (saatavana RAID1:n ja RAID10:n kanssa, jopa 24 ydintä ja jopa 40 Gt DDR4-muistia).

Dell R730xd 2 kertaa halvempi? Vain täällä 2 x Intel TetraDeca-Core Xeon 2 x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV alkaen 199 dollaria Alankomaissa! Dell R420 - 2x E5-2430 2.2 Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - alkaen 99 dollaria! Lukea Kuinka rakentaa infrastruktuuriyritys. luokkaa Dell R730xd E5-2650 v4 -palvelimilla 9000 euron arvosta penniä vastaan?

Lähde: will.com

Lisää kommentti