Czytanie między nutami: system transmisji danych w muzyce

Czytanie między nutami: system transmisji danych w muzyce

Wyraź to, czego słowa nie mogą przekazać; odczuwaj różnorodne emocje splecione w huraganie uczuć; oderwać się od ziemi, nieba, a nawet samego Wszechświata i wyruszyć w podróż, gdzie nie ma map, dróg, znaków; wymyśl, opowiedz i przeżyj całą historię, która zawsze pozostanie wyjątkowa i niepowtarzalna. Wszystko to można dokonać za pomocą muzyki – sztuki, która istnieje od wielu tysięcy lat i cieszy nasze uszy i serca.

Jednak muzyka, a właściwie dzieła muzyczne, mogą służyć nie tylko przyjemności estetycznej, ale także przekazowi informacji w nich zakodowanej, przeznaczonej dla jakiegoś urządzenia i niewidocznej dla słuchacza. Dziś poznamy bardzo nietypowe badanie, w ramach którego absolwenci ETH Zurich potrafili niezauważalnie dla ludzkiego ucha wprowadzić pewne dane do utworów muzycznych, dzięki czemu sama muzyka staje się kanałem transmisji danych. Jak dokładnie zaimplementowali swoją technologię, czy melodie z wbudowanymi danymi bardzo się różnią i bez nich i co wykazały praktyczne testy? Dowiemy się o tym z raportu badaczy. Iść.

Baza badawcza

Naukowcy nazwali swoją technologię technologią akustycznej transmisji danych. Kiedy głośnik odtwarza zmodyfikowaną melodię, człowiek odbiera to jako coś normalnego, ale np. smartfon potrafi odczytać zakodowaną informację między wierszami, czy raczej, że tak powiem, między nutami. Naukowcy (to, że ci panowie są jeszcze doktorantami, nie przeszkadza im w byciu naukowcami) szybkość i niezawodność transmisji przy zachowaniu poziomu tych parametrów, niezależnie od wybranego pliku audio, uznają za najważniejszy aspekt w realizacji tę technikę przesyłania danych. Psychoakustyka, która bada psychologiczne i fizjologiczne aspekty ludzkiego postrzegania dźwięków, pomaga poradzić sobie z tym zadaniem.

Rdzeń akustycznej transmisji danych można nazwać OFDM (ang. Orthogonal Frequency Division Multiplexing), co wraz z dostosowaniem podnośnych do źródła muzyki w czasie umożliwiło maksymalne wykorzystanie transmitowanego widma częstotliwości do transmisji informacji. Dzięki temu możliwe było osiągnięcie prędkości transmisji 412 bps na dystansie do 24 metrów (stopień błędu < 10%). Praktyczne eksperymenty z udziałem 40 ochotników potwierdziły, że prawie nie da się usłyszeć różnicy pomiędzy melodią pierwotną a tą, w której zawarta była informacja.

Gdzie można zastosować tę technologię w praktyce? Badacze mają własną odpowiedź: prawie wszystkie współczesne smartfony, laptopy i inne urządzenia podręczne są wyposażone w mikrofony, a wiele miejsc publicznych (kawiarnie, restauracje, centra handlowe itp.) ma głośniki z muzyką w tle. Ta melodia tła może na przykład zawierać dane umożliwiające połączenie z siecią Wi-Fi bez konieczności wykonywania dodatkowych czynności.

Ogólne cechy akustycznej transmisji danych stały się dla nas jasne, przejdźmy teraz do szczegółowego zbadania struktury tego systemu.

Opis systemu

Wprowadzenie danych do melodii następuje w wyniku maskowania częstotliwości. W szczelinach czasowych identyfikowane są częstotliwości maskujące i podnośne OFDM w pobliżu tych elementów maskujących są wypełniane danymi.

Czytanie między nutami: system transmisji danych w muzyce
Obraz nr 1: Konwersja oryginalnego pliku na sygnał złożony (melodia + dane) transmitowany przez głośniki.

Na początek oryginalny sygnał audio jest dzielony na kolejne segmenty w celu analizy. Każdy taki segment (Hi) z L = 8820 próbek, równy 200 ms, jest mnożony przez okno* aby zminimalizować efekty brzegowe.

Okno* jest funkcją ważenia stosowaną do kontrolowania efektów spowodowanych listkami bocznymi w szacunkach widmowych.

Następnie wykryto dominujące częstotliwości sygnału pierwotnego w zakresie od 500 Hz do 9.8 kHz, co pozwoliło uzyskać dla tego odcinka częstotliwości maskujące fM,l. Dodatkowo dane transmitowano w niewielkim zakresie od 9.8 do 10 kHz w celu ustalenia lokalizacji podnośnych w odbiorniku. Górną granicę wykorzystywanego zakresu częstotliwości ustalono na 10 kHz ze względu na niską czułość mikrofonów smartfonów przy wysokich częstotliwościach.

Częstotliwości maskowania określono indywidualnie dla każdego analizowanego segmentu. Za pomocą metody HPS (Harmonic Product Spectrum) zidentyfikowano trzy dominujące częstotliwości, a następnie zaokrąglono je do najbliższych nut na harmonicznej skali chromatycznej. W ten sposób uzyskano nuty główne fF,i = 1…3, leżące pomiędzy tonacjami C0 (16.35 Hz) i B0 (30.87 Hz). Wychodząc z faktu, że nuty podstawowe są zbyt niskie do wykorzystania w transmisji danych, obliczono ich wyższe oktawy 500kfF,i w zakresie 9.8 Hz...2 kHz. Wiele z tych częstotliwości (fO, l1) było bardziej wyraźnych ze względu na naturę HPS.

Czytanie między nutami: system transmisji danych w muzyce
Obraz #2: Obliczone oktawy fO,l1 dla nut podstawowych i harmonicznych fH,l2 najsilniejszego tonu.

Powstały zestaw oktaw i harmonicznych wykorzystano jako częstotliwości maskujące, z których wyprowadzono częstotliwości podnośnych OFDM fSC,k. Poniżej i powyżej każdej częstotliwości maskującej wstawiono dwie podnośne.

Następnie widmo segmentu audio Hi zostało przefiltrowane przy częstotliwościach podnośnych fSC,k. Następnie na podstawie bitów informacji w Bi utworzono symbol OFDM, dzięki czemu segment złożony Ci mógł być transmitowany przez głośnik. Wielkość i fazy podnośnych muszą być tak dobrane, aby odbiornik mógł wydobyć przesyłane dane, a słuchacz nie zauważył zmian w melodii.

Czytanie między nutami: system transmisji danych w muzyce
Obraz nr 3: część widma i częstotliwości podnośnych segmentu Hi oryginalnej melodii.

Gdy sygnał audio z zakodowaną w nim informacją odtwarzany jest przez głośniki, mikrofon urządzenia odbiorczego nagrywa go. Aby znaleźć pozycje początkowe osadzonych symboli OFDM, rekordy należy najpierw przefiltrować pasmowo. W ten sposób wyodrębniany jest górny zakres częstotliwości, w którym pomiędzy podnośnymi nie występują muzyczne sygnały zakłócające. Początek symboli OFDM można znaleźć za pomocą cyklicznego przedrostka.

Po wykryciu początku symboli OFDM odbiornik uzyskuje informację o najbardziej dominujących nutach poprzez dekodowanie w domenie wysokiej częstotliwości. Ponadto OFDM jest dość odporny na wąskopasmowe źródła zakłóceń, ponieważ wpływają one tylko na niektóre podnośne.

Testy praktyczne

Źródłem modyfikowanych melodii był głośnik KRK Rokit 8, a stroną odbiorczą był smartfon Nexus 5X.

Czytanie między nutami: system transmisji danych w muzyce
Obraz nr 4: Różnica pomiędzy rzeczywistymi wartościami szczytowymi OFDM i wartościami szczytowymi korelacji zmierzonymi w pomieszczeniu w odległości 5 m pomiędzy głośnikiem a mikrofonem.

Większość punktów OFDM mieści się w zakresie od 0 do 25 ms, więc prawidłowy start można znaleźć w obrębie prefiksu cyklicznego 66.6 ms. Naukowcy zauważają, że odbiornik (w tym eksperymencie smartfon) uwzględnia okresowe odtwarzanie symboli OFDM, co poprawia ich wykrywanie.

Pierwszą rzeczą do sprawdzenia był wpływ odległości na bitową stopę błędów (BER). W tym celu przeprowadzono trzy testy w różnych typach pomieszczeń: korytarzu z wykładziną, biurze z linoleum na podłodze i audytorium z drewnianą podłogą.


Jako obiekt testu wybrano piosenkę „And The Cradle Will Rock” Van Halena.

Głośność dźwięku została dobrana tak, aby poziom dźwięku zmierzony przez smartfon w odległości 2 m od głośnika wyniósł 63 dB.

Czytanie między nutami: system transmisji danych w muzyce
Zdjęcie nr 5: Wskaźniki BER w zależności od odległości mówiącego od mikrofonu (linia niebieska – publiczność, zielona – korytarz, pomarańczowa – biuro).

Na korytarzu smartfon odebrał dźwięk o natężeniu 40 dB w odległości aż 24 metrów od głośnika. W klasie w odległości 15 m dźwięk wyniósł 55 dB, a w biurze w odległości 8 metrów poziom dźwięku odbieranego przez smartfon sięgnął 57 dB.

Ponieważ audytorium i biuro są bardziej pogłosowe, echa późnych symboli OFDM przekraczają długość cyklicznego prefiksu i zwiększają BER.

Pogłos* - stopniowy spadek natężenia dźwięku na skutek jego wielokrotnych odbić.

Następnie badacze wykazali wszechstronność swojego systemu, stosując go do 6 różnych utworów z trzech gatunków (tabela poniżej).

Czytanie między nutami: system transmisji danych w muzyce
Tabela nr 1: utwory użyte w testach.

Ponadto dzięki danym w tabeli możemy zobaczyć przepływność i współczynnik błędów bitowych dla każdego utworu. Szybkości transmisji danych są różne, ponieważ różnicowe kluczowanie BPSK (kluczowanie z przesunięciem fazowym) działa lepiej, gdy używane są te same podnośne. Jest to możliwe, gdy sąsiednie segmenty zawierają te same elementy maskujące. Ciągle głośne utwory stanowią optymalną podstawę do ukrywania danych, ponieważ częstotliwości maskujące są silniej obecne w szerokim zakresie częstotliwości. Szybka muzyka może tylko częściowo maskować symbole OFDM ze względu na stałą długość okna analizy.

Następnie przystąpiono do testowania systemu, który miał określić, która melodia jest oryginalna, a która została zmodyfikowana przez zawarte w niej informacje. W tym celu na specjalnej stronie internetowej zamieszczono 12-sekundowe fragmenty piosenek z tabeli nr 1.

W pierwszym eksperymencie (E1) każdy uczestnik otrzymywał do przesłuchania zmodyfikowany lub oryginalny fragment i musiał zdecydować, czy jest to fragment oryginalny, czy zmodyfikowany. W drugim eksperymencie (E2) uczestnicy mogli słuchać obu wersji dowolną ilość razy, a następnie decydować, która z nich jest oryginalna, a która zmodyfikowana.

Czytanie między nutami: system transmisji danych w muzyce
Tabela nr 2: Wyniki eksperymentów E1 i E2.

Wyniki pierwszego eksperymentu mają dwa wskaźniki: p(O|O) – odsetek uczestników, którzy poprawnie oznaczyli oryginalną melodię oraz p(O|M) – odsetek uczestników, którzy oznaczyli zmodyfikowaną wersję melodii jako oryginalną.

Co ciekawe, według badaczy niektórzy uczestnicy uznali niektóre zmienione melodie za bardziej oryginalne niż sam oryginał. Średnia z obu eksperymentów sugeruje, że przeciętny słuchacz nie zauważyłby różnicy pomiędzy zwykłą melodią a tą, w której osadzone są dane.

Naturalnie znawcy muzyki i muzycy będą w stanie wykryć pewne nieścisłości i podejrzane elementy w zmienionych melodiach, jednak elementy te nie są na tyle istotne, aby powodować dyskomfort.

A teraz sami możemy wziąć udział w eksperymencie. Poniżej dwie wersje tej samej melodii – pierwotna i zmodyfikowana. Czy słyszysz różnicę?

Oryginalna wersja melodii
vs
Zmodyfikowana wersja melodii

Aby uzyskać bardziej szczegółową znajomość niuansów badania, polecam przyjrzeć się raport Grupa poszukiwawcza.

Możesz także pobrać archiwum ZIP zawierające pliki audio oryginalnych i zmodyfikowanych utworów wykorzystanych w badaniu pod adresem link.

Epilog

W tej pracy absolwenci ETH Zurich opisali niesamowity system transmisji danych w muzyce. W tym celu wykorzystali maskowanie częstotliwości, co umożliwiło osadzenie danych w melodii odtwarzanej przez głośnik. Melodię tę odbiera mikrofon urządzenia, który rozpoznaje ukryte dane i dekoduje je, a przeciętny słuchacz nawet nie zauważy różnicy. W przyszłości chłopaki planują rozwój swojego systemu, wybierając bardziej zaawansowane metody wprowadzania danych do audio.

Kiedy ktoś wymyśli coś niezwykłego i co najważniejsze, działającego, zawsze jesteśmy szczęśliwi. Ale jeszcze większą radością jest to, że ten wynalazek stworzyli młodzi ludzie. Nauka nie ma ograniczeń wiekowych. A jeśli młodzi ludzie uważają naukę za nudną, to znaczy, że jest ona przedstawiana pod złym kątem, że tak powiem. W końcu, jak wiemy, nauka to niesamowity świat, który nie przestaje zadziwiać.

Piątek poza szczytem:


Skoro mowa o muzyce, a raczej o muzyce rockowej, to przed nami wspaniała podróż po przestrzeniach rocka.


Królowej, „Radio Ga Ga” (1984).

Dziękuję za przeczytanie, bądźcie ciekawi i miłego weekendu, chłopaki! 🙂

Dziękujemy za pobyt z nami. Podobają Ci się nasze artykuły? Chcesz zobaczyć więcej ciekawych treści? Wesprzyj nas składając zamówienie lub polecając znajomym, 30% zniżki dla użytkowników Habr na unikalny odpowiednik serwerów klasy podstawowej, który został przez nas wymyślony dla Ciebie: Cała prawda o VPS (KVM) E5-2650 v4 (6 rdzeni) 10GB DDR4 240GB SSD 1Gbps od 20$ czyli jak udostępnić serwer? (dostępne z RAID1 i RAID10, do 24 rdzeni i do 40 GB DDR4).

Dell R730xd 2 razy tańszy? Tylko tutaj 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6 GHz 14C 64 GB DDR4 4x960 GB SSD 1 Gb/s 100 Telewizor od 199 USD w Holandii! Dell R420 — 2x E5-2430 2.2 GHz 6C 128 GB DDR3 2x960 GB SSD 1 Gb/s 100 TB — od 99 USD! Czytać o Jak zbudować firmę infrastrukturalną klasy z wykorzystaniem serwerów Dell R730xd E5-2650 v4 o wartości 9000 euro za grosz?

Źródło: www.habr.com

Dodaj komentarz