音符之间的阅读:音乐内部的数据传输系统

音符之间的阅读:音乐内部的数据传输系统

表达言语无法表达的内容; 感受到各种各样的情绪交织在飓风般的感情中; 脱离大地、天空甚至宇宙本身,踏上没有地图、没有道路、没有标志的旅程; 发明、讲述和体验一个始终保持独特和无法模仿的完整故事。 所有这一切都可以通过音乐来完成——音乐是一种已经存在了数千年、让我们的耳朵和心灵愉悦的艺术。

然而,音乐,或者更确切地说,音乐作品,不仅可以提供审美愉悦,还可以传输其中编码的信息,这些信息是为某种设备而设计的,但听者是看不到的。 今天我们将了解一项非常不寻常的研究,苏黎世联邦理工学院的研究生能够在人耳不注意的情况下将某些数据引入到音乐作品中,从而使音乐本身成为数据传输通道。 他们到底是如何实现他们的技术的,有嵌入数据和没有嵌入数据的旋律是否有很大不同,实际测试表明了什么? 我们从研究人员的报告中了解到这一点。 去。

研究基础

研究人员将他们的技术称为声学数据传输技术。 当扬声器播放修改后的旋律时,人们会认为它是正常的,但是,例如,智能手机可以读取线条之间或音符之间的编码信息。 科学家(这些家伙仍然是研究生这一事实并不妨碍他们成为科学家)将传输的速度和可靠性称为传输的速度和可靠性,同时保持这些参数的水平,无论选择的音频文件如何,作为实施中最重要的方面这种数据传输技术。 心理声学研究人类对声音的感知的心理和生理方面,有助于应对这一任务。

声学数据传输的核心可以称为 OFDM(正交频分复用),随着时间的推移,随着子载波对源音乐的适应,可以最大限度地利用传输的频谱进行信息传输。 得益于此,可以在长达 412 米的距离内实现 24 bps 的传输速度(错误率 < 10%)。 40 名志愿者参与的实际实验证实了这样一个事实:几乎不可能听出原始旋律与嵌入信息的旋律之间的差异。

这项技术在实践中可以应用在哪些地方? 研究人员有自己的答案:几乎所有现代智能手机、笔记本电脑和其他手持设备都配备了麦克风,许多公共场所(咖啡馆、餐馆、购物中心等)都有播放背景音乐的扬声器。 例如,该背景旋律可以包括用于连接到 Wi-Fi 网络的数据,而不需要额外的操作。

我们已经清楚了声学数据传输的一般特征;现在让我们详细研究该系统的结构。

系统描述

由于频率掩蔽,数据被引入到旋律中。 在时隙中,掩蔽频率被识别,并且靠近这些掩蔽元素的 OFDM 子载波被填充数据。

音符之间的阅读:音乐内部的数据传输系统
图片#1:将原始文件转换为通过扬声器传输的复合信号(旋律+数据)。

首先,将原始音频信号分为连续的片段进行分析。 L = 8820 个样本的每个此类段 (Hi)(等于 200 ms)乘以 窗户* 以尽量减少边界效应。

窗户* 是一个加权函数,用于控制频谱估计中旁瓣的影响。

接下来,在 500 Hz 至 9.8 kHz 范围内检测到原始信号的主频率,这使得获得该段的掩蔽频率 fM,l 成为可能。 此外,数据在 9.8 至 10 kHz 的小范围内传输,以确定接收器处副载波的位置。 由于智能手机麦克风在高频下灵敏度较低,因此所用频率范围的上限设置为 10 kHz。

分别确定每个分析片段的掩蔽频率。 使用 HPS(谐波乘积频谱)方法,确定了三个主频率,然后四舍五入到谐波半音阶上最接近的音符。 这就是主音符 fF,i = 1…3 的获得方式,位于键 C0 (16.35 Hz) 和 B0 (30.87 Hz) 之间。 基于基音太低而无法用于数据传输的事实,其较高八度音程 500kfF,i 在 9.8 Hz ... 2 kHz 范围内计算。 由于 HPS 的性质,许多这些频率 (fO,l1) 更加明显。

音符之间的阅读:音乐内部的数据传输系统
图片#2:计算出的基音 fO,l1 和最强音调的和声 fH,l2。

所得的倍频程和谐波集用作掩蔽频率,从中导出 OFDM 子载波频率 fSC,k。 在每个掩蔽频率的下方和上方插入两个子载波。

接下来,Hi 音频段的频谱在副载波频率 fSC,k 处进行滤波。 之后,根据Bi中的信息比特创建一个OFDM符号,从而可以通过扬声器发送复合段Ci。 必须选择子载波的幅度和相位,以便接收器可以提取传输的数据,而收听者不会注意到旋律的变化。

音符之间的阅读:音乐内部的数据传输系统
图3:原旋律Hi段的部分频谱和副载波频率。

当通过扬声器播放包含编码信息的音频信号时,接收设备的麦克风会记录该信号。 为了找到嵌入 OFDM 符号的起始位置,首先需要对记录进行带通滤波。 以这种方式,提取了较高频率范围,其中子载波之间不存在音乐干扰信号。 您可以使用循环前缀找到 OFDM 符号的开头。

检测到 OFDM 符号的起始位置后,接收器通过高频域解码获得最主要音符的信息。 此外,OFDM 对窄带干扰源具有很强的抵抗力,因为它们只影响部分子载波。

实际测试

KRK Rokit 8 扬声器充当修改后的旋律的来源,Nexus 5X 智能手机充当接收方的角色。

音符之间的阅读:音乐内部的数据传输系统
图片#4:实际 OFDM 与在室内扬声器和麦克风之间 5m 处测得的相关峰值之间的差异。

大多数 OFDM 点位于 0 到 25 ms 的范围内,因此您可以在 66.6 ms 循环前缀内找到有效的起始点。 研究人员指出,接收器(在本实验中为智能手机)考虑到了 OFDM 符号的周期性播放,从而改善了它们的检测。

首先要检查的是距离对误码率 (BER) 的影响。 为此,我们在不同类型的房间中进行了三项测试:铺有地毯的走廊、地板上铺有油毡的办公室以及铺有木地板的礼堂。


Van Halen 的歌曲《And The Cradle Will Rock》被选为测试对象。

调节音量,使智能手机在距离扬声器 2 m 处测得的声级为 63 dB。

音符之间的阅读:音乐内部的数据传输系统
图 5:BER 指标取决于扬声器和麦克风之间的距离(蓝线 - 观众,绿色 - 走廊,橙色 - 办公室)。

在走廊里,距离扬声器 40 米的智能手机接收到了 24 分贝的声音。 在距离 15 m 的教室中,声音为 55 dB,在距离 8 米的办公室中,智能手机感知的声音水平达到 57 dB。

由于礼堂和办公室混响较多,后期 OFDM 符号回波会超过循环前缀长度并增加 BER。

混响* - 由于多次反射,声音强度逐渐减弱。

研究人员将其系统应用于三种流派的 6 首不同歌曲,进一步证明了该系统的多功能性(下表)。

音符之间的阅读:音乐内部的数据传输系统
表 1:测试中使用的歌曲。

另外,通过表格数据,我们可以看到每首歌曲的比特率和误码率。 数据速率不同,因为使用相同子载波时差分 BPSK(相移键控)效果更好。 当相邻段包含相同的掩蔽元素时,这是可能的。 连续大声的歌曲为数据隐藏提供了最佳基础,因为掩蔽频率在较宽的频率范围内更强烈地存在。 由于分析窗口的长度固定,快节奏的音乐只能部分屏蔽 OFDM 符号。

接下来,人们开始测试该系统,必须确定哪些旋律是原创的,哪些是由其中嵌入的信息修改的。 为此,在一个特殊网站上发布了 12 号表中 1 秒歌曲的摘录。

在第一个实验(E1)中,每个参与者都会听到一个修改过的或原始的片段,并且必须决定该片段是原始的还是修改过的。 在第二个实验(E2)中,参与者可以根据需要多次收听两个版本,然后决定哪个是原始版本,哪个是修改过的。

音符之间的阅读:音乐内部的数据传输系统
表2:实验E1和E2的结果。

第一个实验的结果有两个指标:p(O|O) - 正确标记原始旋律的参与者的百分比和 p(O|M) - 将修改后的旋律版本标记为原始的参与者的百分比。

有趣的是,据研究人员称,一些参与者认为某些修改过的旋律比原来的旋律更具原创性。 两项实验的平均值表明,普通听众不会注意到常规旋律与嵌入数据的旋律之间的差异。

当然,音乐专家和音乐家将能够发现改变的旋律中的一些不准确和可疑的元素,但这些元素并没有严重到引起不适。

现在我们自己也可以参与这个实验了。 以下是同一旋律的两个版本 - 原始版本和修改后的版本。 你能听出区别吗?

旋律的原始版本
vs
旋律修改版

为了更详细地了解这项研究的细微差别,我建议查看 报告 研究小组。

您还可以下载研究中使用的原始曲调和修改曲调的音频文件的 ZIP 存档,网址为 此链接.

结语

在这项工作中,苏黎世联邦理工学院的研究生描述了音乐中令人惊叹的数据传输系统。 为此,他们使用了频率掩蔽,从而可以将数据嵌入到扬声器播放的旋律中。 该旋律由设备的麦克风感知,该麦克风识别隐藏的数据并对其进行解码,而普通听众甚至不会注意到其中的差异。 未来,这些人计划开发他们的系统,选择更先进的方法将数据引入音频。

当有人想出一些不寻常的东西,最重要的是,一些有效的东西时,我们总是很高兴。 但更让人高兴的是,这个发明是年轻人创造的。 科学没有年龄限制。 如果年轻人觉得科学无聊,那么可以说,科学的呈现角度是错误的。 毕竟,正如我们所知,科学是一个永远令人惊叹的奇妙世界。

周五非顶:


既然我们谈论的是音乐,或者更确切地说是摇滚音乐,那么这是一次穿越摇滚的美妙旅程。


皇后乐队《Radio Ga Ga》(1984)。

感谢您的阅读,保持好奇心,祝大家周末愉快! 🙂

感谢您与我们在一起。 你喜欢我们的文章吗? 想看更多有趣的内容? 通过下订单或推荐给朋友来支持我们, 在我们为您发明的独特的入门级服务器模拟上,Habr 用户可享受 30% 的折扣: VPS (KVM) E5-2650 v4(6 核)10​​4GB DDR240 1GB SSD 20Gbps XNUMX 美元或如何共享服务器的全部真相? (适用于 RAID1 和 RAID10,最多 24 个内核和最多 40GB DDR4)。

戴尔R730xd便宜2倍? 只有这里 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 电视低至 199 美元 在荷兰! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - 99 美元起! 阅读 如何建设基础设施公司同级使用价值730欧元的Dell R5xd E2650-4 v9000服务器一分钱?

来源: habr.com

添加评论