Leitura entre as notas: o sistema de transmissão de dados dentro da música

Leitura entre as notas: o sistema de transmissão de dados dentro da música

Expresse o que as palavras não podem transmitir; sentir uma grande variedade de emoções entrelaçadas num furacão de sentimentos; romper com a terra, com o céu e até com o próprio Universo, embarcando numa viagem onde não há mapas, nem estradas, nem sinais; invente, conte e vivencie toda uma história que sempre permanecerá única e inimitável. Tudo isso pode ser feito pela música - uma arte que existe há milhares de anos e encanta nossos ouvidos e corações.

Porém, a música, ou melhor, as obras musicais, podem servir não só para o prazer estético, mas também para a transmissão de informações nelas codificadas, destinadas a algum dispositivo e invisíveis ao ouvinte. Hoje conheceremos um estudo bastante inusitado em que alunos de pós-graduação da ETH Zurique conseguiram, despercebidos ao ouvido humano, introduzir determinados dados em obras musicais, fazendo com que a própria música se tornasse um canal de transmissão de dados. Como exatamente eles implementaram sua tecnologia, as melodias com e sem dados incorporados são muito diferentes e o que os testes práticos mostraram? Aprendemos sobre isso no relatório dos pesquisadores. Ir.

Base do estudo

Os pesquisadores chamam sua tecnologia de tecnologia de transmissão acústica de dados. Quando um locutor toca uma melodia modificada, a pessoa percebe isso como normal, mas, por exemplo, um smartphone pode ler informações codificadas nas entrelinhas, ou melhor, entre as notas, por assim dizer. Os cientistas (o fato de esses caras ainda serem estudantes de pós-graduação não os impede de serem cientistas) consideram a velocidade e a confiabilidade da transmissão mantendo o nível desses parâmetros, independente do arquivo de áudio selecionado, como o aspecto mais importante na implementação de esta técnica de transferência de dados. A psicoacústica, que estuda os aspectos psicológicos e fisiológicos da percepção humana dos sons, ajuda a dar conta dessa tarefa.

O núcleo da transmissão de dados acústicos pode ser chamado de OFDM (multiplexação por divisão de frequência ortogonal), que, juntamente com a adaptação das subportadoras à música fonte ao longo do tempo, possibilitou o aproveitamento máximo do espectro de frequência transmitido para transmissão de informações. Graças a isso, foi possível atingir uma velocidade de transmissão de 412 bps em uma distância de até 24 metros (taxa de erro < 10%). Experimentos práticos envolvendo 40 voluntários confirmaram que é quase impossível ouvir a diferença entre a melodia original e aquela em que a informação estava embutida.

Onde esta tecnologia pode ser aplicada na prática? Os pesquisadores têm sua própria resposta: quase todos os smartphones, laptops e outros dispositivos portáteis modernos estão equipados com microfones, e muitos locais públicos (cafés, restaurantes, shopping centers, etc.) possuem alto-falantes com música de fundo. Esta melodia de fundo pode, por exemplo, incluir dados para conexão a uma rede Wi-Fi sem a necessidade de ações adicionais.

As características gerais da transmissão acústica de dados ficaram claras para nós, agora vamos passar a um estudo detalhado da estrutura deste sistema.

Descrição do sistema

A introdução de dados na melodia ocorre devido ao mascaramento de frequência. Nos intervalos de tempo, as frequências de mascaramento são identificadas e as subportadoras OFDM próximas a esses elementos de mascaramento são preenchidas com dados.

Leitura entre as notas: o sistema de transmissão de dados dentro da música
Imagem nº 1: Convertendo o arquivo original em um sinal composto (melodia + dados) transmitido pelos alto-falantes.

Para começar, o sinal de áudio original é dividido em segmentos sucessivos para análise. Cada segmento (Hi) de L = 8820 amostras, igual a 200 ms, é multiplicado por janela* para minimizar os efeitos de limite.

Janela* é uma função de ponderação usada para controlar os efeitos devidos aos lóbulos laterais nas estimativas espectrais.

Em seguida, foram detectadas as frequências dominantes do sinal original na faixa de 500 Hz a 9.8 kHz, o que possibilitou a obtenção de frequências de mascaramento fM,l para este segmento. Além disso, os dados foram transmitidos em uma pequena faixa de 9.8 a 10 kHz para estabelecer a localização das subportadoras no receptor. O limite superior da faixa de frequência utilizada foi definido em 10 kHz devido à baixa sensibilidade dos microfones dos smartphones em altas frequências.

As frequências de mascaramento foram determinadas para cada segmento analisado individualmente. Utilizando o método HPS (Harmonic Product Spectrum), as três frequências dominantes foram identificadas e depois arredondadas para as notas mais próximas na escala cromática harmônica. Assim foram obtidas as notas principais fF,i = 1…3, situadas entre as tonalidades C0 (16.35 Hz) e B0 (30.87 Hz). Com base no fato de que as notas fundamentais são muito baixas para uso na transmissão de dados, suas oitavas mais altas (500kfF,i) foram calculadas na faixa de 9.8 Hz a 2 kHz. Muitas dessas frequências (fO,l1) foram mais pronunciadas devido à natureza do HPS.

Leitura entre as notas: o sistema de transmissão de dados dentro da música
Imagem #2: oitavas calculadas fO,l1 para as notas fundamentais e harmônicos fH,l2 do tom mais forte.

O conjunto resultante de oitavas e harmônicos foi usado como frequências de mascaramento, das quais derivaram as frequências da subportadora OFDM fSC,k. Duas subportadoras foram inseridas abaixo e acima de cada frequência de mascaramento.

Em seguida, o espectro do segmento de áudio Hi foi filtrado nas frequências de subportadora fSC,k. Em seguida, foi criado um símbolo OFDM baseado nos bits de informação em Bi, para que o segmento composto Ci pudesse ser transmitido através do alto-falante. As magnitudes e fases das subportadoras devem ser escolhidas de forma que o receptor possa extrair os dados transmitidos enquanto o ouvinte não percebe alterações na melodia.

Leitura entre as notas: o sistema de transmissão de dados dentro da música
Imagem nº 3: parte do espectro e frequências de subportadora do segmento Hi da melodia original.

Quando um sinal de áudio com informações codificadas é reproduzido pelos alto-falantes, o microfone do dispositivo receptor o grava. Para encontrar as posições iniciais dos símbolos OFDM incorporados, os registros primeiro precisam ser filtrados em banda. Desta forma, é extraída a faixa de frequência superior, onde não há sinais de interferência musical entre subportadoras. Você pode encontrar o início dos símbolos OFDM usando um prefixo cíclico.

Após detectar o início dos símbolos OFDM, o receptor obtém informações sobre as notas mais dominantes através da decodificação no domínio de alta frequência. Além disso, o OFDM é bastante resistente a fontes de interferência de banda estreita, uma vez que estas afetam apenas algumas das subportadoras.

Testes práticos

O alto-falante KRK Rokit 8 atuou como fonte das melodias modificadas, e o smartphone Nexus 5X desempenhou o papel de receptor.

Leitura entre as notas: o sistema de transmissão de dados dentro da música
Imagem nº 4: Diferença entre o OFDM real e os picos de correlação medidos em ambientes internos a 5 m entre o alto-falante e o microfone.

A maioria dos pontos OFDM está na faixa de 0 a 25 ms, portanto você pode encontrar um início válido dentro do prefixo cíclico de 66.6 ms. Os pesquisadores observam que o receptor (neste experimento, um smartphone) leva em consideração que os símbolos OFDM são reproduzidos periodicamente, o que melhora sua detecção.

A primeira coisa a verificar foi o efeito da distância na taxa de erro de bit (BER). Para isso, foram realizados três testes em diferentes tipologias de salas: um corredor com carpete, um escritório com piso linóleo e um auditório com piso de madeira.


A música “And The Cradle Will Rock” do Van Halen foi escolhida como cobaia.

O volume do som foi ajustado para que o nível sonoro medido pelo smartphone a uma distância de 2 m do alto-falante fosse de 63 dB.

Leitura entre as notas: o sistema de transmissão de dados dentro da música
Imagem nº 5: Indicadores BER em função da distância entre o palestrante e o microfone (linha azul - plateia, verde - corredor, laranja - escritório).

No corredor, um som de 40 dB foi captado por um smartphone a uma distância de até 24 metros do alto-falante. Na sala de aula a 15 m de distância o som era de 55 dB, e no escritório a 8 metros de distância o nível de som percebido pelo smartphone chegava a 57 dB.

Como o auditório e o escritório são mais reverberantes, os ecos dos símbolos OFDM tardios excedem o comprimento do prefixo cíclico e aumentam o BER.

Reverberação* - uma diminuição gradual da intensidade sonora devido às suas múltiplas reflexões.

Os pesquisadores demonstraram ainda a versatilidade do seu sistema aplicando-o a 6 músicas diferentes de três gêneros (tabela abaixo).

Leitura entre as notas: o sistema de transmissão de dados dentro da música
Tabela nº 1: músicas utilizadas nas provas.

Além disso, através dos dados da tabela, podemos ver a taxa de bits e as taxas de erro de bits de cada música. As taxas de dados são diferentes porque o BPSK diferencial (phase shift keying) funciona melhor quando as mesmas subportadoras são usadas. E isso é possível quando segmentos adjacentes contêm os mesmos elementos de mascaramento. Músicas continuamente altas fornecem uma base ideal para ocultação de dados porque as frequências de mascaramento estão mais fortemente presentes em uma ampla faixa de frequência. A música em ritmo acelerado pode mascarar apenas parcialmente os símbolos OFDM devido ao comprimento fixo da janela de análise.

Em seguida, as pessoas começaram a testar o sistema, tendo que determinar qual melodia era original e qual foi modificada pelas informações nela incorporadas. Para tanto, trechos de 12 segundos das músicas da tabela nº 1 foram postados em um site especial.

No primeiro experimento (E1), cada participante recebeu um fragmento modificado ou original para ouvir e teve que decidir se o fragmento era original ou modificado. No segundo experimento (E2), os participantes podiam ouvir as duas versões quantas vezes quisessem e depois decidir qual era a original e qual era modificada.

Leitura entre as notas: o sistema de transmissão de dados dentro da música
Tabela nº 2: resultados dos experimentos E1 e E2.

Os resultados do primeiro experimento possuem dois indicadores: p(O|O) - percentual de participantes que marcaram corretamente a melodia original e p(O|M) - percentual de participantes que marcaram a versão modificada da melodia como original.

Curiosamente, alguns participantes, segundo os pesquisadores, consideraram certas melodias alteradas mais originais do que o próprio original. A média de ambos os experimentos sugere que o ouvinte médio não notaria diferença entre uma melodia normal e outra na qual os dados estavam incorporados.

Naturalmente, especialistas em música e músicos serão capazes de detectar algumas imprecisões e elementos suspeitos nas melodias alteradas, mas esses elementos não são tão significativos a ponto de causar desconforto.

E agora nós mesmos podemos participar do experimento. Abaixo estão duas versões da mesma melodia - a original e a modificada. Você pode ouvir a diferença?

Versão original da melodia
vs
Versão modificada da melodia

Para uma compreensão mais detalhada das nuances do estudo, recomendo dar uma olhada em reportar grupo de pesquisa.

Você também pode baixar um arquivo ZIP de arquivos de áudio das músicas originais e modificadas usadas no estudo em este link.

Epílogo

Neste trabalho, estudantes de pós-graduação da ETH Zurique descreveram um incrível sistema de transmissão de dados dentro da música. Para isso, utilizaram mascaramento de frequência, que possibilitou incorporar os dados à melodia tocada pelo alto-falante. Essa melodia é percebida pelo microfone do aparelho, que reconhece os dados ocultos e os decodifica, enquanto o ouvinte médio nem notará a diferença. No futuro, a galera planeja desenvolver seu sistema, selecionando métodos mais avançados de introdução de dados em áudio.

Quando alguém surge com algo incomum e, o mais importante, algo que funciona, ficamos sempre felizes. Mas ainda mais alegre é que esta invenção foi criada por jovens. A ciência não tem restrições de idade. E se os jovens consideram a ciência aborrecida, então esta está a ser apresentada do ângulo errado, por assim dizer. Afinal, como sabemos, a ciência é um mundo incrível que nunca para de surpreender.

Sexta-feira off-top:


Já que estamos falando de música, ou melhor, de rock, aqui está uma viagem maravilhosa pelas extensões do rock.


Rainha, "Rádio Ga Ga" (1984).

Obrigado pela leitura, fiquem curiosos e tenham um ótimo final de semana pessoal! 🙂

Obrigado por ficar com a gente. Gostou dos nossos artigos? Quer ver mais conteúdos interessantes? Apoie-nos fazendo um pedido ou recomendando a amigos, 30% de desconto para usuários do Habr em um análogo exclusivo de servidores básicos, que foi inventado por nós para você: Toda a verdade sobre VPS (KVM) E5-2650 v4 (6 núcleos) 10 GB DDR4 240 GB SSD 1 Gbps a partir de $ 20 ou como compartilhar um servidor? (disponível com RAID1 e RAID10, até 24 núcleos e até 40 GB DDR4).

Dell R730xd 2 vezes mais barato? Só aqui 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV a partir de US$ 199 na Holanda! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - a partir de US$ 99! Ler sobre Como construir uma empresa de infraestrutura. classe com o uso de servidores Dell R730xd E5-2650 v4 no valor de 9000 euros por um centavo?

Fonte: habr.com

Adicionar um comentário