Uma revolução nas comunicações? A nova abordagem permite economizar largura de banda 100 vezes ou mais para chamadas de áudio e vídeo

Uma revolução nas comunicações? A nova abordagem permite economizar largura de banda 100 vezes ou mais para chamadas de áudio e vídeo

Muita gente lembra que a série de TV “Vale do Silício” é sobre o programador Richard
Hendrix, que acidentalmente criou um algoritmo revolucionário de compressão de dados e decidiu
construa sua startup.

Os consultores da série até sugeriram uma métrica para avaliar
algoritmos semelhantes são o fictício Weissman Score.

Mais adiante na história, a startup fez um chat por vídeo usando esta solução.

A respeitada comunidade é convidada a discutir outro, completamente inusitado
o princípio da compressão de dados para chamadas de áudio e vídeo, que resolve o problema com um novo,
lado inesperado.

Se quiser participar na discussão desta solução, e também descobrir o que esta tem em comum
conceitos com Jonathan Swift e as obras de Leo Tolstoy, por favor, em cat.

Um pouco de teoria

Vamos descrever em termos gerais como funciona a comunicação de áudio moderna - o princípio é o mesmo para ambos
chamadas pela rede GSM, bem como por mensagens instantâneas e redes VOIP.

As vibrações sonoras são enviadas para o microfone do smartphone, depois em analógico-digital
conversor (ADC ou ADC):

Uma revolução nas comunicações? A nova abordagem permite economizar largura de banda 100 vezes ou mais para chamadas de áudio e vídeo

Além disso, a codificação ocorre com vários codecs (G711, G729, OPUS, GSM, etc.),
a criptografia é adicionada ou não (SRTP, ZPTP, etc.) e enviada ao ambiente
transmissão de dados.

Por exemplo, quase todos os mensageiros instantâneos (WhatsApp, Viber, etc.) usam os mesmos codecs (ultimamente geralmente é Opus), e quase os mesmos ligeiramente
protocolos modificados (baseados em SIP, WebRTC).

A rede de transmissão de dados pode ser a Internet pública ou a rede GSM ou
intranet:

Uma revolução nas comunicações? A nova abordagem permite economizar largura de banda 100 vezes ou mais para chamadas de áudio e vídeo

A criptografia é um elemento opcional neste esquema, por exemplo, na maioria dos casos para
A criptografia de telefonia SIP não é usada.

Mas nos mensageiros, ao contrário, eles costumam usar seu próprio proprietário
protocolos para criptografia de voz e vídeo.

Em seguida, ocorre o processo inverso - o destinatário, tendo recebido os dados, decodifica as informações recebidas, depois o sinal vai para o DAC (conversor digital para analógico) e depois entra no amplificador de áudio conectado ao alto-falante:

Uma revolução nas comunicações? A nova abordagem permite economizar largura de banda 100 vezes ou mais para chamadas de áudio e vídeo

Características dos codecs modernos:

G.711 64 Kbps.
G.726 16, 24, 32 ou 40 Kbps.
G.729A 8 Kb/seg.
GSM 13 Kb/seg.
iLBC 13.3 Kb/seg. (quadro de 30ms); 15.2 Kb/seg. (quadro de 20 ms)
Faixa Speex de 2.15 a 22.4 Kb/seg.
G.722 64 Kbps.

Assim, por exemplo, durante uma conversa de 7 minutos no WhatsApp ou Skype haverá
Cerca de 1 MB foi usado.

Vamos lembrar desses números - 1 MB para 7 minutos de conversa, precisaremos deles em breve.

“Leão Tolstoi é como um espelho... da revolução...”

Vamos relembrar o romance mais famoso deste grande escritor russo:

“Guerra e Paz” é um romance épico de Leo Nikolaevich Tolstoy, que descreve o russo
sociedade durante as guerras contra Napoleão em 1805-1812. O epílogo do romance traz
narrativa até 1820.

O romance “Guerra e Paz” de L.N. Tolstoi dedicou sete anos de trabalho intenso e persistente. Manuscritos testemunham como foi criada uma das maiores criações do mundo.
“Guerra e Paz”: o arquivo do escritor contém mais de 5200 folhas finamente escritas.

Se você quiser ler este romance agora, poderá baixá-lo facilmente.

E este arquivo pesa apenas... 1 MB:

Uma revolução nas comunicações? A nova abordagem permite economizar largura de banda 100 vezes ou mais para chamadas de áudio e vídeo

Os formatos fb2 e epub, assim como zip, rar, a princípio, podem ser considerados uma espécie de
codecs

Vamos pensar nisso - 7 minutos da nossa conversa no WhatsApp são iguais em termos de volume de tráfego
um ótimo trabalho que levou 7 anos para ser escrito!

Uma conversa de 7 minutos foi codificada com o codec opus, a novela foi codificada com ePub, o volume é o mesmo -
1MB, mas que diferença enorme!

As Viagens de Gulliver

Todo mundo conhece esse trabalho de Jonathan Swift desde a infância, mas na verdade este livro não é para
filhos

As Viagens de Gulliver é uma sátira política para adultos, claro, no contexto de 18
século.

O surpreendente é que Swift, sendo um fervoroso oponente de seu outro contemporâneo -
Newton, em suas “Viagens de Gulliver” não apenas previu a descoberta de satélites
Marte (com uma descrição bastante precisa de suas características), mas também descreveu um local bastante interessante
forma de comunicação entre as pessoas:

“... o projeto exigia a abolição total de todas as palavras;
o autor deste projeto referiu-se principalmente aos seus benefícios para a saúde e poupança
tempo.

Afinal, é óbvio que cada palavra que pronunciamos está associada a algum desgaste.
pulmões e, portanto, leva a uma redução da nossa vida.

E como as palavras são apenas nomes de coisas, o autor do projeto pressupõe que
que nos será muito mais cómodo levar connosco as coisas necessárias para expressar a nossa
pensamentos e desejos.

... muitas pessoas muito instruídas e sábias usam esta nova forma de expressar seus
pensamentos com a ajuda de coisas.

O seu único inconveniente é o facto de, se necessário,
conduzir uma longa conversa sobre uma variedade de tópicos, os interlocutores devem levar
ombros com grandes pacotes de coisas, se os fundos não permitirem a contratação de um ou
dois caras robustos. Muitas vezes aconteceu de eu ver dois desses homens sábios, exaustos sob
fardo pesado, como nossos vendedores ambulantes. Quando se conheceram na rua, tiraram fotos
bolsas de ombro, abriu-as e, tirando de lá as coisas necessárias, conversou em
continuação da hora; então eles empilharam seus utensílios e ajudaram uns aos outros a levantar a carga
ombros, despediram-se e separaram-se.

Porém, para conversas curtas e simples você pode levar tudo o que precisa no bolso
ou debaixo do braço, e uma conversa em casa não causa nenhum
dificuldades. Portanto, as salas onde as pessoas que usam este método se reúnem estão cheias de
todos os tipos de objetos adequados para servir de material para tais
conversas.

Outra grande vantagem desta invenção é que ela pode ser utilizada
como uma linguagem universal, compreensível para todas as nações civilizadas, para móveis e utensílios domésticos
os utensílios são iguais ou muito semelhantes em todos os lugares, para que seu uso seja facilmente compreendido.
Assim, os enviados podem facilmente falar com reis estrangeiros ou
ministros cuja língua lhes é completamente desconhecida..."

Então, você provavelmente já adivinha onde quero chegar com isso :)

Por que transmitir vibrações do ar (sons) por centenas e milhares de quilômetros?
preocupar-se com a codificação (para transmitir essas vibrações de ar ao destinatário da maneira mais precisa e eficiente possível), manter a largura de banda necessária, se semântica
A carga desta transmissão é mínima ou até tende a zero?

Afinal, as pessoas se comunicam entre si não com sons, mas com significado, conteúdo, semântica, pensamentos...

O conceito do novo sistema de comunicação é bastante simples - no lado da fonte A existem áudio
as vibrações também são digitalizadas, mas não são imediatamente transmitidas à outra parte, mas
são convertidos em texto (Speech To Text) e, em seguida, o texto significativo de
assinante A, que:

  • podem ser transmitidos com a largura de banda de dados mínima necessária (até mesmo comunicações de rádio HF são possíveis, etc.)
  • pode ser criptografado com qualquer algoritmo de criptografia forte

No lado B, as mensagens recebidas são descriptografadas e reproduzidas como uma voz de
assinante A (Text To Speech).

Você também pode baixar o chamado lado B. avatar de voz do assinante A, que
repetiu com precisão a maneira de falar do assinante A.

Um canal separado pode transmitir ruídos de fundo e emoções.

Uma revolução nas comunicações? A nova abordagem permite economizar largura de banda 100 vezes ou mais para chamadas de áudio e vídeo

O mesmo se aplica à comunicação por vídeo - especialmente porque os elementos individuais já existem há muito tempo.
existem em aplicações (várias máscaras, fundo em Zoom, etc.).

Sim, existem aspectos técnicos que atualmente não estão totalmente implementados da forma adequada -
por exemplo, a velocidade da conversão de fala em texto será crítica, mas usar
Algoritmos de conversão preditiva de IA podem aumentar significativamente essa velocidade.

A vantagem mais importante é que é necessária uma largura de banda mínima no meio de transmissão
dados.

Aqueles. Este princípio pode ser usado não apenas para uso diário comum
comunicações, mas também para comunicações militares e de longa distância com longos atrasos
(comunicação espacial, interplanetária - Lua, Marte, etc. :)

Embora esta seja uma descrição do conceito, na verdade, num dos nossos projetos já existem vários
Um protótipo com esse princípio está em uso há meses.

Mas mais sobre isso na próxima vez...

Fonte: habr.com

Adicionar um comentário