A função de direcionamento de câmera por voz tornou-se mais acessível - a solução universal SmartCam A12 Voice Tracking

A função de direcionamento de câmera por voz tornou-se mais acessível - a solução universal SmartCam A12 Voice TrackingO tópico de rastrear um participante que fala em uma videoconferência ganhou força nos últimos anos. A tecnologia tornou possível implementar algoritmos complexos para processar informações de áudio/vídeo em tempo real, o que levou a Polycom, há quase 10 anos, a apresentar a primeira solução convencional do mundo com rastreamento automático inteligente de alto-falantes. Durante vários anos conseguiram permanecer os únicos proprietários de tal solução, mas a Cisco não teve que esperar muito e trouxe ao mercado a sua versão de um sistema inteligente de duas câmaras, que era um concorrente justo da solução da Polycom. Durante muitos anos, este segmento de videoconferência foi limitado pelas capacidades de vários proprietário produtos, mas este artigo é dedicado ao primeiro universal solução para orientação de câmeras por voz, compatível com infraestrutura de hardware e software de videoconferência.
Antes de prosseguir com a descrição de soluções e demonstração de capacidades, quero observar um evento importante:
Tenho a honra de apresentar à comunidade Habra novo centro, dedicado a soluções de videoconferência (VCC). Agora, graças aos esforços conjuntos (mina e OVNI), Vídeo conferência tem casa própria em Habré, e convido todos os envolvidos neste extenso e atual tema a se inscreverem novo centro.

Dois cenários para apontar a câmera para o alto-falante

No momento, os integradores de soluções de videoconferência escolhem para si duas formas diferentes de implementar a tarefa de direcionamento ao apresentador:

  1. Automático - Inteligente
  2. Semiautomático - programável

A primeira opção são apenas soluções da Cisco, Polycom e outros fabricantes, iremos considerá-las a seguir. Aqui estamos lidando com a automação total de apontar a câmera para o participante que fala na videoconferência. Algoritmos exclusivos para processamento de sinais de áudio/vídeo permitem que a câmera selecione a posição desejada de forma independente.

A segunda opção são os sistemas de automação baseados em vários controladores de controle externos; não os consideraremos em detalhes, porque O artigo é dedicado especificamente ao rastreamento automático de alto-falantes.
Existem alguns defensores do segundo cenário para implementar o apontamento de câmera, e há razões para isso. Integradores experientes entendem que as soluções inteligentes da Polycom e da Cisco exigem condições operacionais ideais para que a automação funcione adequadamente. Mas nem sempre é possível fornecer tais condições, por isso o funcionamento do sistema às vezes é garantido pela seguinte solução para o problema de apontamento da câmera:

1. Todas as predefinições necessárias (posições do dispositivo PTZ e fator de zoom óptico) são inseridas manualmente com antecedência na memória da câmera (ou às vezes no controlador de controle). Via de regra, esta é uma planta geral da sala de reuniões e uma visão de cada participante da conferência em modo retrato.

2. Em seguida, os iniciadores para chamar a predefinição necessária são instalados nos locais especificados - são consoles de microfone ou botões de rádio, em geral, qualquer dispositivo que possa fornecer ao controlador de controle um sinal que ele entende.

3. O controlador de controle é programado de forma que cada iniciador tenha sua própria predefinição. Plano geral da sala - todos os iniciadores estão desligados.
Com isso, ao utilizar um sistema de congresso, por exemplo, e um controlador de controle, o palestrante, antes de iniciar sua fala, aciona seu console de microfone pessoal. O sistema de controle processa instantaneamente a posição salva da câmera.

Este cenário funciona perfeitamente – o sistema não precisa realizar triangulação de voz e análise de vídeo. Apertei o botão e o preset funcionou, sem atrasos ou falsos positivos.
Os sistemas de controle e automação são usados ​​​​em salas grandes e complexas, onde às vezes não são instaladas uma, mas várias câmeras de vídeo. Bem, para salas de reuniões de pequeno e médio porte, os sistemas automáticos são bastante adequados (se você tiver orçamento).
Comecemos pelos pais fundadores.

Diretor da Polycom EagleEye

A função de direcionamento de câmera por voz tornou-se mais acessível - a solução universal SmartCam A12 Voice TrackingEsta solução já causou sensação no campo da videoconferência. O Polycom EagleEye Director foi a primeira solução na área de orientação inteligente de câmeras. A solução consiste em uma unidade base EagleEye Director e duas câmeras. A peculiaridade dessa primeira implementação é que uma câmera é alocada apenas para um close-up do palestrante, e a segunda - para uma planta geral da sala de reunião. Ao mesmo tempo, a câmera de planta geral pode ser colocada completamente separada da base em outro local da sala de reuniões - ela não está diretamente envolvida no processo de orientação automática.
O sistema funciona da seguinte forma:

  1. A câmera geral da sala está ativa - todos estão em silêncio
  2. O orador começa a falar - o conjunto de microfones capta a voz, a câmera se move em direção ao som usando tecnologia patenteada que inclui triangulação de voz. A câmera geral ainda está ativa
  3. A câmera principal está apenas começando a procurar a fonte sonora, realizando análises de vídeo. O sistema identifica o locutor pela conexão olho-nariz-boca, enquadra a imagem do locutor e exibe o fluxo da câmera principal
  4. O orador muda. O conjunto de microfones entende que a voz vem de outro lugar. O plano geral é ativado novamente.
  5. E então em círculo, começando no ponto 2
  6. Se o novo alto-falante estiver no quadro com o anterior, o sistema faz uma mudança de posicionamento “quente” sem alterar o fluxo ativo para o tiro geral.

A desvantagem, na minha opinião, é a presença de apenas uma câmera principal. Isso resulta em um atraso significativo ao trocar os alto-falantes. E toda vez, no momento de apontar, o sistema liga o plano geral da sala - durante uma conversa animada, essa oscilação começa a irritar.

Diretor da Polycom EagleEye II

A função de direcionamento de câmera por voz tornou-se mais acessível - a solução universal SmartCam A12 Voice TrackingEsta é a segunda versão da solução da Polycom, lançada há relativamente pouco tempo. O princípio de funcionamento sofreu alterações e ficou mais parecido com uma solução da Cisco. Agora, ambas as câmeras PTZ são as principais e servem para alternar perfeitamente os canais de um apresentador para outro. O layout geral da sala de reuniões agora é capturado por uma câmera separada integrada ao corpo da unidade base EagleEye Director II. Por alguma razão, o fluxo desta câmera grande angular é exibido em uma janela adicional no canto da tela, ocupando 1/9 do fluxo principal. O princípio do posicionamento é o mesmo - triangulação de voz e análise de fluxo de vídeo. E os gargalos são os mesmos: se o sistema não enxergar a boca que fala, a câmera não mirará. E esta situação pode acontecer com bastante frequência - o orador virou-se, o orador virou-se de lado, o orador é um ventríloquo, o orador cobriu a boca com a mão ou com um documento.
Ambos os vídeos promocionais foram filmados com competência - 2 pessoas falam alternadamente e abrem a boca como se estivessem em uma consulta com um fonoaudiólogo. Mas mesmo em condições tão refinadas há um atraso muito significativo. Mas o enquadramento é impecável - um retrato confortável.

Alto-falante Cisco TelePresenceTrack 60

A função de direcionamento de câmera por voz tornou-se mais acessível - a solução universal SmartCam A12 Voice TrackingPara descrever esta solução, utilizarei o texto do folheto oficial.
O SpeakerTrack 60 adota uma abordagem exclusiva de câmera dupla para alternar rapidamente entre os participantes. Uma câmera encontra rapidamente um close do apresentador ativo, enquanto a outra procura e exibe o próximo apresentador. O recurso MultiSpeaker evita trocas desnecessárias se o próximo alto-falante já estiver presente no quadro atual.
Infelizmente, não tive a chance de testar o SpeakerTrack 60 sozinho. Portanto, as conclusões devem ser tiradas com base na opinião “do terreno” e com base nos resultados da análise do vídeo de demonstração abaixo. Contei um atraso máximo de quase 8 segundos ao apontar para um novo apresentador. O atraso médio foi de 2 a 3 segundos, a julgar pelo vídeo.

Câmera de vídeo de rastreamento inteligente HUAWEI VPT300

A função de direcionamento de câmera por voz tornou-se mais acessível - a solução universal SmartCam A12 Voice TrackingEncontrei esta solução da Huawei por acidente. O sistema custa cerca de US$ 9 mil. Funciona apenas com terminais Huawei. Os desenvolvedores adicionaram seu próprio “truque” - organizar o vídeo de dois alto-falantes em uma tela se não houver mais ninguém na sala. Em termos de características e funcionalidade declarada, esta é uma versão muito interessante do sistema de orientação automática. Mas, infelizmente, não encontrei absolutamente nenhum material de demonstração. O único vídeo que apareceu sobre esse assunto foi uma revisão em vídeo editada da solução, sem som original, com música. Assim, não foi possível avaliar a qualidade do sistema. Por esse motivo, não considerarei esta opção.
Vejo que a Huawei tem um blog ativo no Habré - talvez os colegas consigam publicar algumas informações úteis sobre este produto.

Novo - solução universal Rastreamento de voz SmartCam A12

A função de direcionamento de câmera por voz tornou-se mais acessível - a solução universal SmartCam A12 Voice TrackingSmartCam A12VT - um monobloco, incluindo duas câmeras PTZ para rastrear alto-falantes, duas câmeras integradas para analisar o layout geral da sala, bem como um conjunto de microfones embutido na base do case - como você pode ver, não há volumosos e estruturas frágeis como as dos adversários.
Antes de começar a descrever o novo produto, reunirei as características e recursos das soluções da Cisco e da Polycom para poder comparar SmartCam A12VT com ofertas existentes.

Diretor da Polycom EagleEye

  • Custo de varejo do sistema sem terminal - US$13K
  • Custo mínimo da solução EagleEye Director + RealPresence Group 500 - US$19K
  • Atraso médio de comutação 3 segundos
  • Orientação por voz + análise de vídeo
  • Altas exigências no rosto do locutor - você não pode esconder sua boca
  • Incompatibilidade com equipamentos de terceiros

Alto-falante Cisco TelePresenceTrack 60

  • Custo de varejo do sistema sem terminal - US$15,9K
  • Custo mínimo da solução TelePresence SpeakerTrack 60 + SX80 Codec - US$30K
  • Atraso médio de comutação 3 segundos
  • Orientação por voz + análise de vídeo
  • Requisitos para o rosto do locutor - não verifiquei, não encontrei informações
  • Incompatibilidade com equipamentos de terceiros

Rastreamento de voz SmartCam A12

  • Custo de varejo do sistema sem terminal - US$6,2K
  • Custo mínimo da solução SmartCam A12VT + Yealink VC880 - US$10.8K
  • Custo mínimo da solução Terminal de software SmartCam A12VT+ - US$7,7K
  • Atraso médio de comutação 3 segundos
  • Orientação por voz + análise de vídeo
  • Requisitos para o rosto do palestrante - sem requisitos
  • Compatibilidade com terceiros – HDMI

Como duas vantagens principais e inegáveis ​​da solução Rastreamento de voz SmartCam A12 Eu acho:

  1. Versatilidade de conectividade — via HDMI, o sistema integra-se a sistemas terminais de videoconferência de hardware e software
  2. Baixo custo — com funcionalidade semelhante, o A12VT é muitas vezes mais acessível em termos orçamentários do que as propostas descritas acima.

Para demonstrar como o sistema funciona, gravamos um vídeo review. A tarefa não era tanto publicitária, mas funcional. Portanto, o vídeo é desprovido do pathos de um vídeo promocional da Polycom. O local escolhido para a apresentação não foi um escritório de representação, mas sim uma sala de reuniões do laboratório do nosso parceiro, a empresa IPMatika.
Meu objetivo não era esconder as falhas do sistema, mas, pelo contrário, expor os gargalos da funcionalidade, forçar o sistema a cometer erros.

Na minha opinião, o sistema passou nos testes com sucesso. Digo isso com confiança porque no momento em que escrevo este artigo, a solução Rastreamento de voz SmartCam A12 visitou uma dúzia de salas de reuniões reais de nossos clientes. As avarias da automação foram observadas exclusivamente em condições de violação das regras de funcionamento recomendadas. Em particular, a distância mínima para participantes próximos. Se você se sentar muito perto da câmera, a menos de um metro, o conjunto de microfones não será capaz de reconhecê-lo e a lente não será capaz de rastreá-lo.

A função de direcionamento de câmera por voz tornou-se mais acessível - a solução universal SmartCam A12 Voice Tracking

Além da distância, há outro requisito - a altura da câmera.

A função de direcionamento de câmera por voz tornou-se mais acessível - a solução universal SmartCam A12 Voice Tracking

Se a câmera for instalada muito baixa, poderão ocorrer problemas com o posicionamento da voz. A opção embaixo da TV, infelizmente, não funcionou.
Mas instalar o sistema acima de um dispositivo de exibição é a maneira ideal de operar o dispositivo. A prateleira da câmera está incluída; somente o suporte de parede é suportado como padrão.

Como funciona o rastreamento de voz SmartCam A12

As principais lentes PTZ têm funções iguais - sua tarefa é rastrear alternadamente os apresentadores e exibir o plano geral. A análise da imagem geral da sala e a determinação da distância aos objetos são realizadas por meio de fluxos de vídeo recebidos de duas câmeras integradas na base do sistema. Este recurso permite reduzir o tempo de reação da lente ao mudar o alto-falante para 1-2 segundos. A câmera consegue alternar entre os participantes em um ritmo confortável, mesmo que troquem frases curtas.
Uma demonstração em vídeo da operação do sistema reflete totalmente a funcionalidade SmartCam A12VT. Mas, para quem ainda não assistiu ao vídeo, descreverei em palavras o princípio de funcionamento da automação:

  1. A sala está vazia: uma das lentes mostra a planta geral, a segunda está pronta - esperando gente
  2. As pessoas entram na sala e se sentam: a lente livre encontra os dois participantes extremos e enquadra a imagem ao seu redor, cortando a parte vazia da sala
  3. Enquanto as pessoas estão em movimento, as lentes se revezam rastreando todos na sala, mantendo-os no centro do enquadramento
  4. O locutor começa a falar: a lente está ativa, ajustada ao plano geral. O segundo é direcionado ao locutor e só então entra em modo de transmissão
  5. O alto-falante muda: a lente ajustada para o primeiro alto-falante está ativa e a segunda lente diminui a imagem ampla e se ajusta ao novo alto-falante
  6. No momento de mudar a imagem do primeiro alto-falante para o segundo, a lente livre se ajusta instantaneamente ao plano geral da sala
  7. Se todos ficarem em silêncio, a lente gratuita mostrará um plano geral pronto sem demora
  8. Se o locutor mudar novamente, a lente livre irá procurá-lo

Conclusão

Na minha opinião, esta solução, apresentada no ISE e ISR no ano passado, aproxima a alta tecnologia - se não das pessoas, pelo menos dos negócios, com certeza. É claro que por 400 mil rublos poucas pessoas comprarão esse “brinquedo” para casa, mas para negócios, para videoconferência corporativa, esta é uma solução muito acessível e conveniente para o problema de mira automática de uma câmera.
Dada a versatilidade Rastreamento de voz SmartCam A12, o sistema pode ser usado como uma solução do zero ou como uma extensão da funcionalidade de uma infraestrutura de videoconferência existente. A conexão via HDMI é um grande passo para o usuário, em contraste com os sistemas proprietários dos fabricantes descritos acima.

Gostaria de agradecer aos parceiros que ajudaram nos testes.
empresa IPMatika — para o terminal Yealink VC880, sala de reuniões e Yakushina Yura.
empresa AV inteligente — pelo direito de primeira e exclusiva revisão da solução e disponibilização do sistema Rastreamento de voz SmartCam A12 para teste.

No último artigo Designer de sala de reunião online - seleção da solução ideal de videoconferência, como promoção do site vc4u.ru и Designer VKS nós anunciamos 10% de desconto do preço em anuário por palavra de código HORNBEAM até o final do verão de 2019.

O desconto se aplica a produtos nas seguintes seções:

Para a decisão Rastreamento de voz SmartCam A12 Ofereço um desconto adicional de 5% aos 10% já existentes - um total de 15% até ao final do verão de 2019.

Aguardo seus comentários e respostas na pesquisa!

Obrigado por sua atenção.
Atenciosamente,
Cirilo Usikov (Usikoff)
chefe de
Sistemas de videovigilância e videoconferência
[email protegido]
stss.ru
vc4u.ru

Apenas usuários registrados podem participar da pesquisa. Entrarpor favor

Quão útil é o rastreamento de voz SmartCam A12?

  • Finalmente apareceu uma solução universal para terminais de software e hardware!

  • A solução é boa, mas existem outras opções disponíveis (escreverei nos comentários)

  • O sistema é fraco, não chega à Polycom e Cisco - vou escrever nos comentários porque você deveria pagar 3 vezes mais!

  • Afinal, quem precisa de orientação automática em uma sala de reuniões?

  • Afinal, quem precisa de uma câmera PTZ em uma sala de reuniões? — Conectei a webcam e deu certo!

8 usuários votaram. 5 usuários se abstiveram.

Fonte: habr.com

Adicionar um comentário