A función de orientación da cámara por voz fíxose máis accesible: a solución universal SmartCam A12 Voice Tracking

A función de orientación da cámara por voz fíxose máis accesible: a solución universal SmartCam A12 Voice TrackingO tema do seguimento dun participante que fala nunha videoconferencia gañou impulso nos últimos anos. A tecnoloxía permitiu implementar algoritmos complexos para procesar a información de audio/vídeo en tempo real, o que levou a Polycom, hai case 10 anos, a presentar a primeira solución principal do mundo con seguimento automático de altofalantes intelixente. Durante varios anos conseguiron seguir sendo os únicos propietarios desta solución, pero Cisco non tivo que esperar moito e levou ao mercado a súa versión dun sistema intelixente de dúas cámaras, que era un competidor xusto para a solución de Polycom. Durante moitos anos, este segmento de videoconferencia estivo limitado polas capacidades de varios propietario produtos, pero este artigo está dedicado ao primeiro universal solución para guiar a cámara por voz, compatible con infraestrutura de hardware e software de videoconferencia.
Antes de pasar a describir solucións e demostrar as capacidades, quero sinalar un evento importante:
Teño a honra de presentarlle á comunidade Habra novo hub, dedicada ás solucións de videoconferencia (VCC). Agora, grazas aos esforzos conxuntos (o meu e o OVNI), Videoconferencia ten a súa propia casa en Habré, e invito a todos os implicados neste tema extenso e actual a que se subscriban novo hub.

Dous escenarios para apuntar a cámara ao altofalante

Nestes momentos, os integradores de solucións de videoconferencia elixen por si mesmos dúas formas diferentes de implementar a tarefa de dirixirse ao presentador:

  1. Automático - Intelixente
  2. Semiautomático - programable

A primeira opción son só solucións de Cisco, Polycom e outros fabricantes; considerarémolas a continuación. Aquí estamos a tratar coa automatización total de apuntar a cámara ao participante que fala na videoconferencia. Os algoritmos únicos para procesar sinais de audio/vídeo permiten que a cámara seleccione a posición desexada de forma independente.

A segunda opción son os sistemas de automatización baseados en varios controladores de control externos; non os consideraremos en detalle, porque O artigo está dedicado especificamente ao seguimento automático dos falantes.
Hai bastantes partidarios do segundo escenario para implementar o apuntamento da cámara, e hai razóns para iso. Os integradores experimentados entenden que as solucións intelixentes de Polycom e Cisco requiren condicións de funcionamento ideais para que a automatización funcione correctamente. Pero non sempre é posible proporcionar tales condicións, polo que o funcionamento do sistema ás veces está garantido pola seguinte solución ao problema de apuntamento da cámara:

1. Todos os presets necesarios (posicións do dispositivo PTZ e factor de zoom óptico) introdúcense manualmente con antelación na memoria da cámara (ou ás veces no controlador de control). Como regra xeral, este é un plano xeral da sala de reunións e unha vista de cada participante da conferencia en modo retrato.

2. A continuación, os iniciadores para chamar ao preset necesario instálanse nos lugares especificados: son consolas de micrófono ou botóns de radio, en xeral, calquera dispositivo que poida proporcionar ao controlador de control un sinal que entenda.

3. O controlador de control está programado de forma que cada iniciador teña o seu propio preselección. Plan xeral da sala: todos os iniciadores están desactivados.
Como resultado, cando se utiliza un sistema de congresos, por exemplo, e un controlador de control, o altofalante, antes de comezar a súa intervención, activa a súa consola de micrófono persoal. O sistema de control procesa ao instante a posición da cámara gardada.

Este escenario funciona perfectamente: o sistema non precisa realizar a triangulación de voz nin a análise de vídeo. Premei o botón e o preset funcionou, sen atrasos nin falsos positivos.
Os sistemas de control e automatización utilízanse en salas grandes e complexas, onde ás veces non se instalan unha, senón varias cámaras de vídeo. Ben, para salas de reunións pequenas e medianas, os sistemas automáticos son bastante axeitados (se tes o orzamento).
Comecemos polos pais fundadores.

Director de Polycom EagleEye

A función de orientación da cámara por voz fíxose máis accesible: a solución universal SmartCam A12 Voice TrackingEsta solución creou unha vez sensación no campo da videoconferencia. Polycom EagleEye Director foi a primeira solución no campo da orientación intelixente da cámara. A solución consiste nunha unidade base EagleEye Director e dúas cámaras. A peculiaridade desa primeira implementación é que unha cámara está asignada só a unha vista de preto do altofalante e a segunda a un plano xeral da sala de reunións. Ao mesmo tempo, a cámara do plan xeral pódese colocar completamente separada da base noutro lugar da sala de reunións; non está directamente implicada no proceso de orientación automática.
O sistema funciona do seguinte xeito:

  1. A cámara xeral da sala está activa: todos están en silencio
  2. O altofalante comeza a falar: a matriz de micrófonos capta a voz, a cámara móvese cara ao son mediante a tecnoloxía patentada que inclúe a triangulación de voz. A cámara xeral aínda está activa
  3. A cámara principal só comeza a buscar a fonte de son, realizando análises de vídeo. O sistema identifica o altofalante pola conexión ollo-nariz-boca, enmarca a imaxe do altofalante e mostra o fluxo da cámara principal
  4. O altofalante cambia. A matriz de micrófonos entende que a voz vén doutro lugar. O plan xeral volve activarse.
  5. E despois nun círculo, comezando dende o punto 2
  6. Se o novo altofalante está no cadro co anterior, o sistema realiza un cambio de posición "quente" sen cambiar o fluxo activo ao plano xeral.

A desvantaxe, na miña opinión, é a presenza dunha soa cámara principal. Isto provoca un atraso importante ao cambiar os altofalantes. E cada vez que no momento de apuntar, o sistema activa o plan xeral da sala; durante unha conversa animada, este parpadeo comeza a irritarse.

Polycom EagleEye Director II

A función de orientación da cámara por voz fíxose máis accesible: a solución universal SmartCam A12 Voice TrackingEsta é a segunda versión da solución de Polycom, que se lanzou relativamente recentemente. O principio de funcionamento sufriu cambios e tornouse máis como unha solución de Cisco. Agora as dúas cámaras PTZ son as principais e serven para cambiar sen problemas de canle dun presentador a outro. O deseño xeral da sala de reunións agora está capturado por unha cámara separada integrada no corpo da unidade base EagleEye Director II. Por algún motivo, o fluxo desta cámara gran angular móstrase nunha ventá adicional na esquina da pantalla, que ocupa 1/9 do fluxo principal. O principio de posicionamento é o mesmo: triangulación de voz e análise de fluxo de vídeo. E os pescozos de botella son os mesmos: se o sistema non ve a boca que fala, a cámara non apuntará. E esta situación pode ocorrer con bastante frecuencia: o falante virouse de lado, o falante é un ventrílocuo, o falante cubriuse a boca coa man ou un documento.
Ambos vídeos promocionais filmáronse de forma competente: dúas persoas falan por quendas e abren a boca coma se fosen nunha cita cun logopeda. Pero mesmo en condicións tan refinadas hai un atraso moi importante. Pero o encuadre é impecable: un retrato cómodo.

Cisco TelePresence SpeakerTrack 60

A función de orientación da cámara por voz fíxose máis accesible: a solución universal SmartCam A12 Voice TrackingPara describir esta solución, empregarei texto do folleto oficial.
SpeakerTrack 60 adopta un enfoque único de cámara dual para cambiar rapidamente directamente entre participantes. Unha cámara atopa rapidamente un primeiro plano do presentador activo, mentres que a outra busca e mostra o seguinte presentador. A función MultiSpeaker evita cambios innecesarios se o seguinte altofalante xa está presente no cadro actual.
Desafortunadamente, non tiven a oportunidade de probar o SpeakerTrack 60. Polo tanto, hai que extraer conclusións en función da opinión "desde o campo" e baseándose nos resultados da análise do vídeo demostrativo a continuación. Contei un atraso máximo de case 8 segundos ao apuntar a un novo presentador. O atraso medio foi de 2-3 segundos, a xulgar polo vídeo.

Cámara de vídeo de seguimento intelixente HUAWEI VPT300

A función de orientación da cámara por voz fíxose máis accesible: a solución universal SmartCam A12 Voice TrackingAtopei esta solución de Huawei por accidente. O sistema custa uns 9 dólares. Funciona só con terminais Huawei. Os desenvolvedores engadiron o seu propio "truco": un deseño de vídeo de dous altofalantes nunha soa pantalla se non hai ninguén máis na sala. En canto a características e funcionalidade declarada, esta é unha versión moi interesante do sistema de guiado automático. Pero, por desgraza, non atopei material de demostración. O único vídeo que apareceu sobre este tema foi unha revisión de vídeo editada da solución, sen son orixinal, musicada. Así, non foi posible avaliar a calidade do sistema. Por este motivo, non vou considerar esta opción.
Vexo que Huawei ten un blog activo sobre Habré; quizais os compañeiros poidan publicar algunha información útil sobre este produto.

Nova - solución universal Seguimento de voz SmartCam A12

A función de orientación da cámara por voz fíxose máis accesible: a solución universal SmartCam A12 Voice TrackingSmartCam A12VT - un monobloque, que inclúe dúas cámaras PTZ para o seguimento dos altofalantes, dúas cámaras integradas para analizar o deseño xeral da sala, así como unha matriz de micrófonos integrada na base da caixa; como podes ver, non hai voluminosos e estruturas fráxiles como as dos adversarios.
Antes de comezar a describir o novo produto, reunirei as características e as características das solucións de Cisco e Polycom para poder comparar SmartCam A12VT coas ofertas existentes.

Director de Polycom EagleEye

  • Custo de venda polo miúdo do sistema sen terminal - $ 13K
  • Custo mínimo da solución EagleEye Director + RealPresence Group 500 — $ 19K
  • Retardo medio de conmutación 3 segundos
  • Guía de voz + análise de vídeo
  • Altas esixencias na cara do altofalante: non podes ocultar a túa boca
  • Incompatibilidade con equipos de terceiros

Cisco TelePresence SpeakerTrack 60

  • Custo de venda polo miúdo do sistema sen terminal - $ 15,9K
  • Costo mínimo da solución de códec TelePresence SpeakerTrack 60 + SX80 - $ 30K
  • Retardo medio de conmutación 3 segundos
  • Guía de voz + análise de vídeo
  • Requisitos para a cara do falante: non comprobou, non atopou información
  • Incompatibilidade con equipos de terceiros

Seguimento de voz SmartCam A12

  • Custo de venda polo miúdo do sistema sen terminal - $ 6,2K
  • Custo mínimo da solución SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Custo mínimo da solución Terminal de software SmartCam A12VT+ - $ 7,7K
  • Retardo medio de conmutación 3 segundos
  • Guía de voz + análise de vídeo
  • Requisitos para a cara do falante - sen requisitos
  • Compatibilidade con terceiros - HDMI

Como dúas vantaxes principais e innegables da solución Seguimento de voz SmartCam A12 Atopei:

  1. Versatilidade de conectividade — a través de HDMI, o sistema intégrase cos sistemas de terminais de videoconferencia de hardware e software
  2. Baixo coste — cunha funcionalidade similar, A12VT é moitas veces máis accesible cun orzamento que as propostas descritas anteriormente.

Para demostrar como funciona o sistema, gravamos unha revisión de vídeo. A tarefa non era tanto publicitaria como funcional. Polo tanto, o vídeo carece do patetismo dun vídeo promocional de Polycom. O lugar elixido para a presentación non foi unha oficina de representación, senón unha sala de reunións de laboratorio da nosa compañeira, a empresa IPMatika.
O meu obxectivo non era ocultar os fallos do sistema, senón, pola contra, expor os embotellamentos da funcionalidade, forzar o sistema a cometer erros.

Na miña opinión, o sistema pasou as probas con éxito. Dígoo con confianza porque no momento de escribir este artigo, a solución Seguimento de voz SmartCam A12 visitou unha ducia de auténticas salas de reunións dos nosos clientes. Os fallos da automatización foron observados exclusivamente en condicións de violación das regras de funcionamento recomendadas. En particular, a distancia mínima aos participantes próximos. Se estás sentado moi preto da cámara, a menos dun metro, a matriz de micrófonos non poderá recoñecerte e a lente non poderá seguirte.

A función de orientación da cámara por voz fíxose máis accesible: a solución universal SmartCam A12 Voice Tracking

Ademais da distancia, hai outro requisito: a altura da cámara.

A función de orientación da cámara por voz fíxose máis accesible: a solución universal SmartCam A12 Voice Tracking

Se a cámara está instalada demasiado baixa, poden producirse problemas co posicionamento da voz. Desafortunadamente, a opción baixo a televisión non funcionou.
Pero instalar o sistema enriba dun dispositivo de visualización é unha forma ideal para que o dispositivo funcione. O estante da cámara está incluído; só se admite o soporte de parede de serie.

Como funciona o seguimento de voz SmartCam A12

As principais lentes PTZ teñen papeis iguais: a súa tarefa é seguir alternativamente aos presentadores e mostrar o plan xeral. A análise da imaxe xeral na sala e a determinación da distancia aos obxectos realízase mediante fluxos de vídeo recibidos de dúas cámaras integradas na base do sistema. Esta función permítelle reducir o tempo de reacción da lente ao cambiar o altofalante a 1-2 segundos. A cámara consegue alternar entre os participantes a un ritmo cómodo, aínda que intercambien frases curtas.
Unha demostración en vídeo do funcionamento do sistema reflicte plenamente a funcionalidade SmartCam A12VT. Pero, para aqueles que non viron o vídeo, describirei con palabras o principio de funcionamento da automatización:

  1. A sala está baleira: unha das lentes mostra o plan xeral, a segunda está lista - esperando xente
  2. As persoas entran na sala e toman asentos: a lente libre atopa os dous participantes extremos e enmarca a imaxe ao seu redor, cortando a parte baleira da sala.
  3. Mentres a xente se move, as lentes por quendas seguen a todos os que están na sala, mantendo no centro do cadro
  4. O falante comeza a falar: a lente está activa, axustada ao plan xeral. O segundo está dirixido ao altofalante e só entón pasa ao modo de emisión
  5. O altofalante cambia: a lente axustada ao primeiro altofalante está activa e a segunda lente deixa caer o plano ancho e axústase ao novo altofalante
  6. No momento de cambiar a imaxe do primeiro altofalante ao segundo, a lente libre axústase instantáneamente ao plano xeral da sala.
  7. Se todos están en silencio, a lente gratuíta mostrará un plan xeral preparado sen demoras
  8. Se o altofalante volve cambiar, a lente libre irá na súa busca

Conclusión

Na miña opinión, esta solución, presentada no ISE e ISR o ano pasado, achega a alta tecnoloxía, se non ás persoas, seguramente ás empresas. Está claro que por 400 mil rublos, poucas persoas comprarán un "xoguete" deste tipo para a casa, pero para os negocios, para as videoconferencias corporativas, esta é unha solución moi accesible e cómoda para o problema da orientación automática dunha cámara.
Dada a versatilidade Seguimento de voz SmartCam A12, o sistema pode usarse como unha solución desde cero ou como unha extensión da funcionalidade dunha infraestrutura de videoconferencia existente. Conectarse a través de HDMI é un gran paso para o usuario, en contraste cos sistemas propietarios dos fabricantes anteriormente descritos.

Gustaríame agradecer aos socios que colaboraron na proba.
Compañía IPMatika — para o terminal Yealink VC880, a sala de reunións e Yakushina Yura.
Compañía Smart-AV — polo dereito de primeira e exclusiva revisión da solución e dotación do sistema Seguimento de voz SmartCam A12 para probar.

No último artigo Deseñador de salas de reunións en liña: selección da solución de videoconferencia óptima, como promoción do sitio web vc4u.ru и Deseñador VKS anunciamos 10% de desconto desde o prezo en directorio por palabra de código HABR ata finais do verán de 2019.

O desconto aplícase aos produtos das seguintes seccións:

Á decisión Seguimento de voz SmartCam A12 Ofrezco un desconto adicional do 5% ao 10% xa existente - un total do 15% ata finais do verán de 2019.

Espero os teus comentarios e respostas na enquisa!

Grazas pola súa atención.
Saúdos,
Kirill Usikov (Usikoff)
Xefe de
Sistemas de videovixilancia e videoconferencia
[protexido por correo electrónico]
stss.ru
vc4u.ru

Só os usuarios rexistrados poden participar na enquisa. Rexístrate, por favor.

Que útil é o seguimento de voz SmartCam A12?

  • Por fin, apareceu unha solución universal para terminais de software e hardware.

  • A solución é boa, pero hai outras opcións dispoñibles (escribirei nos comentarios)

  • O sistema é débil, non chega a Polycom e Cisco. Escribirei nos comentarios por que deberías pagar 3 veces máis.

  • Quen precisa de orientación automática nunha sala de reunións?

  • Quen necesita unha cámara PTZ nunha sala de reunións? — Conectei a cámara web e estivo ben!

Votaron 8 usuarios. 5 usuarios abstivéronse.

Fonte: www.habr.com

Engadir un comentario