La función de orientación de la cámara por voz se ha vuelto más accesible: la solución universal SmartCam A12 Voice Tracking

La función de orientación de la cámara por voz se ha vuelto más accesible: la solución universal SmartCam A12 Voice TrackingEl tema del seguimiento de un participante que habla en una videoconferencia ha cobrado impulso en los últimos años. La tecnología ha hecho posible implementar algoritmos complejos para procesar información de audio/vídeo en tiempo real, lo que llevó a Polycom, hace casi 10 años, a presentar la primera solución generalizada del mundo con seguimiento automático e inteligente de los hablantes. Durante varios años lograron seguir siendo los únicos propietarios de dicha solución, pero Cisco no tuvo que esperar mucho y lanzó al mercado su versión de un sistema inteligente de dos cámaras, que era un competidor justo de la solución de Polycom. Durante muchos años, este segmento de las videoconferencias estuvo limitado por las capacidades de varios propiedad productos, pero este artículo está dedicado al primero universal Solución para guiado de cámaras por voz, compatible tanto con infraestructura hardware como software de videoconferencia.
Antes de pasar a describir soluciones y demostrar capacidades, quiero señalar un evento importante:
Es un honor para mí presentar a la comunidad de Habra nuevo centro, dedicada a soluciones de videoconferencia (VCC). Ahora, gracias a los esfuerzos conjuntos (mío y OVNI), Videoconferencia tiene su propio hogar en Habré, e invito a todos los involucrados en este tema extenso y actual a suscribirse nuevo centro.

Dos escenarios para apuntar la cámara al hablante

Por el momento, los integradores de soluciones de videoconferencia eligen dos formas diferentes de implementar la tarea de dirigirse al presentador:

  1. Automático - Inteligente
  2. Semiautomático - programable

La primera opción son solo soluciones de Cisco, Polycom y otros fabricantes, las consideraremos a continuación. Aquí se trata de la automatización total de apuntar la cámara al participante que habla en la videoconferencia. Los algoritmos únicos para procesar señales de audio/vídeo permiten que la cámara seleccione la posición deseada de forma independiente.

La segunda opción son los sistemas de automatización basados ​​​​en varios controladores de control externos, no los consideraremos en detalle, porque El artículo está dedicado específicamente al seguimiento automático de hablantes.
Hay bastantes partidarios del segundo escenario para implementar el apuntamiento de la cámara, y hay razones para ello. Los integradores experimentados comprenden que las soluciones inteligentes de Polycom y Cisco requieren condiciones operativas ideales para que la automatización funcione correctamente. Pero no siempre es posible proporcionar tales condiciones, por lo que el funcionamiento del sistema a veces está garantizado mediante la siguiente solución al problema de orientación de la cámara:

1. Todos los ajustes preestablecidos necesarios (posiciones del dispositivo PTZ y factor de zoom óptico) se ingresan manualmente de antemano en la memoria de la cámara (o, a veces, en el controlador de control). Como regla general, se trata de un plano general de la sala de reuniones y una vista de cada participante de la conferencia en modo vertical.

2. A continuación, se instalan en los lugares especificados los iniciadores para llamar al preajuste requerido: estos son consolas de micrófono o botones de radio, en general, cualquier dispositivo que pueda proporcionar al controlador una señal que comprenda.

3. El controlador de control está programado de tal manera que cada iniciador tiene su propio preajuste. Plano general de la sala: todos los iniciadores están apagados.
Como resultado, cuando se utiliza un sistema de congresos, por ejemplo, y un controlador de control, el orador, antes de comenzar su discurso, activa su consola de micrófono personal. El sistema de control procesa instantáneamente la posición guardada de la cámara.

Este escenario funciona a la perfección: el sistema no necesita realizar triangulación de voz ni análisis de vídeo. Presioné el botón y el preset funcionó, sin retrasos ni falsos positivos.
Los sistemas de control y automatización se utilizan en salas grandes y complejas, donde a veces se instalan no una, sino varias cámaras de vídeo. Pues bien, para salas de reuniones pequeñas y medianas, los sistemas automáticos son bastante adecuados (si tienes presupuesto).
Empecemos por los padres fundadores.

Director de Polycom EagleEye

La función de orientación de la cámara por voz se ha vuelto más accesible: la solución universal SmartCam A12 Voice TrackingEsta solución causó sensación en el campo de las videoconferencias. Polycom EagleEye Director fue la primera solución en el campo de la guía inteligente de cámaras. La solución consta de una unidad base EagleEye Director y dos cámaras. La peculiaridad de esta primera implementación es que una cámara está destinada únicamente a una vista de cerca del orador, y la segunda, a un plano general de la sala de reuniones. Al mismo tiempo, la cámara de planta general se puede colocar completamente separada de la base en otro lugar de la sala de reuniones; no participa directamente en el proceso de guía automática.
El sistema funciona de la siguiente manera:

  1. La cámara general de la sala está activa: todos están en silencio.
  2. El orador comienza a hablar: el conjunto de micrófonos capta la voz, la cámara se mueve hacia el sonido utilizando una tecnología patentada que incluye triangulación de voz. La cámara general sigue activa.
  3. La cámara principal apenas comienza a buscar la fuente de sonido y realiza análisis de video. El sistema identifica al hablante mediante la conexión ojo-nariz-boca, encuadra la imagen del hablante y muestra la transmisión desde la cámara principal.
  4. El hablante cambia. El conjunto de micrófonos entiende que la voz proviene de otro lugar. El plan general se vuelve a activar.
  5. Y luego en círculo, comenzando desde el punto 2.
  6. Si el nuevo altavoz está en cuadro con el anterior, el sistema realiza un cambio de posicionamiento “en caliente” sin cambiar el flujo activo al plano general.

La desventaja, en mi opinión, es la presencia de una sola cámara principal. Esto produce un retraso significativo al cambiar de altavoz. Y cada vez, en el momento de señalar, el sistema enciende el plano general de la habitación; durante una conversación animada, este parpadeo comienza a irritar.

EagleEye Director II de Polycom

La función de orientación de la cámara por voz se ha vuelto más accesible: la solución universal SmartCam A12 Voice TrackingEsta es la segunda versión de la solución de Polycom, que se lanzó hace relativamente poco tiempo. El principio de funcionamiento ha sufrido cambios y se parece más a una solución de Cisco. Ahora ambas cámaras PTZ son las principales y sirven para cambiar de canal sin problemas de un presentador a otro. El diseño general de la sala de reuniones ahora se captura mediante una cámara separada integrada en el cuerpo de la unidad base EagleEye Director II. Por alguna razón, la transmisión de esta cámara gran angular se muestra en una ventana adicional en la esquina de la pantalla, ocupando 1/9 de la transmisión principal. El principio de posicionamiento es el mismo: triangulación de voz y análisis de transmisión de video. Y los obstáculos son los mismos: si el sistema no ve la boca que habla, la cámara no apuntará. Y esta situación puede ocurrir con bastante frecuencia: el hablante se ha dado la vuelta, el hablante se ha vuelto de lado, el hablante es un ventrílocuo, el hablante se ha tapado la boca con la mano o con un documento.
Ambos videos promocionales fueron filmados de manera competente: 2 personas hablan por turnos y abren la boca como si estuvieran en una cita con un logopeda. Pero incluso en condiciones tan refinadas hay un retraso muy significativo. Pero el encuadre es impecable: un cómodo retrato.

Altavoz Cisco TelePresencePista 60

La función de orientación de la cámara por voz se ha vuelto más accesible: la solución universal SmartCam A12 Voice TrackingPara describir esta solución, utilizaré texto del folleto oficial.
SpeakerTrack 60 adopta un enfoque único de doble cámara para cambiar rápidamente y directamente entre los participantes. Una cámara encuentra rápidamente un primer plano del presentador activo, mientras que la otra busca y muestra al siguiente presentador. La función MultiSpeaker evita cambios innecesarios si el siguiente altavoz ya está presente en el cuadro actual.
Lamentablemente, no tuve la oportunidad de probar el SpeakerTrack 60 yo mismo. Por lo tanto, es necesario sacar conclusiones basadas en la opinión “del campo” y en los resultados del análisis del vídeo de demostración a continuación. Conté un retraso máximo de casi 8 segundos al señalar a un nuevo presentador. El retraso medio fue de 2 a 3 segundos, a juzgar por el vídeo.

Cámara de vídeo de seguimiento inteligente HUAWEI VPT300

La función de orientación de la cámara por voz se ha vuelto más accesible: la solución universal SmartCam A12 Voice TrackingEncontré esta solución de Huawei por accidente. El sistema cuesta alrededor de 9 dólares. Funciona únicamente con terminales Huawei. Los desarrolladores agregaron su propio "truco": un diseño de video de dos parlantes en una pantalla si no hay nadie más en la sala. En cuanto a características y funcionalidad declarada, se trata de una versión muy interesante del sistema de guiado automático. Pero, lamentablemente, no encontré absolutamente ningún material de demostración. El único vídeo que apareció sobre este tema fue una reseña en vídeo editada de la solución, sin sonido original, con música. Por tanto, no fue posible evaluar la calidad del sistema. Por este motivo no consideraré esta opción.
Veo que Huawei tiene un blog activo sobre Habré; tal vez sus colegas puedan publicar información útil sobre este producto.

Nuevo - solución universal Seguimiento de voz SmartCam A12

La función de orientación de la cámara por voz se ha vuelto más accesible: la solución universal SmartCam A12 Voice TrackingCámara inteligente A12VT - un monobloque, que incluye dos cámaras PTZ para rastrear a los oradores, dos cámaras integradas para analizar el diseño general de la sala, así como un conjunto de micrófonos integrado en la base de la carcasa; como puede ver, no hay elementos voluminosos y estructuras frágiles como las de los oponentes.
Antes de comenzar a describir el nuevo producto, reuniré las características y prestaciones de las soluciones de Cisco y Polycom para poder comparar. Cámara inteligente A12VT con ofertas existentes.

Director de Polycom EagleEye

  • Costo minorista del sistema sin terminal - $ 13K
  • Costo mínimo de la solución EagleEye Director + RealPresence Group 500: $ 19K
  • Retardo de conmutación promedio 3 segundos
  • Guía de voz + análisis de vídeo
  • Altas exigencias en el rostro del hablante: no puedes ocultar la boca
  • Incompatibilidad con equipos de terceros

Altavoz Cisco TelePresencePista 60

  • Costo minorista del sistema sin terminal - $ 15,9K
  • Coste mínimo de la solución TelePresence SpeakerTrack 60 + SX80 Codec - $ 30K
  • Retardo de conmutación promedio 3 segundos
  • Guía de voz + análisis de vídeo
  • Requisitos para la cara del hablante: no verifiqué, no encontré información
  • Incompatibilidad con equipos de terceros

Seguimiento de voz SmartCam A12

  • Costo minorista del sistema sin terminal - $ 6,2K
  • Costo mínimo de la solución SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Costo mínimo de la solución Terminal de software SmartCam A12VT+ - $ 7,7K
  • Retardo de conmutación promedio 3 segundos
  • Guía de voz + análisis de vídeo
  • Requisitos para el rostro del hablante: sin requisitos
  • Compatibilidad con terceros: HDMI

Como dos principales e innegables ventajas de la solución. Seguimiento de voz SmartCam A12 Encuentro:

  1. Versatilidad de conectividad — A través de HDMI, el sistema se integra con sistemas de terminales de videoconferencia tanto de hardware como de software.
  2. Bajo costo — con una funcionalidad similar, el A12VT es mucho más asequible en términos de presupuesto que las propuestas descritas anteriormente.

Para demostrar cómo funciona el sistema, grabamos una revisión en video. La tarea no era tanto publicitaria sino funcional. Por lo tanto, el vídeo carece del patetismo de un vídeo promocional de Polycom. El lugar elegido para la presentación no fue una oficina de representación, sino una sala de reuniones del laboratorio de nuestro socio, la empresa IPMatika.
Mi objetivo no era ocultar los defectos del sistema, sino, por el contrario, exponer los cuellos de botella de la funcionalidad, obligar al sistema a cometer errores.

En mi opinión, el sistema pasó las pruebas con éxito. Lo digo con confianza porque al momento de escribir este artículo, la solución Seguimiento de voz SmartCam A12 Visitamos una docena de salas de reuniones reales de nuestros clientes. Los fallos de funcionamiento de la automatización se observaron exclusivamente en condiciones de violación de las reglas de funcionamiento recomendadas. En particular, la distancia mínima con los participantes cercanos. Si te sientas muy cerca de la cámara, a menos de un metro, el conjunto de micrófonos no podrá reconocerte y la lente no podrá seguirte.

La función de orientación de la cámara por voz se ha vuelto más accesible: la solución universal SmartCam A12 Voice Tracking

Además de la distancia, existe otro requisito: la altura de la cámara.

La función de orientación de la cámara por voz se ha vuelto más accesible: la solución universal SmartCam A12 Voice Tracking

Si la cámara se instala demasiado baja, pueden ocurrir problemas con el posicionamiento de la voz. La opción debajo del televisor, lamentablemente, no funcionó.
Pero instalar el sistema encima de un dispositivo de visualización es una forma ideal de que el dispositivo funcione. El estante para la cámara está incluido; solo se admite el soporte de pared como estándar.

Cómo funciona el seguimiento de voz SmartCam A12

Las lentes PTZ principales tienen funciones iguales: su tarea es rastrear alternativamente a los presentadores y mostrar el plan general. El análisis de la imagen general de la habitación y la determinación de la distancia a los objetos se realiza mediante transmisiones de vídeo recibidas de dos cámaras integradas en la base del sistema. Esta característica le permite reducir el tiempo de reacción de la lente al cambiar el altavoz a 1-2 segundos. La cámara logra alternar entre los participantes a un ritmo cómodo, incluso si intercambian frases cortas.
Una demostración en vídeo del funcionamiento del sistema refleja plenamente la funcionalidad. Cámara inteligente A12VT. Pero, para aquellos que no hayan visto el vídeo, describiré con palabras el principio de funcionamiento de la automatización:

  1. La habitación está vacía: una de las lentes muestra el plano general, la segunda está lista, esperando a la gente.
  2. La gente entra en la sala y toma asiento: la lente libre encuentra a los dos participantes extremos y encuadra la imagen a su alrededor, cortando la parte vacía de la sala.
  3. Mientras las personas se mueven, las lentes se turnan para seguir a todos los que están en la habitación, manteniéndolos en el centro del encuadre.
  4. El hablante comienza a hablar: la lente está activa, ajustada al plan general. El segundo está dirigido al hablante y solo entonces pasa al modo de transmisión.
  5. El altavoz cambia: la lente ajustada al primer altavoz se activa y la segunda lente baja la toma panorámica y se ajusta al nuevo altavoz.
  6. En el momento de cambiar la imagen del primer altavoz al segundo, la lente libre se ajusta instantáneamente al plano general de la habitación.
  7. Si todos guardan silencio, la lente gratuita mostrará sin demora un plan general ya preparado
  8. Si el hablante vuelve a cambiar, la lente libre irá a buscarlo

Conclusión

En mi opinión, esta solución, presentada en ISE e ISR el año pasado, acerca la alta tecnología, si no a las personas, seguramente a las empresas. Está claro que por 400 mil rublos, pocas personas comprarán un "juguete" de este tipo para el hogar, pero para los negocios, para las videoconferencias corporativas, esta es una solución muy asequible y conveniente al problema de la orientación automática de una cámara.
Dada la versatilidad Seguimiento de voz SmartCam A12, el sistema se puede utilizar como una solución desde cero o como una extensión de la funcionalidad de una infraestructura de videoconferencia existente. La conexión a través de HDMI es un gran paso hacia el usuario, a diferencia de los sistemas propietarios de los fabricantes descritos anteriormente.

Me gustaría agradecer a los socios que ayudaron en las pruebas.
Empresa IPMatika — para el terminal Yealink VC880, la sala de reuniones y Yakushina Yura.
Empresa AV inteligente — por el derecho de revisión primera y exclusiva de la solución y provisión del sistema Seguimiento de voz SmartCam A12 para las pruebas.

En el ultimo articulo Diseñador de salas de reuniones online: selección de la solución de videoconferencia óptima, como promoción del sitio web vc4u.ru и diseñador VKS anunciamos 10% de descuento desde precio en directorio por palabra clave HABR hasta finales del verano de 2019.

El descuento se aplica a productos de las siguientes secciones:

a la decisión Seguimiento de voz SmartCam A12 Ofrezco un 5% de descuento adicional al 10% ya existente - un total del 15% hasta finales del verano de 2019.

¡Espero sus comentarios y respuestas en la encuesta!

Gracias por su atención.
Atentamente,
Kirill Usikov (Usikoff)
Jefe de
Sistemas de videovigilancia y videoconferencia.
[email protected]
stss.ru
vc4u.ru

Solo los usuarios registrados pueden participar en la encuesta. Registrarsepor favor

¿Qué tan útil es el seguimiento de voz SmartCam A12?

  • ¡Finalmente ha aparecido una solución universal para terminales de software y hardware!

  • La solución es buena, pero hay otras opciones disponibles (escribiré en los comentarios)

  • El sistema es débil, no llega a Polycom ni a Cisco. ¡Escribiré en los comentarios por qué debería pagar 3 veces más!

  • De todos modos, ¿quién necesita autoguía en una sala de reuniones?

  • ¿Quién necesita una cámara PTZ en una sala de reuniones? — ¡Conecté la cámara web y estuvo bien!

8 usuarios votaron. 5 usuarios se abstuvieron.

Fuente: habr.com

Añadir un comentario