La funció d'orientació de la càmera per veu s'ha tornat més accessible: la solució universal SmartCam A12 Voice Tracking

La funció d'orientació de la càmera per veu s'ha tornat més accessible: la solució universal SmartCam A12 Voice TrackingEl tema del seguiment d'un participant parlant en una videoconferència ha guanyat força durant els últims anys. La tecnologia ha permès implementar algorismes complexos per processar informació d'àudio/vídeo en temps real, cosa que va impulsar Polycom, fa gairebé 10 anys, a introduir la primera solució principal del món amb seguiment automàtic intel·ligent d'altaveus. Durant diversos anys van aconseguir seguir sent els únics propietaris d'aquesta solució, però Cisco no va haver d'esperar gaire i va portar al mercat la seva versió d'un sistema intel·ligent de dues càmeres, que era un competidor just de la solució de Polycom. Durant molts anys, aquest segment de videoconferència es va veure limitat per les capacitats de diversos propietari productes, però aquest article està dedicat al primer universal solució per a la guia de càmeres per veu, compatible amb la infraestructura de maquinari i programari per a videoconferències.
Abans de passar a la descripció de solucions i a la demostració de capacitats, vull assenyalar un esdeveniment important:
Estic honrat de presentar-lo a la comunitat Habra nou hub, dedicada a solucions de videoconferència (VCC). Ara, gràcies als esforços conjunts (el meu i l'OVNI), Videoconferència té la seva pròpia casa a Habré, i convido a tots els implicats en aquest tema extens i actual a subscriure's nou hub.

Dos escenaris per apuntar la càmera cap a l'altaveu

En aquests moments, els integradors de solucions de videoconferència trien ells mateixos dues maneres diferents d'implementar la tasca d'orientar el presentador:

  1. Automàtic - Intel·ligent
  2. Semiautomàtic - programable

La primera opció són només solucions de Cisco, Polycom i altres fabricants que les considerarem a continuació. Aquí estem tractant de l'automatització total d'apuntar la càmera al participant que parla a la videoconferència. Els algorismes únics per processar senyals d'àudio/vídeo permeten a la càmera seleccionar la posició desitjada de manera independent.

La segona opció són els sistemes d'automatització basats en diversos controladors de control externs, no els considerarem en detall; L'article està dedicat específicament al seguiment automàtic dels parlants.
Hi ha força partidaris del segon escenari per implementar l'apuntament de càmera, i hi ha raons per això. Els integradors experimentats entenen que les solucions intel·ligents de Polycom i Cisco requereixen condicions de funcionament ideals perquè l'automatització funcioni correctament. Però no sempre és possible proporcionar aquestes condicions, de manera que el funcionament del sistema de vegades està garantit per la següent solució al problema d'apuntament de la càmera:

1. Tots els valors predefinits necessaris (posicions del dispositiu PTZ i factor de zoom òptic) s'introdueixen manualment per endavant a la memòria de la càmera (o de vegades al controlador de control). Per regla general, aquest és un pla general de la sala de reunions i una visió de cada participant de la conferència en mode retrat.

2. A continuació, els iniciadors per trucar al preajust necessari s'instal·len als llocs especificats: es tracta de consoles de micròfons o botons de ràdio, en general, qualsevol dispositiu que pugui proporcionar al controlador de control un senyal que entengui.

3. El controlador de control està programat de manera que cada iniciador tingui el seu propi preajust. Pla general de l'habitació: tots els iniciadors estan apagats.
Com a resultat, quan s'utilitza un sistema de congressos, per exemple, i un controlador de control, l'orador, abans de començar la seva intervenció, activa la seva consola de micròfon personal. El sistema de control processa instantàniament la posició de la càmera desada.

Aquest escenari funciona perfectament: el sistema no necessita realitzar triangulacions de veu ni analítiques de vídeo. Vaig prémer el botó i el preajust va funcionar, sense retards ni falsos positius.
Els sistemes de control i automatització s'utilitzen en sales grans i complexes, on de vegades no hi ha una, sinó diverses càmeres de vídeo. Bé, per a sales de reunions petites i mitjanes, els sistemes automàtics són força adequats (si tens el pressupost).
Comencem pels pares fundadors.

Director de Polycom EagleEye

La funció d'orientació de la càmera per veu s'ha tornat més accessible: la solució universal SmartCam A12 Voice TrackingAquesta solució va crear sensació en el camp de la videoconferència. Polycom EagleEye Director va ser la primera solució en el camp de la guia intel·ligent de la càmera. La solució consisteix en una unitat base EagleEye Director i dues càmeres. La peculiaritat d'aquesta primera implementació és que una càmera s'assigna només a una visió de primer pla de l'altaveu i la segona, a un pla general de la sala de reunions. Al mateix temps, la càmera del pla general es pot col·locar completament separada de la base en un altre lloc de la sala de reunions; no participa directament en el procés d'orientació automàtica.
El sistema funciona de la següent manera:

  1. La càmera general de la sala està activa: tothom calla
  2. L'altaveu comença a parlar: la matriu de micròfons capta la veu, la càmera es mou cap al so mitjançant una tecnologia patentada que inclou la triangulació de la veu. La càmera general encara està activa
  3. La càmera principal tot just comença a buscar la font de so, realitzant anàlisis de vídeo. El sistema identifica l'altaveu per la connexió ull-nas-boca, emmarca la imatge de l'altaveu i mostra el flux de la càmera principal
  4. El parlant canvia. La matriu de micròfons entén que la veu prové d'un altre lloc. El pla general es torna a activar.
  5. I després en un cercle, començant pel punt 2
  6. Si el nou altaveu es troba en el marc amb l'anterior, el sistema fa un canvi de posicionament "calent" sense canviar el flux actiu a la presa general.

L'inconvenient, al meu entendre, és la presència d'una sola càmera principal. Això provoca un retard important en canviar els altaveus. I cada vegada que en el moment d'assenyalar, el sistema activa el pla general de l'habitació; durant una conversa animada, aquest parpelleig comença a irritar-se.

Polycom EagleEye Director II

La funció d'orientació de la càmera per veu s'ha tornat més accessible: la solució universal SmartCam A12 Voice TrackingAquesta és la segona versió de la solució de Polycom, que es va publicar fa relativament poc. El principi de funcionament ha sofert canvis i s'ha convertit més en una solució de Cisco. Ara les dues càmeres PTZ són les principals i serveixen per canviar els canals sense problemes d'un presentador a un altre. La disposició general de la sala de reunions ara es captura amb una càmera independent integrada al cos de la unitat base EagleEye Director II. Per alguna raó, el flux d'aquesta càmera gran angular es mostra en una finestra addicional a la cantonada de la pantalla, ocupant 1/9 del flux principal. El principi de posicionament és el mateix: triangulació de veu i anàlisi de flux de vídeo. I els colls d'ampolla són els mateixos: si el sistema no veu la boca parlant, la càmera no apuntarà. I aquesta situació pot passar amb força freqüència: l'orador s'ha girat, l'orador s'ha girat de costat, l'orador és un ventríloc, l'orador s'ha tapat la boca amb la mà o amb un document.
Tots dos vídeos promocionals es van gravar de manera competent: dues persones parlen per torns i obren la boca com si fossin una cita amb un logopeda. Però fins i tot en condicions tan refinades hi ha un retard molt important. Però l'enquadrament és impecable: un retrat còmode.

Cisco TelePresence SpeakerTrack 60

La funció d'orientació de la càmera per veu s'ha tornat més accessible: la solució universal SmartCam A12 Voice TrackingPer descriure aquesta solució, utilitzaré el text del fulletó oficial.
SpeakerTrack 60 adopta un enfocament únic de doble càmera per canviar ràpidament directament entre els participants. Una càmera troba ràpidament un primer pla del presentador actiu, mentre que l'altra cerca i mostra el següent presentador. La funció MultiSpeaker evita canvis innecessaris si el següent altaveu ja està present al fotograma actual.
Malauradament, no vaig tenir l'oportunitat de provar l'SpeakerTrack 60 jo mateix. Per tant, s'han d'extreure conclusions basant-se en l'opinió "des del camp" i basant-se en els resultats de l'anàlisi del vídeo de demostració a continuació. Vaig comptar un retard màxim de gairebé 8 segons quan apuntava a un nou presentador. El retard mitjà va ser de 2 a 3 segons, a jutjar pel vídeo.

Càmera de vídeo de seguiment intel·ligent HUAWEI VPT300

La funció d'orientació de la càmera per veu s'ha tornat més accessible: la solució universal SmartCam A12 Voice TrackingEm vaig trobar amb aquesta solució de Huawei per casualitat. El sistema costa uns 9 dòlars. Només funciona amb terminals Huawei. Els desenvolupadors van afegir el seu propi "truc": un disseny de vídeo de dos altaveus en una pantalla si no hi ha ningú més a la sala. Pel que fa a les característiques i la funcionalitat declarada, es tracta d'una versió molt interessant del sistema de guiat automàtic. Però, malauradament, no he trobat absolutament cap material de demostració. L'únic vídeo que va aparèixer sobre aquest tema va ser una revisió de vídeo editada de la solució, sense so original, musicada. Per tant, no va ser possible avaluar la qualitat del sistema. Per aquest motiu, no consideraré aquesta opció.
Veig que Huawei té un bloc actiu sobre Habré; potser els companys podran publicar informació útil sobre aquest producte.

Nova solució universal Seguiment de veu SmartCam A12

La funció d'orientació de la càmera per veu s'ha tornat més accessible: la solució universal SmartCam A12 Voice TrackingSmartCam A12VT - un monobloc, que inclou dues càmeres PTZ per fer el seguiment dels altaveus, dues càmeres integrades per analitzar la disposició general de l'habitació, així com una matriu de micròfons integrada a la base de la caixa; com podeu veure, no hi ha cap tipus de voluminós i estructures fràgils com les dels oponents.
Abans de començar a descriure el nou producte, reuniré les característiques i les característiques de les solucions de Cisco i Polycom per poder comparar SmartCam A12VT amb les ofertes existents.

Director de Polycom EagleEye

  • Cost de venda al detall del sistema sense terminal - $ 13K
  • Cost mínim de la solució EagleEye Director + RealPresence Group 500 — $ 19K
  • Retard mitjà de commutació 3 segons
  • Guia de veu + anàlisi de vídeo
  • Grans exigències a la cara de l'orador: no podeu amagar la boca
  • Incompatibilitat amb equips de tercers

Cisco TelePresence SpeakerTrack 60

  • Cost de venda al detall del sistema sense terminal - $ 15,9K
  • Cost mínim de la solució de còdec TelePresence SpeakerTrack 60 + SX80 - $ 30K
  • Retard mitjà de commutació 3 segons
  • Guia de veu + anàlisi de vídeo
  • Requisits per a la cara de l'orador: no va comprovar, no va trobar informació
  • Incompatibilitat amb equips de tercers

Seguiment de veu SmartCam A12

  • Cost de venda al detall del sistema sense terminal - $ 6,2K
  • Cost mínim de la solució SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Cost mínim de la solució Terminal de programari SmartCam A12VT+ - $ 7,7K
  • Retard mitjà de commutació 3 segons
  • Guia de veu + anàlisi de vídeo
  • Requisits per a la cara de l'orador: no hi ha requisits
  • Compatibilitat amb tercers - HDMI

Com a dos principals i innegables avantatges de la solució Seguiment de veu SmartCam A12 Trobo:

  1. Versalitat de connectivitat — mitjançant HDMI, el sistema s'integra amb sistemes de terminals de videoconferència de maquinari i programari
  2. Baix cost - Amb una funcionalitat similar, A12VT és moltes vegades més assequible amb un pressupost que les propostes descrites anteriorment.

Per demostrar com funciona el sistema, vam gravar una revisió de vídeo. La tasca no era tant publicitària com funcional. Per tant, el vídeo no té el pathos d'un vídeo promocional de Polycom. El lloc escollit per a la presentació no va ser una oficina de representació, sinó una sala de reunions de laboratori del nostre soci, l'empresa IPMatika.
El meu objectiu no era amagar els defectes del sistema, sinó, al contrari, exposar els colls d'ampolla de la funcionalitat, obligar el sistema a cometre errors.

Al meu entendre, el sistema va superar les proves amb èxit. Ho dic amb confiança perquè en el moment d'escriure aquest article, la solució Seguiment de veu SmartCam A12 vam visitar una dotzena de sales de reunions reals dels nostres clients. Els errors de funcionament de l'automatització es van observar exclusivament en condicions d'incompliment de les normes de funcionament recomanades. En particular, la distància mínima als participants propers. Si us asseieu molt a prop de la càmera, a menys d'un metre, la matriu de micròfons no us podrà reconèixer i la lent no us podrà seguir.

La funció d'orientació de la càmera per veu s'ha tornat més accessible: la solució universal SmartCam A12 Voice Tracking

A més de la distància, hi ha un altre requisit: l'alçada de la càmera.

La funció d'orientació de la càmera per veu s'ha tornat més accessible: la solució universal SmartCam A12 Voice Tracking

Si la càmera està instal·lada massa baixa, es poden produir problemes amb el posicionament de la veu. L'opció sota el televisor, malauradament, no va funcionar.
Però instal·lar el sistema a sobre d'un dispositiu de visualització és una manera ideal perquè el dispositiu funcioni. El prestatge de la càmera està inclòs; només s'admet el suport de paret de sèrie.

Com funciona el seguiment de veu SmartCam A12

Les lents PTZ principals tenen els mateixos rols: la seva tasca és fer un seguiment alternatiu dels presentadors i mostrar el pla general. L'anàlisi de la imatge general de l'habitació i la determinació de la distància als objectes es realitza mitjançant fluxos de vídeo rebuts de dues càmeres integrades a la base del sistema. Aquesta característica us permet reduir el temps de reacció de la lent quan canvieu l'altaveu a 1-2 segons. La càmera aconsegueix alternar els participants a un ritme còmode, encara que intercanvien frases curtes.
Una demostració de vídeo del funcionament del sistema reflecteix completament la funcionalitat SmartCam A12VT. Però, per a aquells que no hagin vist el vídeo, descriuré amb paraules el principi de funcionament de l'automatització:

  1. L'habitació està buida: una de les lents mostra el pla general, la segona està a punt - esperant gent
  2. La gent entra a la sala i s'asseu: la lent lliure troba els dos participants extrems i emmarca la imatge al seu voltant, tallant la part buida de la sala.
  3. Mentre la gent es mou, les lents es tornen fent un seguiment de tothom a l'habitació, mantenint-los al centre del marc.
  4. El parlant comença a parlar: la lent està activa, ajustada al pla general. El segon està dirigit a l'altaveu i només després entra en mode d'emissió
  5. L'altaveu canvia: la lent ajustada al primer altaveu està activa, i la segona lent deixa caure el pla gran i s'ajusta al nou altaveu
  6. En el moment de canviar la imatge del primer altaveu al segon, la lent lliure s'ajusta instantàniament al pla general de l'habitació.
  7. Si tothom calla, la lent gratuïta mostrarà un pla general preparat sense cap demora
  8. Si l'orador torna a canviar, la lent lliure anirà a buscar-lo

Conclusió

Al meu entendre, aquesta solució, presentada a l'ISE i l'ISR l'any passat, acosta l'alta tecnologia, si no a la gent, segurament als negocis. Està clar que per 400 mil rubles, poques persones compraran aquesta "joguina" per a la llar, però per a negocis, per a videoconferències corporatives, aquesta és una solució molt assequible i convenient per al problema de l'orientació automàtica d'una càmera.
Donada la versatilitat Seguiment de veu SmartCam A12, el sistema es pot utilitzar com a solució des de zero o com una extensió de la funcionalitat d'una infraestructura de videoconferència existent. La connexió mitjançant HDMI és un gran pas cap a l'usuari, en contrast amb els sistemes propietaris dels fabricants descrits anteriorment.

M'agradaria donar les gràcies als socis que m'han ajudat en la prova.
empresa IPMatika — per al terminal Yealink VC880, sala de reunions i Yakushina Yura.
empresa Smart-AV — pel dret de primera i exclusiva revisió de la solució i prestació del sistema Seguiment de veu SmartCam A12 per provar.

En l'últim article Dissenyador de sales de reunions en línia: selecció de la solució de videoconferència òptima, com a promoció del lloc web vc4u.ru и Dissenyador VKS vam anunciar 10% de descompte des del preu en directori per paraula clau HABR fins a finals de l'estiu de 2019.

El descompte s'aplica als productes de les seccions següents:

A la decisió Seguiment de veu SmartCam A12 Ofereixo un descompte addicional del 5% al ​​10% ja existent - un total del 15% fins a finals de l'estiu del 2019.

Espero els vostres comentaris i respostes a l'enquesta!

Gràcies per la seva atenció.
Atentament,
Kirill Usikov (Usikoff)
Cap de
Sistemes de videovigilància i videoconferència
[protegit per correu electrònic]
stss.ru
vc4u.ru

Només els usuaris registrats poden participar en l'enquesta. Inicia sessiósi us plau.

Què tan útil és el seguiment de veu SmartCam A12?

  • Finalment, ha aparegut una solució universal per a terminals de programari i maquinari!

  • La solució és bona, però hi ha altres opcions disponibles (escriuré als comentaris)

  • El sistema és feble, no arriba a Polycom i Cisco. Escriuré als comentaris per què hauríeu de pagar 3 vegades més!

  • Qui necessita guia automàtica en una sala de reunions de totes maneres?

  • Qui necessita una càmera PTZ a una sala de reunions de totes maneres? — Vaig connectar la càmera web i va anar bé!

Han votat 8 usuaris. 5 usuaris es van abstenir.

Font: www.habr.com

Afegeix comentari