La fonction de ciblage vocal des caméras est devenue plus accessible - la solution universelle SmartCam A12 Voice Tracking

La fonction de ciblage vocal des caméras est devenue plus accessible - la solution universelle SmartCam A12 Voice TrackingLe sujet du suivi d’un participant parlant lors d’une vidéoconférence a pris de l’ampleur ces dernières années. La technologie a permis de mettre en œuvre des algorithmes complexes pour traiter les informations audio/vidéo en temps réel, ce qui a incité Polycom, il y a près de 10 ans, à introduire la première solution grand public au monde avec suivi automatique intelligent des locuteurs. Pendant plusieurs années, ils ont réussi à rester les seuls propriétaires d'une telle solution, mais Cisco n'a pas eu à attendre longtemps et a mis sur le marché sa version d'un système intelligent à deux caméras, qui était un concurrent légitime de la solution de Polycom. Pendant de nombreuses années, ce segment de la visioconférence a été limité par les capacités de plusieurs propriétaire produits, mais cet article est dédié au premier universel solution de guidage vocal par caméra, compatible avec l'infrastructure matérielle et logicielle de visioconférence.
Avant de passer à la description des solutions et à la démonstration des capacités, je souhaite souligner un événement important :
J'ai l'honneur de présenter à la communauté Habra nouveau centre, dédié aux solutions de visioconférence (VCC). Maintenant, grâce aux efforts conjoints (le mien et l'OVNI), Vidéo conférence a sa propre maison sur Habré, et j'invite toutes les personnes impliquées dans ce sujet vaste et actuel à s'abonner à nouveau centre.

Deux scénarios pour pointer la caméra vers l'orateur

À l'heure actuelle, les intégrateurs de solutions de visioconférence choisissent eux-mêmes deux manières différentes de mettre en œuvre la tâche de ciblage du présentateur :

  1. Automatique - Intelligent
  2. Semi-automatique - programmable

La première option concerne uniquement les solutions de Cisco, Polycom et d'autres fabricants ; nous les examinerons ci-dessous. Nous traitons ici de l'automatisation complète du pointage de la caméra vers le participant qui parle à la vidéoconférence. Des algorithmes uniques de traitement des signaux audio/vidéo permettent à la caméra de sélectionner indépendamment la position souhaitée.

La deuxième option concerne les systèmes d'automatisation basés sur divers contrôleurs de contrôle externes ; nous ne les examinerons pas en détail, car L'article est spécifiquement consacré au suivi automatique des locuteurs.
Il existe de nombreux partisans du deuxième scénario de mise en œuvre du pointage de caméra, et il y a de nombreuses raisons à cela. Les intégrateurs expérimentés comprennent que les solutions intelligentes de Polycom et Cisco nécessitent des conditions de fonctionnement idéales pour que l'automatisation fonctionne correctement. Mais il n’est pas toujours possible de garantir de telles conditions, c’est pourquoi le fonctionnement du système est parfois garanti par la solution suivante au problème de pointage de la caméra :

1. Tous les préréglages nécessaires (positions du dispositif PTZ et facteur de zoom optique) sont saisis manuellement au préalable dans la mémoire de la caméra (ou parfois dans le contrôleur de contrôle). En règle générale, il s'agit d'un plan général de la salle de réunion, et d'une vue de chaque participant à la conférence en mode portrait.

2. Ensuite, les initiateurs pour appeler le préréglage requis sont installés aux endroits spécifiés - il s'agit soit de consoles de microphone, soit de boutons radio, en général, tout appareil capable de fournir au contrôleur de contrôle un signal qu'il comprend.

3. Le contrôleur de contrôle est programmé de telle manière que chaque initiateur ait son propre préréglage. Plan général de la salle - tous les initiateurs sont éteints.
De ce fait, lorsqu'il utilise un système de congrès par exemple et un contrôleur de contrôle, l'orateur, avant de commencer son discours, active sa console micro personnelle. Le système de contrôle traite instantanément la position enregistrée de la caméra.

Ce scénario fonctionne parfaitement : le système n'a pas besoin d'effectuer de triangulation vocale ni d'analyse vidéo. J'ai appuyé sur le bouton et le préréglage a fonctionné, pas de retard ni de faux positifs.
Les systèmes de contrôle et d'automatisation sont utilisés dans de grandes pièces complexes, où sont parfois installées non pas une, mais plusieurs caméras vidéo. Eh bien, pour les salles de réunion de petite et moyenne taille, les systèmes automatiques conviennent tout à fait (si vous avez le budget).
Commençons par les pères fondateurs.

Directeur Polycom EagleEye

La fonction de ciblage vocal des caméras est devenue plus accessible - la solution universelle SmartCam A12 Voice TrackingCette solution a autrefois fait sensation dans le domaine de la visioconférence. Polycom EagleEye Director a été la première solution dans le domaine du guidage intelligent par caméra. La solution se compose d'une unité de base EagleEye Director et de deux caméras. La particularité de cette première implémentation est qu'une caméra est réservée uniquement à une vue rapprochée de l'orateur, et la seconde - à un plan général de la salle de réunion. Dans le même temps, la caméra du plan général peut être placée complètement séparément de la base à un autre endroit de la salle de réunion - elle n'est pas directement impliquée dans le processus de guidage automatique.
Le système fonctionne comme suit :

  1. La caméra générale de la pièce est active - tout le monde est silencieux
  2. L'orateur commence à parler - le réseau de microphones capte la voix, la caméra se déplace vers le son à l'aide d'une technologie brevetée incluant la triangulation vocale. La caméra générale est toujours active
  3. La caméra principale commence tout juste à rechercher la source sonore et à effectuer des analyses vidéo. Le système identifie l'orateur grâce à la connexion œil-nez-bouche, encadre l'image de l'orateur et affiche le flux de la caméra principale.
  4. Le locuteur change. Le réseau de microphones comprend que la voix vient d’un autre endroit. Le plan général est réactivé.
  5. Et puis en cercle, en partant du point 2
  6. Si le nouveau locuteur est dans le cadre du précédent, le système effectue un changement de positionnement « à chaud » sans modifier le flux actif sur le plan général.

L'inconvénient, à mon avis, est la présence d'une seule caméra principale. Il en résulte un retard important lors du changement d'enceintes. Et à chaque fois, au moment du pointage, le système allume le plan général de la pièce - lors d'une conversation animée, ce scintillement commence à irriter.

Polycom EagleEye Directeur II

La fonction de ciblage vocal des caméras est devenue plus accessible - la solution universelle SmartCam A12 Voice TrackingIl s'agit de la deuxième version de la solution de Polycom, sortie relativement récemment. Le principe de fonctionnement a subi des changements et s'apparente davantage à une solution de Cisco. Désormais, les deux caméras PTZ sont les principales et servent à passer de manière transparente des chaînes d'un présentateur à l'autre. L'agencement général de la salle de réunion est désormais capturé par une caméra distincte intégrée au corps de l'unité de base EagleEye Director II. Pour une raison quelconque, le flux de cette caméra grand angle est affiché dans une fenêtre supplémentaire dans le coin de l'écran, occupant 1/9 du flux principal. Le principe de positionnement est le même : triangulation vocale et analyse du flux vidéo. Et les goulots d’étranglement sont les mêmes : si le système ne voit pas la bouche qui parle, la caméra ne visera pas. Et cette situation peut arriver assez souvent - l'orateur s'est détourné, l'orateur s'est tourné de côté, l'orateur est ventriloque, l'orateur s'est couvert la bouche avec sa main ou un document.
Les deux vidéos promotionnelles ont été tournées avec compétence - 2 personnes parlent à tour de rôle et ouvrent la bouche comme lors d'un rendez-vous avec un orthophoniste. Mais même dans des conditions aussi raffinées, il y a un retard très important. Mais le cadrage est impeccable, un portrait confortable.

Cisco TelePresence SpeakerTrack 60

La fonction de ciblage vocal des caméras est devenue plus accessible - la solution universelle SmartCam A12 Voice TrackingPour décrire cette solution, j'utiliserai le texte de la brochure officielle.
SpeakerTrack 60 adopte une approche unique à double caméra pour basculer rapidement et directement entre les participants. Une caméra trouve rapidement un gros plan du présentateur actif, tandis que l'autre recherche et affiche le présentateur suivant. La fonction MultiSpeaker évite les commutations inutiles si le haut-parleur suivant est déjà présent dans l'image actuelle.
Malheureusement, je n'ai pas eu l'occasion de tester moi-même le SpeakerTrack 60. Par conséquent, des conclusions doivent être tirées sur la base de l’opinion « du terrain » et des résultats de l’analyse de la vidéo de démonstration ci-dessous. J'ai compté un délai maximum de près de 8 secondes en pointant vers un nouveau présentateur. Le délai moyen était de 2 à 3 secondes, à en juger par la vidéo.

Caméra vidéo de suivi intelligente HUAWEI VPT300

La fonction de ciblage vocal des caméras est devenue plus accessible - la solution universelle SmartCam A12 Voice TrackingJe suis tombé par hasard sur cette solution de Huawei. Le système coûte environ 9 XNUMX $. Fonctionne uniquement avec les terminaux Huawei. Les développeurs ont ajouté leur propre « astuce » : une disposition vidéo de deux haut-parleurs sur un seul écran s'il n'y a personne d'autre dans la pièce. En termes de caractéristiques et de fonctionnalités déclarées, il s'agit d'une version très intéressante du système de guidage automatique. Mais malheureusement, je n’ai trouvé absolument aucun matériel de démonstration. La seule vidéo apparue sur ce sujet était une revue vidéo montée de la solution, sans son original, mise en musique. Il n’a donc pas été possible d’évaluer la qualité du système. Pour cette raison, je n’envisagerai pas cette option.
Je vois que Huawei a un blog actif sur Habré - peut-être que des collègues pourront publier des informations utiles sur ce produit.

Nouveau - solution universelle Suivi vocal SmartCam A12

La fonction de ciblage vocal des caméras est devenue plus accessible - la solution universelle SmartCam A12 Voice TrackingCaméra intelligente A12VT - un monobloc, comprenant deux caméras PTZ pour le suivi des enceintes, deux caméras intégrées pour analyser l'agencement général de la pièce, ainsi qu'un réseau de microphones intégré à la base du boîtier - comme vous pouvez le constater, il n'y a pas d'encombrant et des structures fragiles comme celles des opposants.
Avant de commencer à décrire le nouveau produit, je rassemblerai les caractéristiques et fonctionnalités des solutions de Cisco et Polycom afin de pouvoir comparer Caméra intelligente A12VT avec les offres existantes.

Directeur Polycom EagleEye

  • Coût de détail du système sans terminal - 13K $
  • Coût minimum de la solution EagleEye Director + RealPresence Group 500 — 19K $
  • Délai de commutation moyen 3 secondes
  • Guidage vocal + analyse vidéo
  • Exigences élevées envers le visage de l'orateur - vous ne pouvez pas cacher votre bouche
  • Incompatibilité avec des équipements tiers

Cisco TelePresence SpeakerTrack 60

  • Coût de détail du système sans terminal - 15,9K $
  • Coût minimum de la solution TelePresence SpeakerTrack 60 + SX80 Codec - 30K $
  • Délai de commutation moyen 3 secondes
  • Guidage vocal + analyse vidéo
  • Exigences concernant le visage de l'orateur - n'a pas vérifié, n'a pas trouvé d'informations
  • Incompatibilité avec des équipements tiers

Suivi vocal SmartCam A12

  • Coût de détail du système sans terminal - 6,2K $
  • Coût minimum de la solution SmartCam A12VT + Yealink VC880 - 10.8K $
  • Coût minimum de la solution Terminal logiciel SmartCam A12VT+ - 7,7K $
  • Délai de commutation moyen 3 secondes
  • Guidage vocal + analyse vidéo
  • Exigences pour le visage de l'orateur - aucune exigence
  • Compatibilité tierce - HDMI

Comme deux avantages principaux et indéniables de la solution Suivi vocal SmartCam A12 Je trouve:

  1. Polyvalence de connectivité — via HDMI, le système s'intègre aux systèmes de terminaux de vidéoconférence matériels et logiciels
  2. Faible coût — avec des fonctionnalités similaires, l'A12VT est plusieurs fois plus abordable en termes de budget que les propositions décrites ci-dessus.

Pour démontrer le fonctionnement du système, nous avons enregistré une revue vidéo. La tâche n'était pas tant publicitaire que fonctionnelle. Par conséquent, la vidéo est dépourvue du pathétique d’une vidéo promotionnelle de Polycom. Le lieu choisi pour la présentation n'était pas un bureau de représentation, mais une salle de réunion laboratoire de notre partenaire, la société IPMatika.
Mon objectif n'était pas de cacher les défauts du système, mais au contraire d'exposer les goulots d'étranglement des fonctionnalités, de forcer le système à commettre des erreurs.

À mon avis, le système a réussi les tests. Je dis cela en toute confiance car au moment de la rédaction de cet article, la solution Suivi vocal SmartCam A12 visité une douzaine de véritables salles de réunion de nos clients. Des dysfonctionnements de l'automatisation ont été observés exclusivement dans des conditions de violation des règles de fonctionnement recommandées. En particulier, la distance minimale avec les participants à proximité. Si vous êtes assis très près de la caméra, à moins d’un mètre, le réseau de microphones ne pourra pas vous reconnaître et l’objectif ne pourra pas vous suivre.

La fonction de ciblage vocal des caméras est devenue plus accessible - la solution universelle SmartCam A12 Voice Tracking

En plus de la distance, il existe une autre exigence : la hauteur de la caméra.

La fonction de ciblage vocal des caméras est devenue plus accessible - la solution universelle SmartCam A12 Voice Tracking

Si la caméra est installée trop bas, des problèmes de positionnement vocal peuvent survenir. L'option sous le téléviseur n'a malheureusement pas fonctionné.
Mais installer le système au-dessus d’un périphérique d’affichage constitue un moyen idéal pour faire fonctionner l’appareil. L'étagère pour caméra est incluse ; seul le support mural est pris en charge en standard.

Comment fonctionne le suivi vocal SmartCam A12

Les principaux objectifs PTZ ont des rôles égaux : leur tâche est de suivre alternativement les présentateurs et d'afficher le plan global. L'analyse de l'image globale de la pièce et la détermination de la distance aux objets sont effectuées à l'aide de flux vidéo reçus de deux caméras intégrées à la base du système. Cette fonctionnalité vous permet de réduire le temps de réaction de l'objectif lors du changement de haut-parleur à 1 à 2 secondes. La caméra parvient à alterner entre les participants à un rythme confortable, même s'ils échangent des phrases courtes.
Une démonstration vidéo du fonctionnement du système reflète pleinement la fonctionnalité Caméra intelligente A12VT. Mais, pour ceux qui n'ont pas regardé la vidéo, je vais décrire avec des mots le principe de fonctionnement de l'automatisme :

  1. La salle est vide : une des lentilles montre le plan général, la seconde est prête - attend les gens
  2. Les gens entrent dans la salle et prennent place : l'objectif libre trouve les deux participants extrêmes et encadre l'image autour d'eux, coupant la partie vide de la salle.
  3. Pendant que les gens bougent, les lentilles suivent à tour de rôle toutes les personnes présentes dans la pièce, les gardant au centre du cadre.
  4. L'orateur se met à parler : la lentille est active, ajustée au plan général. Le second est destiné à l'orateur et passe ensuite en mode diffusion.
  5. Le haut-parleur change : l'objectif ajusté au premier haut-parleur est actif, et le deuxième objectif abandonne le plan large et s'ajuste au nouveau haut-parleur
  6. Au moment du passage de l'image du premier haut-parleur au second, l'objectif libre s'adapte instantanément au plan général de la pièce
  7. Si tout le monde se tait, l'objectif gratuit affichera sans délai un plan général tout fait
  8. Si le locuteur change encore, la lentille gratuite partira à sa recherche

Conclusion

À mon avis, cette solution, présentée à l'ISE et à l'ISR l'année dernière, rapproche la haute technologie - sinon des personnes, du moins des entreprises, bien sûr. Il est clair que pour 400 XNUMX roubles, peu de gens achèteront un tel "jouet" pour la maison, mais pour les entreprises, pour la vidéoconférence d'entreprise, il s'agit d'une solution très abordable et pratique au problème de l'orientation automatique d'une caméra.
Étant donné la polyvalence Suivi vocal SmartCam A12, le système peut être utilisé comme une solution à partir de zéro ou comme une extension des fonctionnalités d'une infrastructure de vidéoconférence existante. La connexion via HDMI est un grand pas en avant pour l'utilisateur, contrairement aux systèmes propriétaires des fabricants décrits ci-dessus.

Je tiens à remercier les partenaires qui ont aidé aux tests.
entreprise IPMatika — pour le terminal Yealink VC880, la salle de réunion et Yakushina Yura.
entreprise AV intelligent — pour le droit de premier et exclusif examen de la solution et de la fourniture du système Suivi vocal SmartCam A12 pour tester.

Dans le dernier article Concepteur de salle de réunion en ligne – sélection de la solution de visioconférence optimale, comme promotion de site Web vc4u.ru и Concepteur VKS nous avons annoncé 10% de réduction du prix en annuaire par mot de code CHARME jusqu'à la fin de l'été 2019.

La réduction s'applique aux produits des sections suivantes :

À la décision Suivi vocal SmartCam A12 J'offre une remise supplémentaire de 5% aux 10% déjà existants - un total de 15% jusqu'à la fin de l'été 2019.

J'attends avec impatience vos commentaires et vos réponses dans l'enquête !

Je vous remercie de votre attention.
Cordialement,
Kirill Ousikov (Usikoff)
Chef de
Systèmes de vidéosurveillance et de vidéoconférence
[email protected]
stss.ru
vc4u.ru

Seuls les utilisateurs enregistrés peuvent participer à l'enquête. se connecters'il te plait.

Quelle est l'utilité du suivi vocal de la SmartCam A12 ?

  • Enfin, une solution universelle pour les terminaux logiciels et matériels est apparue !

  • La solution est bonne, mais il existe d'autres options disponibles (j'écrirai dans les commentaires)

  • Le système est faible, il n'atteint pas Polycom et Cisco - j'écrirai dans les commentaires pourquoi vous devriez payer 3 fois plus !

  • De toute façon, qui a besoin d’un autoguidage dans une salle de réunion ?

  • De toute façon, qui a besoin d’une caméra PTZ dans une salle de réunion ? — J'ai connecté la webcam et c'était bien !

8 utilisateurs ont voté. 5 utilisateurs se sont abstenus.

Source: habr.com

Ajouter un commentaire