Die Funktion der Kameraausrichtung per Sprache ist zugänglicher geworden – die universelle Lösung SmartCam A12 Voice Tracking

Die Funktion der Kameraausrichtung per Sprache ist zugänglicher geworden – die universelle Lösung SmartCam A12 Voice TrackingDas Thema Tracking eines sprechenden Teilnehmers einer Videokonferenz hat in den letzten Jahren stark an Bedeutung gewonnen. Die Technologie hat es ermöglicht, komplexe Algorithmen zur Verarbeitung von Audio-/Videoinformationen in Echtzeit zu implementieren, was Polycom vor fast 10 Jahren dazu veranlasste, die weltweit erste Mainstream-Lösung mit intelligenter automatischer Sprecherverfolgung auf den Markt zu bringen. Mehrere Jahre lang gelang es ihnen, die einzigen Besitzer einer solchen Lösung zu bleiben, doch Cisco musste nicht lange warten und brachte ihre Version eines intelligenten Zwei-Kamera-Systems auf den Markt, das eine faire Konkurrenz zur Lösung von Polycom darstellte. Viele Jahre lang war dieses Segment der Videokonferenzen durch die Möglichkeiten mehrerer eingeschränkt proprietär Produkte, aber dieser Artikel ist dem ersten gewidmet Universal- Lösung für die Kameraführung per Sprache, kompatibel sowohl mit der Hardware- als auch der Software-Infrastruktur von Videokonferenzen.
Bevor ich mit der Beschreibung von Lösungen und der Demonstration von Fähigkeiten fortfahre, möchte ich auf ein wichtiges Ereignis hinweisen:
Es ist mir eine Ehre, es der Habra-Community vorzustellen neuer Hub, spezialisiert auf Videokonferenzlösungen (VCC). Dank der gemeinsamen Anstrengungen (meins und UFO) Videokonferenzen hat auf Habré ein eigenes Zuhause und ich lade alle, die sich mit diesem umfangreichen und aktuellen Thema beschäftigen, ein, sich zu abonnieren neuer Hub.

Zwei Szenarien für die Ausrichtung der Kamera auf den Sprecher

Derzeit wählen Integratoren von Videokonferenzlösungen für sich zwei unterschiedliche Wege, um die Aufgabe der gezielten Ansprache des Präsentators umzusetzen:

  1. Automatisch – Intelligent
  2. Halbautomatisch – programmierbar

Die erste Option sind nur Lösungen von Cisco, Polycom und anderen Herstellern; wir werden sie im Folgenden betrachten. Hier geht es um die vollautomatische Ausrichtung der Kamera auf den sprechenden Teilnehmer der Videokonferenz. Einzigartige Algorithmen zur Verarbeitung von Audio-/Videosignalen ermöglichen es der Kamera, die gewünschte Position selbstständig auszuwählen.

Die zweite Möglichkeit sind Automatisierungssysteme, die auf verschiedenen externen Steuerungscontrollern basieren; wir werden sie nicht im Detail betrachten, weil Der Artikel widmet sich speziell der automatischen Nachverfolgung von Sprechern.
Für das zweite Szenario zur Implementierung der Kameraausrichtung gibt es eine ganze Reihe von Befürwortern, und dafür gibt es Gründe. Erfahrene Integratoren wissen, dass intelligente Lösungen von Polycom und Cisco ideale Betriebsbedingungen erfordern, damit die Automatisierung ordnungsgemäß funktioniert. Da es jedoch nicht immer möglich ist, solche Bedingungen bereitzustellen, wird der Betrieb des Systems manchmal durch die folgende Lösung des Kameraausrichtungsproblems gewährleistet:

1. Alle notwendigen Voreinstellungen (Positionen des PTZ-Geräts und optischer Zoomfaktor) werden vorab manuell in den Speicher der Kamera (oder manchmal in die Steuerung) eingegeben. In der Regel handelt es sich dabei um einen Übersichtsplan des Besprechungsraums und eine Ansicht jedes Konferenzteilnehmers im Hochformat.

2. Als nächstes werden an den angegebenen Stellen die Initiatoren zum Aufrufen der gewünschten Voreinstellung installiert – das sind entweder Mikrofonkonsolen oder Radiobuttons, im Allgemeinen jedes Gerät, das dem Steuerungscontroller ein Signal liefern kann, das er versteht.

3. Die Steuerung ist so programmiert, dass jeder Initiator seine eigene Voreinstellung hat. Gesamtplan des Raumes – alle Initiatoren sind ausgeschaltet.
Dies hat zur Folge, dass der Redner beispielsweise bei der Verwendung eines Kongresssystems und eines Steuerungscontrollers vor Beginn seiner Rede seine persönliche Mikrofonkonsole aktiviert. Das Steuerungssystem verarbeitet die gespeicherte Kameraposition sofort.

Dieses Szenario funktioniert einwandfrei – das System muss keine Sprachtriangulation und Videoanalyse durchführen. Ich habe den Knopf gedrückt und die Voreinstellung hat funktioniert, keine Verzögerungen oder Fehlalarme.
Steuerungs- und Automatisierungssysteme werden in großen, komplexen Räumen eingesetzt, in denen manchmal nicht eine, sondern mehrere Videokameras installiert sind. Nun, für kleine und mittelgroße Besprechungsräume sind automatische Systeme durchaus geeignet (sofern Sie über das nötige Budget verfügen).
Beginnen wir mit den Gründervätern.

Polycom EagleEye-Direktor

Die Funktion der Kameraausrichtung per Sprache ist zugänglicher geworden – die universelle Lösung SmartCam A12 Voice TrackingDiese Lösung sorgte einst im Bereich Videokonferenzen für Aufsehen. Polycom EagleEye Director war die erste Lösung im Bereich der intelligenten Kameraführung. Die Lösung besteht aus einer EagleEye Director-Basiseinheit und zwei Kameras. Die Besonderheit dieser ersten Implementierung besteht darin, dass eine Kamera nur für die Nahansicht des Redners und die zweite für den Gesamtplan des Besprechungsraums vorgesehen ist. Gleichzeitig kann die Übersichtskamera völlig getrennt von der Basis an einer anderen Stelle im Besprechungsraum platziert werden – sie ist nicht direkt an der automatischen Führung beteiligt.
Das System funktioniert wie folgt:

  1. Die allgemeine Raumkamera ist aktiv – alle sind still
  2. Der Sprecher beginnt zu sprechen – das Mikrofonarray nimmt die Stimme auf, die Kamera bewegt sich mithilfe einer patentierten Technologie einschließlich Stimmtriangulation auf den Ton zu. Die allgemeine Kamera ist weiterhin aktiv
  3. Die Hauptkamera beginnt gerade mit der Suche nach der Tonquelle und führt eine Videoanalyse durch. Das System identifiziert den Sprecher anhand der Augen-Nase-Mund-Verbindung, rahmt das Bild des Sprechers ein und zeigt den Stream der Hauptkamera an
  4. Der Sprecher wechselt. Das Mikrofonarray erkennt, dass die Stimme von einem anderen Ort kommt. Der Generalplan ist wieder eingeschaltet.
  5. Und dann im Kreis, beginnend bei Punkt 2
  6. Wenn sich der neue Sprecher im Bild mit dem vorherigen befindet, führt das System eine „heiße“ Positionierungsänderung durch, ohne den aktiven Fluss auf die allgemeine Aufnahme zu ändern.

Der Nachteil ist meiner Meinung nach das Vorhandensein nur einer Hauptkamera. Dies führt zu einer erheblichen Verzögerung beim Sprecherwechsel. Und jedes Mal im Moment des Zeigens schaltet das System den Gesamtplan des Raumes ein – bei einem lebhaften Gespräch beginnt dieses Flackern zu irritieren.

Polycom EagleEye Director II

Die Funktion der Kameraausrichtung per Sprache ist zugänglicher geworden – die universelle Lösung SmartCam A12 Voice TrackingDies ist die zweite Version der Lösung von Polycom, die vor relativ kurzer Zeit veröffentlicht wurde. Das Funktionsprinzip hat sich geändert und ähnelt eher einer Lösung von Cisco. Jetzt sind beide PTZ-Kameras die Hauptkameras und dienen dazu, die Kanäle nahtlos von einem Moderator zum anderen zu wechseln. Der allgemeine Grundriss des Besprechungsraums wird jetzt von einer separaten Kamera erfasst, die in das Gehäuse der EagleEye Director II-Basiseinheit integriert ist. Aus irgendeinem Grund wird der Stream dieser Weitwinkelkamera in einem zusätzlichen Fenster in der Ecke des Bildschirms angezeigt und nimmt 1/9 des Hauptstreams ein. Das Prinzip der Positionierung ist dasselbe – Sprachtriangulation und Videostream-Analyse. Und die Engpässe sind die gleichen: Wenn das System den sprechenden Mund nicht erkennt, zielt die Kamera nicht. Und diese Situation kann ziemlich oft passieren – der Sprecher hat sich abgewandt, der Sprecher hat sich zur Seite gedreht, der Sprecher ist ein Bauchredner, der Sprecher hat seinen Mund mit der Hand oder einem Dokument bedeckt.
Beide Werbevideos wurden kompetent gedreht – 2 Personen sprechen abwechselnd und öffnen den Mund wie bei einem Termin bei einem Logopäden. Aber selbst unter solch raffinierten Bedingungen kommt es zu einer sehr erheblichen Verzögerung. Aber der Bildausschnitt ist tadellos – eine angenehme Porträtaufnahme.

Cisco TelePresence SpeakerTrack 60

Die Funktion der Kameraausrichtung per Sprache ist zugänglicher geworden – die universelle Lösung SmartCam A12 Voice TrackingUm diese Lösung zu beschreiben, verwende ich Text aus der offiziellen Broschüre.
SpeakerTrack 60 nutzt einen einzigartigen Dual-Kamera-Ansatz, um schnell und direkt zwischen den Teilnehmern zu wechseln. Eine Kamera findet schnell eine Nahaufnahme des aktiven Moderators, während die andere den nächsten Moderator sucht und anzeigt. Die MultiSpeaker-Funktion verhindert unnötiges Umschalten, wenn der nächste Lautsprecher bereits im aktuellen Frame vorhanden ist.
Leider hatte ich keine Gelegenheit, den SpeakerTrack 60 selbst zu testen. Daher müssen Schlussfolgerungen auf der Grundlage der Meinung „aus der Praxis“ und der Analyseergebnisse des folgenden Demonstrationsvideos gezogen werden. Ich habe eine maximale Verzögerung von fast 8 Sekunden gezählt, als ich auf einen neuen Moderator zeigte. Die durchschnittliche Verzögerung betrug 2-3 Sekunden, dem Video nach zu urteilen.

HUAWEI Intelligente Tracking-Videokamera VPT300

Die Funktion der Kameraausrichtung per Sprache ist zugänglicher geworden – die universelle Lösung SmartCam A12 Voice TrackingDurch Zufall bin ich auf diese Lösung von Huawei gestoßen. Das System kostet etwa 9 US-Dollar. Funktioniert nur mit Huawei-Terminals. Die Entwickler haben ihren eigenen „Trick“ hinzugefügt – ein Videolayout von zwei Lautsprechern auf einem Bildschirm, wenn sich sonst niemand im Raum befindet. Hinsichtlich der Eigenschaften und der erklärten Funktionalität handelt es sich um eine sehr interessante Version des automatischen Leitsystems. Aber leider habe ich überhaupt kein Demomaterial gefunden. Das einzige Video, das zu diesem Thema erschien, war eine bearbeitete Videorezension der Lösung, ohne Originalton, vertont. Daher war es nicht möglich, die Qualität des Systems zu beurteilen. Aus diesem Grund werde ich diese Option nicht in Betracht ziehen.
Ich sehe, dass Huawei einen aktiven Blog zu Habré hat – vielleicht können Kollegen einige nützliche Informationen zu diesem Produkt veröffentlichen.

Neu – universelle Lösung SmartCam A12 Sprachverfolgung

Die Funktion der Kameraausrichtung per Sprache ist zugänglicher geworden – die universelle Lösung SmartCam A12 Voice TrackingSmartCam A12VT - ein Monoblock, inklusive zwei PTZ-Kameras zur Nachführung der Lautsprecher, zwei eingebaute Kameras zur Analyse der Gesamtaufteilung des Raumes sowie ein im Gehäuseboden integriertes Mikrofon-Array – wie Sie sehen, gibt es keine sperrigen und fragile Strukturen wie die der Gegner.
Bevor ich mit der Beschreibung des neuen Produkts beginne, werde ich die Eigenschaften und Funktionen der Lösungen von Cisco und Polycom zusammenfassen, damit ich sie vergleichen kann SmartCam A12VT mit bestehenden Angeboten.

Polycom EagleEye-Direktor

  • Einzelhandelskosten des Systems ohne Terminal - $ 13K
  • Minimale Kosten für EagleEye Director + RealPresence Group 500-Lösung - $ 19K
  • Durchschnittliche Schaltverzögerung 3 Sekunden
  • Sprachführung + Videoanalyse
  • Hohe Anforderungen an das Gesicht des Redners – man kann seinen Mund nicht verstecken
  • Inkompatibilität mit Geräten von Drittanbietern

Cisco TelePresence SpeakerTrack 60

  • Einzelhandelskosten des Systems ohne Terminal - $ 15,9K
  • Minimale Kosten für die TelePresence SpeakerTrack 60 + SX80 Codec-Lösung - $ 30K
  • Durchschnittliche Schaltverzögerung 3 Sekunden
  • Sprachführung + Videoanalyse
  • Anforderungen an das Gesicht des Sprechers - nicht überprüft, keine Informationen gefunden
  • Inkompatibilität mit Geräten von Drittanbietern

SmartCam A12 Sprachverfolgung

  • Einzelhandelskosten des Systems ohne Terminal - $ 6,2K
  • Minimale Lösungskosten SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Minimale Lösungskosten SmartCam A12VT+ Software-Terminal - $ 7,7K
  • Durchschnittliche Schaltverzögerung 3 Sekunden
  • Sprachführung + Videoanalyse
  • Anforderungen an das Gesicht des Sprechers – keine Anforderungen
  • Kompatibilität mit Drittanbietern – HDMI

Als zwei wesentliche und unbestreitbare Vorteile der Lösung SmartCam A12 Sprachverfolgung Ich finde:

  1. Vielseitigkeit der Konnektivität — Über HDMI lässt sich das System sowohl in Hardware- als auch in Software-Videokonferenz-Terminalsysteme integrieren
  2. Niedrige Kosten — Bei ähnlicher Funktionalität ist der A12VT preislich um ein Vielfaches günstiger als die oben beschriebenen Vorschläge.

Um zu demonstrieren, wie das System funktioniert, haben wir einen Videotest aufgezeichnet. Die Aufgabe war weniger Werbung als vielmehr Funktionalität. Daher fehlt dem Video das Pathos eines Polycom-Werbevideos. Als Veranstaltungsort für die Präsentation wurde kein repräsentatives Büro, sondern ein Labor-Besprechungsraum unseres Partners, der Firma IPMatika, gewählt.
Mein Ziel war es nicht, die Mängel des Systems zu verbergen, sondern im Gegenteil die Engpässe der Funktionalität aufzudecken und das System zu Fehlern zu zwingen.

Meiner Meinung nach hat das System die Tests erfolgreich bestanden. Ich sage das mit Zuversicht, weil es zum Zeitpunkt des Schreibens dieses Artikels eine Lösung gab SmartCam A12 Sprachverfolgung besuchten ein Dutzend reale Besprechungsräume unserer Kunden. Störungen der Automatisierung wurden ausschließlich bei Verstößen gegen die empfohlenen Betriebsregeln beobachtet. Insbesondere der Mindestabstand zu umstehenden Teilnehmern. Wenn Sie sehr nah an der Kamera sitzen, weniger als einen Meter, kann das Mikrofonarray Sie nicht erkennen und das Objektiv kann Sie nicht verfolgen.

Die Funktion der Kameraausrichtung per Sprache ist zugänglicher geworden – die universelle Lösung SmartCam A12 Voice Tracking

Neben der Entfernung gibt es noch eine weitere Anforderung – die Höhe der Kamera.

Die Funktion der Kameraausrichtung per Sprache ist zugänglicher geworden – die universelle Lösung SmartCam A12 Voice Tracking

Wenn die Kamera zu niedrig installiert ist, kann es zu Problemen bei der Sprachpositionierung kommen. Die Option unter dem Fernseher funktionierte leider nicht.
Die Installation des Systems über einem Anzeigegerät ist jedoch eine ideale Möglichkeit für den Betrieb des Geräts. Die Kameraablage ist im Lieferumfang enthalten, standardmäßig wird nur die Wandhalterung unterstützt.

So funktioniert die Sprachverfolgung mit der SmartCam A12

Die Haupt-PTZ-Objektive haben die gleichen Rollen – ihre Aufgabe besteht darin, abwechselnd die Moderatoren zu verfolgen und den Gesamtplan anzuzeigen. Die Analyse des Gesamtbildes im Raum und die Bestimmung der Entfernung zu Objekten erfolgt mithilfe von Videostreams, die von zwei in die Basis des Systems integrierten Kameras empfangen werden. Mit dieser Funktion können Sie die Reaktionszeit des Objektivs beim Lautsprecherwechsel auf 1-2 Sekunden verkürzen. Die Kamera schafft es, in einem angenehmen Rhythmus zwischen den Teilnehmern zu wechseln, auch wenn diese kurze Sätze austauschen.
Eine Videodemonstration des Systembetriebs spiegelt die Funktionalität vollständig wider SmartCam A12VT. Aber für diejenigen, die das Video nicht gesehen haben, werde ich das Funktionsprinzip der Automatisierung in Worten beschreiben:

  1. Der Raum ist leer: Eine der Linsen zeigt den Gesamtplan, die zweite ist fertig – wartet auf Menschen
  2. Die Menschen betreten den Raum und nehmen ihre Plätze ein: Die freie Linse findet die beiden extremen Teilnehmer, rahmt das Bild um sie herum ein und schneidet den leeren Teil des Raumes ab
  3. Während sich Personen bewegen, verfolgen die Objektive abwechselnd alle Personen im Raum und halten sie in der Bildmitte
  4. Der Sprecher beginnt zu sprechen: Die Linse ist aktiv, angepasst an den Gesamtplan. Der zweite richtet sich an den Sprecher und geht erst dann in den Broadcast-Modus
  5. Der Sprecher wechselt: Das an den ersten Lautsprecher angepasste Objektiv ist aktiv, und das zweite Objektiv lässt die Weitwinkelaufnahme fallen und passt sich dem neuen Lautsprecher an
  6. Beim Umschalten des Bildes vom ersten Lautsprecher auf den zweiten wird die freie Linse sofort an den Grundriss des Raumes angepasst
  7. Wenn alle schweigen, zeigt das kostenlose Objektiv ohne Verzögerungen einen fertigen Gesamtplan an
  8. Wechselt der Sprecher erneut, macht sich die freie Linse auf die Suche nach ihm

Abschluss

Meiner Meinung nach bringt diese Lösung, die letztes Jahr auf der ISE und ISR vorgestellt wurde, die Hochtechnologie näher – wenn nicht zu den Menschen, dann auf jeden Fall zu den Unternehmen. Es ist klar, dass für 400 Rubel nur wenige Menschen ein solches „Spielzeug“ für zu Hause kaufen werden, aber für Unternehmen, für Firmenvideokonferenzen, ist dies eine sehr erschwingliche und bequeme Lösung für das Problem der automatischen Ausrichtung einer Kamera.
Angesichts der Vielseitigkeit SmartCam A12 SprachverfolgungDas System kann als Komplettlösung oder als Erweiterung der Funktionalität einer bestehenden Videokonferenzinfrastruktur eingesetzt werden. Der Anschluss über HDMI ist im Gegensatz zu den proprietären Systemen der oben beschriebenen Hersteller ein großer Schritt in Richtung Nutzer.

Ich möchte mich bei den Partnern bedanken, die mich beim Testen unterstützt haben.
Unternehmen IPMatika – für das Yealink VC880-Terminal, den Besprechungsraum und Yakushina Yura.
Unternehmen Smart-AV — für das Recht der ersten und ausschließlichen Prüfung der Lösung und Bereitstellung des Systems SmartCam A12 Sprachverfolgung zum Prüfen.

Im letzten Artikel Online-Besprechungsraumdesigner – Auswahl der optimalen Videokonferenzlösung, als Website-Werbung vc4u.ru и VKS-Designer wir haben angekündigt 10% Rabatt ab Preis in Katalog per Codewort Hainbuche bis Ende Sommer 2019.

Der Rabatt gilt für Produkte in den folgenden Abschnitten:

Zur Entscheidung SmartCam A12 Sprachverfolgung Ich biete zusätzlich 5 % Rabatt zu den bereits bestehenden 10 % - insgesamt 15 % bis Ende Sommer 2019.

Ich freue mich auf Ihre Kommentare und Antworten in der Umfrage!

Vielen Dank für Ihre Aufmerksamkeit.
Viele Grüße,
Kirill Usikov (Usikoff)
Leiter von
Videoüberwachungs- und Videokonferenzsysteme
[E-Mail geschützt]
stss.ru
vc4u.ru

An der Umfrage können nur registrierte Benutzer teilnehmen. Einloggenbitte.

Wie nützlich ist die Sprachverfolgung mit der SmartCam A12?

  • Endlich ist eine universelle Lösung für Software- und Hardware-Terminals erschienen!

  • Die Lösung ist gut, aber es gibt noch andere verfügbare Optionen (ich schreibe in den Kommentaren)

  • Das System ist schwach, es erreicht Polycom und Cisco nicht – ich schreibe in die Kommentare, warum man dreimal mehr bezahlen sollte!

  • Wer braucht schon eine automatische Führung in einem Besprechungsraum?

  • Wer braucht schon eine PTZ-Kamera in einem Besprechungsraum? — Ich habe die Webcam angeschlossen und es war in Ordnung!

8 Benutzer haben abgestimmt. 5 Benutzer enthielten sich der Stimme.

Source: habr.com

Kommentar hinzufügen