De functie van cameratargeting via spraak is toegankelijker geworden - de universele oplossing SmartCam A12 Voice Tracking

De functie van cameratargeting via spraak is toegankelijker geworden - de universele oplossing SmartCam A12 Voice TrackingHet onderwerp van het volgen van een sprekende deelnemer aan een videoconferentie is de afgelopen jaren in een stroomversnelling gekomen. Technologie heeft het mogelijk gemaakt om complexe algoritmen te implementeren voor het in realtime verwerken van audio-/video-informatie, wat Polycom er bijna tien jaar geleden toe bracht om 's werelds eerste mainstream-oplossing met intelligente automatische luidsprekertracking te introduceren. Jarenlang wisten ze de enige eigenaren van een dergelijke oplossing te blijven, maar Cisco hoefde niet lang te wachten en bracht hun versie van een intelligent tweecamerasysteem op de markt, dat een eerlijke concurrent was van de oplossing van Polycom. Jarenlang werd dit segment van videoconferenties beperkt door de mogelijkheden van meerdere videoconferenties eigen producten, maar dit artikel is gewijd aan de eerste universeel oplossing voor spraakgestuurde camerageleiding, compatibel met zowel de hardware- als de software-infrastructuur van videoconferenties.
Voordat ik verder ga met het beschrijven van oplossingen en het demonstreren van mogelijkheden, wil ik een belangrijke gebeurtenis opmerken:
Ik ben vereerd om dit aan de Habra-gemeenschap te presenteren nieuwe hub, gewijd aan videoconferentieoplossingen (VCC). Nu, dankzij de gezamenlijke inspanningen (de mijne en de UFO), Videovergaderen heeft een eigen huis op Habré, en ik nodig iedereen die betrokken is bij dit omvangrijke en actuele onderwerp uit om zich hierop te abonneren nieuwe hub.

Twee scenario's om de camera op de spreker te richten

Op dit moment kiezen integrators van oplossingen voor videoconferenties voor zichzelf twee verschillende manieren om de taak van het richten op de presentator uit te voeren:

  1. Automatisch - Intelligent
  2. Halfautomatisch - programmeerbaar

De eerste optie zijn alleen oplossingen van Cisco, Polycom en andere fabrikanten, we zullen ze hieronder bekijken. Hier hebben we te maken met de volledige automatisering van het richten van de camera op de sprekende deelnemer aan de videoconferentie. Unieke algoritmen voor het verwerken van audio-/videosignalen zorgen ervoor dat de camera onafhankelijk de gewenste positie kan selecteren.

De tweede optie zijn automatiseringssystemen op basis van verschillende externe besturingscontrollers; we zullen ze niet in detail bespreken, omdat Het artikel is specifiek gewijd aan het automatisch volgen van sprekers.
Er zijn nogal wat voorstanders van het tweede scenario voor het implementeren van cameraricht, en daar zijn redenen voor. Ervaren integrators begrijpen dat intelligente oplossingen van Polycom en Cisco ideale bedrijfsomstandigheden vereisen om de automatisering goed te laten functioneren. Maar het is niet altijd mogelijk om aan dergelijke voorwaarden te voldoen, dus wordt de werking van het systeem soms gegarandeerd door de volgende oplossing voor het camera-aanwijsprobleem:

1. Alle benodigde presets (posities van het PTZ-apparaat en optische zoomfactor) worden vooraf handmatig in het geheugen van de camera (of soms in de bedieningscontroller) ingevoerd. In de regel is dit een algemene plattegrond van de vergaderruimte en een portret van elke conferentiedeelnemer.

2. Vervolgens worden de initiatiefnemers voor het aanroepen van de vereiste preset op de aangegeven plaatsen geïnstalleerd - dit zijn microfoonconsoles of keuzerondjes, in het algemeen elk apparaat dat de besturingscontroller een signaal kan geven dat hij begrijpt.

3. De regelcontroller is zo geprogrammeerd dat elke oorzaak een eigen preset heeft. Algemeen plan van de kamer - alle initiatiefnemers zijn uitgeschakeld.
Als gevolg hiervan activeert de spreker, bij gebruik van bijvoorbeeld een congressysteem en een bedieningscontroller, voordat hij zijn toespraak begint, zijn persoonlijke microfoonconsole. Het besturingssysteem verwerkt de opgeslagen camerapositie onmiddellijk.

Dit scenario werkt feilloos: het systeem hoeft geen stemtriangulatie en videoanalyse uit te voeren. Ik drukte op de knop en de preset werkte, geen vertragingen of valse positieven.
Besturings- en automatiseringssystemen worden gebruikt in grote, complexe ruimtes, waar soms niet één, maar meerdere videocamera's zijn geïnstalleerd. Welnu, voor kleine en middelgrote vergaderruimtes zijn automatische systemen zeer geschikt (als je het budget hebt).
Laten we beginnen met de grondleggers.

Polycom EagleEye-directeur

De functie van cameratargeting via spraak is toegankelijker geworden - de universele oplossing SmartCam A12 Voice TrackingDeze oplossing zorgde ooit voor een sensatie op het gebied van videoconferenties. Polycom EagleEye Director was de eerste oplossing op het gebied van intelligente camerageleiding. De oplossing bestaat uit een EagleEye Director-basisunit en twee camera's. Het bijzondere van die eerste implementatie is dat één camera alleen is toegewezen aan een close-up van de spreker, en de tweede aan een algemeen plan van de vergaderruimte. Tegelijkertijd kan de overzichtscamera volledig los van de basis op een andere plaats in de vergaderruimte worden geplaatst - deze is niet direct betrokken bij het automatische geleidingsproces.
Het systeem werkt als volgt:

  1. De algemene kamercamera is actief - iedereen is stil
  2. De spreker begint te spreken - de microfoonarray pikt de stem op, de camera beweegt naar het geluid toe met behulp van gepatenteerde technologie die stemtriangulatie omvat. De algemene camera is nog steeds actief
  3. De hoofdcamera begint net naar de geluidsbron te zoeken en voert videoanalyses uit. Het systeem identificeert de spreker door de oog-neus-mondverbinding, kadert het beeld van de spreker in en geeft de stream van de hoofdcamera weer
  4. De spreker verandert. De microfoonarray begrijpt dat de stem van een andere plaats komt. Het algemeen plan wordt weer ingeschakeld.
  5. En dan in een cirkel, beginnend bij punt 2
  6. Als de nieuwe luidspreker zich in het frame bevindt met de vorige, voert het systeem een ​​“hete” positioneringswijziging door zonder de actieve stroom naar de algemene opname te veranderen.

Het nadeel is naar mijn mening de aanwezigheid van slechts één hoofdcamera. Dit resulteert in een aanzienlijke vertraging bij het wisselen van luidsprekers. En elke keer dat het systeem aanwijst, schakelt het systeem het algemene plan van de kamer in - tijdens een levendig gesprek begint dit flikkeren te irriteren.

Polycom EagleEye Directeur II

De functie van cameratargeting via spraak is toegankelijker geworden - de universele oplossing SmartCam A12 Voice TrackingDit is de tweede versie van de oplossing van Polycom, die relatief recent is uitgebracht. Het werkingsprincipe heeft veranderingen ondergaan en is meer een oplossing van Cisco geworden. Nu zijn beide PTZ-camera's de belangrijkste en dienen ze om naadloos van kanaal te wisselen van de ene presentator naar de andere. De algemene indeling van de vergaderruimte wordt nu vastgelegd door een aparte camera die is geïntegreerd in de behuizing van de EagleEye Director II-basiseenheid. Om de een of andere reden wordt de stream van deze groothoekcamera weergegeven in een extra venster in de hoek van het scherm, dat 1/9 van de hoofdstream in beslag neemt. Het positioneringsprincipe is hetzelfde: stemtriangulatie en videostreamanalyse. En de knelpunten zijn hetzelfde: als het systeem de sprekende mond niet ziet, zal de camera niet richten. En deze situatie kan heel vaak voorkomen: de spreker heeft zich afgewend, de spreker is zijwaarts gekeerd, de spreker is een buikspreker, de spreker heeft zijn mond bedekt met zijn hand of een document.
Beide promotievideo's zijn vakkundig opgenomen - 2 mensen spreken om de beurt en openen hun mond alsof ze een afspraak hebben met een logopedist. Maar zelfs onder zulke verfijnde omstandigheden is er sprake van een zeer aanzienlijke vertraging. Maar de kadrering is onberispelijk: een comfortabele portretfoto.

Cisco TelePresence SpeakerTrack 60

De functie van cameratargeting via spraak is toegankelijker geworden - de universele oplossing SmartCam A12 Voice TrackingOm deze oplossing te beschrijven, zal ik tekst uit de officiële brochure gebruiken.
SpeakerTrack 60 hanteert een unieke benadering met twee camera's om snel rechtstreeks tussen deelnemers te schakelen. De ene camera vindt snel een close-up van de actieve presentator, terwijl de andere de volgende presentator zoekt en weergeeft. De MultiSpeaker-functie voorkomt onnodig schakelen als de volgende luidspreker al aanwezig is in het huidige frame.
Helaas heb ik niet de kans gehad om de SpeakerTrack 60 zelf te testen. Daarom moeten conclusies worden getrokken op basis van de mening “uit het veld” en op basis van de analyseresultaten van de onderstaande demonstratievideo. Ik telde een maximale vertraging van bijna 8 seconden bij het wijzen naar een nieuwe presentator. De gemiddelde vertraging was 2-3 seconden, te oordelen naar de video.

HUAWEI Intelligente tracking-videocamera VPT300

De functie van cameratargeting via spraak is toegankelijker geworden - de universele oplossing SmartCam A12 Voice TrackingIk kwam deze oplossing van Huawei per ongeluk tegen. Het systeem kost ongeveer $ 9. Werkt alleen met Huawei-terminals. De ontwikkelaars hebben hun eigen "truc" toegevoegd: een video-indeling van twee luidsprekers op één scherm als er niemand anders in de kamer is. Qua kenmerken en aangegeven functionaliteit is dit een zeer interessante versie van het automatische geleidingssysteem. Maar helaas heb ik absoluut geen demomateriaal gevonden. De enige video die over dit onderwerp verscheen, was een bewerkte videoreview van de oplossing, zonder origineel geluid, op muziek gezet. Het was dus niet mogelijk om de kwaliteit van het systeem te beoordelen. Om deze reden zal ik deze optie niet overwegen.
Ik zie dat Huawei een actieve blog heeft over Habré - misschien kunnen collega's wat nuttige informatie over dit product publiceren.

Nieuw - universele oplossing SmartCam A12 Spraaktracking

De functie van cameratargeting via spraak is toegankelijker geworden - de universele oplossing SmartCam A12 Voice TrackingSmartCam A12VT - een monoblock, inclusief twee PTZ-camera's voor het volgen van luidsprekers, twee ingebouwde camera's voor het analyseren van de algemene indeling van de kamer, evenals een microfoonarray ingebouwd in de onderkant van de behuizing - zoals u kunt zien, zijn er geen omvangrijke en fragiele structuren zoals die van tegenstanders.
Voordat ik het nieuwe product begin te beschrijven, zal ik de kenmerken en kenmerken van oplossingen van Cisco en Polycom samenbrengen, zodat ik kan vergelijken SmartCam A12VT met bestaande aanbiedingen.

Polycom EagleEye-directeur

  • Verkoopkosten van het systeem zonder terminal - $ 13K
  • Minimale kosten van EagleEye Director + RealPresence Group 500-oplossing - $ 19K
  • Gemiddelde schakelvertraging 3 seconden
  • Stembegeleiding + videoanalyse
  • Hoge eisen aan het gezicht van de spreker - je kunt je mond niet verbergen
  • Incompatibiliteit met apparatuur van derden

Cisco TelePresence SpeakerTrack 60

  • Verkoopkosten van het systeem zonder terminal - $ 15,9K
  • Minimale kosten van TelePresence SpeakerTrack 60 + SX80 Codec-oplossing - $ 30K
  • Gemiddelde schakelvertraging 3 seconden
  • Stembegeleiding + videoanalyse
  • Vereisten voor het gezicht van de spreker - niet gecontroleerd, geen informatie gevonden
  • Incompatibiliteit met apparatuur van derden

SmartCam A12 Spraaktracking

  • Verkoopkosten van het systeem zonder terminal - $ 6,2K
  • Minimale oplossingskosten SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Minimale oplossingskosten SmartCam A12VT+ softwareterminal - $ 7,7K
  • Gemiddelde schakelvertraging 3 seconden
  • Stembegeleiding + videoanalyse
  • Vereisten voor het gezicht van de spreker - geen vereisten
  • Compatibiliteit met derden - HDMI

Als twee belangrijkste en onmiskenbare voordelen van de oplossing SmartCam A12 Spraaktracking Ik vind:

  1. Veelzijdigheid op het gebied van connectiviteit — via HDMI kan het systeem worden geïntegreerd met zowel hardware- als softwareterminalsystemen voor videoconferenties
  2. Lage kosten — met vergelijkbare functionaliteit is A12VT met een beperkt budget vele malen betaalbaarder dan de hierboven beschreven voorstellen.

Om te laten zien hoe het systeem werkt, hebben we een videoreview opgenomen. De taak was niet zozeer reclame als wel functioneel. Daarom mist de video de pathos van een promotievideo van Polycom. De gekozen locatie voor de presentatie was geen representatief kantoor, maar een laboratoriumvergaderruimte van onze partner, het bedrijf IPMatika.
Mijn doel was niet om de tekortkomingen van het systeem te verbergen, maar juist om de knelpunten van de functionaliteit bloot te leggen, om het systeem te dwingen fouten te maken.

Naar mijn mening heeft het systeem de tests met succes doorstaan. Ik zeg dit met vertrouwen omdat op het moment dat ik dit artikel schrijf, de oplossing bestaat SmartCam A12 Spraaktracking een tiental echte vergaderruimtes van onze klanten bezocht. Storingen in de automatisering werden uitsluitend waargenomen in omstandigheden van overtreding van de aanbevolen bedieningsregels. Met name de minimale afstand tot deelnemers in de buurt. Als u heel dicht bij de camera zit, minder dan een meter, kan de microfoonarray u niet herkennen en kan de lens u niet volgen.

De functie van cameratargeting via spraak is toegankelijker geworden - de universele oplossing SmartCam A12 Voice Tracking

Naast de afstand is er nog een vereiste: de hoogte van de camera.

De functie van cameratargeting via spraak is toegankelijker geworden - de universele oplossing SmartCam A12 Voice Tracking

Als de camera te laag wordt geïnstalleerd, kunnen er problemen met de stempositionering optreden. De optie onder de tv werkte helaas niet.
Maar het installeren van het systeem boven een weergaveapparaat is een ideale manier om het apparaat te laten werken. De cameraplank wordt meegeleverd; alleen de muurbeugel wordt standaard ondersteund.

Hoe SmartCam A12 Voice Tracking werkt

De belangrijkste PTZ-lenzen hebben een gelijke rol: het is hun taak om afwisselend presentatoren te volgen en het algemene plan weer te geven. Analyse van het totaalbeeld in de kamer en bepaling van de afstand tot objecten wordt uitgevoerd met behulp van videostreams ontvangen van twee camera's die in de basis van het systeem zijn geïntegreerd. Met deze functie kunt u de reactietijd van de lens bij het wijzigen van de luidspreker verkorten tot 1-2 seconden. De camera weet in een comfortabel ritme tussen de deelnemers te wisselen, ook al wisselen ze korte zinnen uit.
Een videodemonstratie van de werking van het systeem weerspiegelt de functionaliteit volledig SmartCam A12VT. Maar voor degenen die de video niet hebben bekeken, zal ik in woorden het werkingsprincipe van de automatisering beschrijven:

  1. De kamer is leeg: een van de lenzen toont het algemene plan, de tweede is klaar - wachtend op mensen
  2. Mensen komen de kamer binnen en gaan zitten: de vrije lens vindt de twee extreme deelnemers en kadert het beeld om hen heen, waardoor het lege deel van de kamer wordt afgesneden
  3. Terwijl mensen bewegen, volgen de lenzen om de beurt iedereen in de kamer, zodat ze in het midden van het beeld blijven
  4. De spreker begint te spreken: de lens is actief, aangepast aan het algemene plan. De tweede is gericht op de spreker en gaat dan pas in de uitzendmodus
  5. De luidspreker verandert: de lens die is aangepast aan de eerste luidspreker is actief, en de tweede lens laat het brede beeld vallen en past zich aan de nieuwe luidspreker aan
  6. Op het moment dat het beeld van de eerste luidspreker naar de tweede wordt overgeschakeld, wordt de vrije lens onmiddellijk aangepast aan het algemene plan van de kamer
  7. Als iedereen zwijgt, toont de gratis lens zonder enige vertraging een kant-en-klaar algemeen plan
  8. Als de spreker weer verandert, gaat de vrije lens naar hem op zoek

Conclusie

Naar mijn mening brengt deze oplossing, die vorig jaar op de ISE en ISR werd gepresenteerd, hoogwaardige technologie dichterbij – zo niet bij de mensen, dan zeker bij het bedrijfsleven. Het is duidelijk dat voor 400 duizend roebel maar weinig mensen zo'n 'speelgoed' voor thuis zullen kopen, maar voor bedrijven, voor zakelijke videoconferenties, is dit een zeer betaalbare en handige oplossing voor het probleem van het automatisch richten van een camera.
Gezien de veelzijdigheid SmartCam A12 Spraaktrackingkan het systeem worden gebruikt als een geheel nieuwe oplossing, of als uitbreiding van de functionaliteit van een bestaande videoconferentie-infrastructuur. Aansluiten via HDMI is een grote stap richting de gebruiker, in tegenstelling tot de eigen systemen van de hierboven beschreven fabrikanten.

Ik wil graag de partners bedanken die hebben geholpen bij het testen.
bedrijf IP Matika — voor de Yealink VC880-terminal, vergaderruimte en Yakushina Yura.
bedrijf Smart-AV — voor het recht op de eerste en exclusieve beoordeling van de oplossing en het aanbod van het systeem SmartCam A12 Spraaktracking om uit te proberen.

In het laatste artikel Online vergaderruimteontwerper - selectie van de optimale videoconferentieoplossing, als websitepromotie vc4u.ru и VKS-ontwerper wij hebben aangekondigd 10% korting vanaf prijs in directory per codewoord HABR tot eind zomer 2019.

De korting geldt op producten in de volgende rubrieken:

Naar de beslissing SmartCam A12 Spraaktracking Ik bied een extra korting van 5% aan op de reeds bestaande 10% - in totaal 15% tot eind zomer 2019.

Ik kijk uit naar uw opmerkingen en antwoorden in de enquête!

Dank u voor uw aandacht.
Met vriendelijke groet,
Kirill Usikov (Usikov)
Hoofd van
Videobewakings- en videoconferentiesystemen
[e-mail beveiligd]
stss.ru
vc4u.ru

Alleen geregistreerde gebruikers kunnen deelnemen aan het onderzoek. Inloggen, Alsjeblieft.

Hoe nuttig is SmartCam A12 Voice Tracking?

  • Eindelijk is er een universele oplossing voor software- en hardwareterminals verschenen!

  • De oplossing is goed, maar er zijn andere beschikbare opties (ik zal in de reacties schrijven)

  • Het systeem is zwak, het bereikt Polycom en Cisco niet - ik zal in de reacties schrijven waarom je drie keer meer zou moeten betalen!

  • Wie heeft er eigenlijk automatische begeleiding nodig in een vergaderruimte?

  • Wie heeft er eigenlijk een PTZ-camera nodig in een vergaderruimte? — Ik heb de webcam aangesloten en het was prima!

8 gebruikers hebben gestemd. 5 gebruikers onthielden zich van stemming.

Bron: www.habr.com

Voeg een reactie