Funktionen af ​​kameramålretning med stemme er blevet mere tilgængelig - den universelle løsning SmartCam A12 Voice Tracking

Funktionen af ​​kameramålretning med stemme er blevet mere tilgængelig - den universelle løsning SmartCam A12 Voice TrackingEmnet om at spore en talende deltager i en videokonference har taget fart i løbet af de sidste par år. Teknologien har gjort det muligt at implementere komplekse algoritmer til behandling af audio/video-information i realtid, hvilket fik Polycom til for næsten 10 år siden at introducere verdens første mainstream-løsning med intelligent automatisk højttalersporing. I flere år formåede de at forblive de eneste ejere af en sådan løsning, men Cisco behøvede ikke at vente længe og bragte deres version af et intelligent to-kamerasystem på markedet, som var en fair konkurrent til løsningen fra Polycom. I mange år var dette segment af videokonferencer begrænset af fleres muligheder proprietære produkter, men denne artikel er dedikeret til den første universel løsning til kameravejledning med stemme, kompatibel med både hardware- og softwareinfrastruktur til videokonferencer.
Før jeg går videre til at beskrive løsninger og demonstrere muligheder, vil jeg bemærke en vigtig begivenhed:
Jeg er beæret over at præsentere for Habra-samfundet ny hub, dedikeret til videokonferenceløsninger (VCC). Nu, takket være den fælles indsats (mine og UFO), Videokonference har sit eget hjem på Habré, og jeg inviterer alle involveret i dette omfattende og aktuelle emne til at abonnere på ny hub.

To scenarier til at rette kameraet mod højttaleren

I øjeblikket vælger integratorer af videokonferenceløsninger sig selv to forskellige måder at implementere opgaven med at målrette mod oplægsholderen på:

  1. Automatisk - Intelligent
  2. Halvautomatisk - programmerbar

Den første mulighed er kun løsninger fra Cisco, Polycom og andre producenter; vi vil overveje dem nedenfor. Her har vi at gøre med den fulde automatisering af at rette kameraet mod den talende deltager i videokonferencen. Unikke algoritmer til behandling af audio/video-signaler gør det muligt for kameraet at vælge den ønskede position uafhængigt.

Den anden mulighed er automatiseringssystemer baseret på forskellige eksterne kontrolcontrollere; vi vil ikke overveje dem i detaljer, fordi Artiklen er specifikt viet til automatisk sporing af højttalere.
Der er en del tilhængere af det andet scenarie for implementering af kamerapegning, og det er der grunde til. Erfarne integratorer forstår, at intelligente løsninger fra Polycom og Cisco kræver ideelle driftsforhold, for at automatiseringen kan fungere korrekt. Men det er ikke altid muligt at give sådanne betingelser, så systemets drift er nogle gange garanteret af følgende løsning på kameraets pegeproblem:

1. Alle de nødvendige forudindstillinger (positioner af PTZ-enheden og optisk zoomfaktor) indtastes manuelt på forhånd i kameraets hukommelse (eller nogle gange i kontrolenheden). Som regel er dette en generel plan for mødelokalet og en visning af hver konferencedeltager i portrættilstand.

2. Dernæst er initiativtagerne til at kalde den nødvendige forudindstilling installeret på de angivne steder - disse er enten mikrofonkonsoller eller radioknapper, generelt enhver enhed, der kan give kontrolcontrolleren et signal, som den forstår.

3. Styreregulatoren er programmeret på en sådan måde, at hver initiator har sin egen forudindstilling. Generel plan for rummet - alle initiativtagere er slukket.
Som følge heraf aktiverer taleren, før han starter sin tale, sin personlige mikrofonkonsol, når han bruger et kongressystem, for eksempel, og en kontrolcontroller. Kontrolsystemet behandler øjeblikkeligt den gemte kameraposition.

Dette scenarie fungerer upåklageligt - systemet behøver ikke at udføre stemmetriangulering og videoanalyse. Jeg trykkede på knappen og forudindstillingen virkede, ingen forsinkelser eller falske positiver.
Styre- og automationssystemer bruges i store komplekse rum, hvor der nogle gange ikke er installeret et, men flere videokameraer. Nå, til små og mellemstore mødelokaler er automatiske systemer ganske velegnede (hvis du har budgettet).
Lad os starte med grundlæggerne.

Polycom EagleEye-direktør

Funktionen af ​​kameramålretning med stemme er blevet mere tilgængelig - den universelle løsning SmartCam A12 Voice TrackingDenne løsning skabte engang en sensation inden for videokonferencer. Polycom EagleEye Director var den første løsning inden for intelligent kameravejledning. Løsningen består af en EagleEye Director baseenhed og to kameraer. Det særlige ved den første implementering er, at det ene kamera kun er tildelt et nærbillede af taleren, og det andet - til en generel plan for mødelokalet. Samtidig kan generalplankameraet placeres helt adskilt fra basen et andet sted i mødelokalet - det er ikke direkte involveret i den automatiske vejledningsproces.
Systemet fungerer som følger:

  1. Det generelle rumkamera er aktivt - alle er stille
  2. Højttaleren begynder at tale - mikrofonarrayet opfanger stemmen, kameraet bevæger sig mod lyden ved hjælp af patenteret teknologi, der inkluderer stemmetriangulering. Det generelle kamera er stadig aktivt
  3. Hovedkameraet er lige begyndt at lede efter lydkilden og udfører videoanalyser. Systemet identificerer højttaleren ved øje-næse-mund-forbindelsen, rammer billedet af højttaleren og viser strømmen fra hovedkameraet
  4. Højttaleren skifter. Mikrofongruppen forstår, at stemmen kommer fra et andet sted. Hovedplanen tændes igen.
  5. Og så i en cirkel, startende fra punkt 2
  6. Hvis den nye højttaler er i rammen med den forrige, foretager systemet en "varm" positioneringsændring uden at ændre det aktive flow til det generelle billede.

Ulempen er efter min mening tilstedeværelsen af ​​kun ét hovedkamera. Dette resulterer i en betydelig forsinkelse ved udskiftning af højttalere. Og hver gang i pegeøjeblikket tænder systemet for rummets generelle plan - under en livlig samtale begynder denne flimren at irritere.

Polycom EagleEye-direktør II

Funktionen af ​​kameramålretning med stemme er blevet mere tilgængelig - den universelle løsning SmartCam A12 Voice TrackingDette er den anden version af løsningen fra Polycom, som blev udgivet relativt for nylig. Driftsprincippet har undergået ændringer og er blevet mere som en løsning fra Cisco. Nu er begge PTZ-kameraer de vigtigste og tjener til problemfrit at skifte kanaler fra en præsentationsvært til en anden. Det generelle layout af mødelokalet er nu fanget af et separat kamera, der er integreret i kroppen af ​​EagleEye Director II baseenheden. Af en eller anden grund vises strømmen fra dette vidvinkelkamera i et ekstra vindue i hjørnet af skærmen, der optager 1/9 af hovedstrømmen. Princippet for positionering er det samme - stemmetriangulering og videostreamanalyse. Og flaskehalsene er de samme: Hvis systemet ikke ser den talende mund, vil kameraet ikke sigte. Og denne situation kan ske ret ofte - taleren har vendt sig væk, taleren har vendt sig til siden, taleren er en bugtaler, taleren har dækket sin mund med sin hånd eller et dokument.
Begge reklamevideoer blev optaget kompetent - 2 personer taler på skift, og åbner munden som ved en aftale med en logopæd. Men selv under sådanne raffinerede forhold er der en meget betydelig forsinkelse. Men indramningen er upåklagelig - et behageligt portrætbillede.

Cisco TelePresence SpeakerTrack 60

Funktionen af ​​kameramålretning med stemme er blevet mere tilgængelig - den universelle løsning SmartCam A12 Voice TrackingTil at beskrive denne løsning vil jeg bruge tekst fra den officielle brochure.
SpeakerTrack 60 har en unik tilgang med to kameraer til hurtigt at skifte direkte mellem deltagere. Det ene kamera finder hurtigt et nærbillede af den aktive oplægsholder, mens det andet søger efter og viser den næste oplægsholder. MultiSpeaker-funktionen forhindrer unødvendig skift, hvis den næste højttaler allerede er til stede i det aktuelle billede.
Desværre havde jeg ikke mulighed for selv at teste SpeakerTrack 60. Derfor skal der drages konklusioner baseret på udtalelsen "fra felten" og baseret på resultaterne af analysen af ​​demonstrationsvideoen nedenfor. Jeg regnede med en maksimal forsinkelse på næsten 8 sekunder, når jeg pegede på en ny oplægsholder. Den gennemsnitlige forsinkelse var 2-3 sekunder, at dømme efter videoen.

HUAWEI Intelligent Tracking Videokamera VPT300

Funktionen af ​​kameramålretning med stemme er blevet mere tilgængelig - den universelle løsning SmartCam A12 Voice TrackingJeg stødte på denne løsning fra Huawei ved et uheld. Systemet koster omkring $9K. Virker kun med Huawei-terminaler. Udviklerne tilføjede deres eget "trick" - et videolayout fra to højttalere på én skærm, hvis der ikke er andre i rummet. Med hensyn til egenskaber og erklæret funktionalitet er dette en meget interessant version af det automatiske vejledningssystem. Men desværre fandt jeg absolut intet demomateriale. Den eneste video, der dukkede op om dette emne, var en redigeret videogennemgang af løsningen, uden original lyd, sat til musik. Det var således ikke muligt at vurdere kvaliteten af ​​systemet. Af denne grund vil jeg ikke overveje denne mulighed.
Jeg kan se, at Huawei har en aktiv blog på Habré - måske kolleger vil kunne udgive nogle nyttige oplysninger om dette produkt.

Ny - universal løsning SmartCam A12 stemmesporing

Funktionen af ​​kameramålretning med stemme er blevet mere tilgængelig - den universelle løsning SmartCam A12 Voice TrackingSmartCam A12VT - en monoblok, inklusive to PTZ-kameraer til sporing af højttalere, to indbyggede kameraer til at analysere rummets generelle indretning, samt en mikrofongruppe indbygget i bunden af ​​kabinettet - som du kan se, er der ingen klodsede og skrøbelige strukturer som modstandernes.
Inden jeg begynder at beskrive det nye produkt, vil jeg sammensætte karakteristika og funktioner for løsninger fra Cisco og Polycom, så jeg kan sammenligne SmartCam A12VT med eksisterende tilbud.

Polycom EagleEye-direktør

  • Detailomkostninger for systemet uden terminal - $ 13K
  • Minimumsomkostninger for EagleEye Director + RealPresence Group 500-løsning - $ 19K
  • Gennemsnitlig skiftforsinkelse 3 sekunder
  • Stemmevejledning + videoanalyse
  • Høje krav til højttalerens ansigt - du kan ikke skjule din mund
  • Inkompatibilitet med tredjepartsudstyr

Cisco TelePresence SpeakerTrack 60

  • Detailomkostninger for systemet uden terminal - $ 15,9K
  • Minimumsomkostninger for TelePresence SpeakerTrack 60 + SX80 Codec-løsning - $ 30K
  • Gennemsnitlig skiftforsinkelse 3 sekunder
  • Stemmevejledning + videoanalyse
  • Krav til talerens ansigt - tjekkede ikke, fandt ikke information
  • Inkompatibilitet med tredjepartsudstyr

SmartCam A12 stemmesporing

  • Detailomkostninger for systemet uden terminal - $ 6,2K
  • Minimum løsningsomkostninger SmartCam A12VT + Yealink VC880$ 10.8K
  • Minimum løsningsomkostninger SmartCam A12VT+ softwareterminal$ 7,7K
  • Gennemsnitlig skiftforsinkelse 3 sekunder
  • Stemmevejledning + videoanalyse
  • Krav til højttalerens ansigt - ingen krav
  • Tredjepartskompatibilitet - HDMI

Som to vigtigste og ubestridelige fordele ved løsningen SmartCam A12 stemmesporing Jeg finder:

  1. Tilslutningsmulighed — via HDMI integreres systemet med både hardware- og software-videokonferenceterminalsystemer
  2. Lavpris — Med lignende funktionalitet er A12VT mange gange mere overkommelig på et budget end de forslag, der er beskrevet ovenfor.

For at demonstrere, hvordan systemet fungerer, optog vi en videogennemgang. Opgaven var ikke så meget reklame som funktionel. Derfor er videoen blottet for patosen fra en Polycom reklamevideo. Det valgte sted for præsentationen var ikke et repræsentationskontor, men et laboratoriemødelokale for vores partner, IPMatika-virksomheden.
Mit mål var ikke at skjule systemets fejl, men tværtimod at afsløre flaskehalsene i funktionaliteten, at tvinge systemet til at lave fejl.

Efter min mening bestod systemet testene med succes. Jeg siger dette med selvtillid, fordi i skrivende stund denne artikel, løsningen SmartCam A12 stemmesporing besøgte et dusin rigtige mødelokaler af vores kunder. Fejl i automatiseringen blev udelukkende observeret i forhold til overtrædelse af de anbefalede driftsregler. Især minimumsafstanden til nærliggende deltagere. Hvis du sidder meget tæt på kameraet, mindre end en meter, vil mikrofonarrayet ikke kunne genkende dig, og objektivet vil ikke kunne spore dig.

Funktionen af ​​kameramålretning med stemme er blevet mere tilgængelig - den universelle løsning SmartCam A12 Voice Tracking

Ud over afstanden er der et andet krav - kameraets højde.

Funktionen af ​​kameramålretning med stemme er blevet mere tilgængelig - den universelle løsning SmartCam A12 Voice Tracking

Hvis kameraet er installeret for lavt, kan der opstå problemer med stemmeplacering. Muligheden under tv'et virkede desværre ikke.
Men at installere systemet over en displayenhed er en ideel måde for enheden at fungere på. Kamerahylden medfølger, kun vægbeslaget understøttes som standard.

Sådan fungerer SmartCam A12 Voice Tracking

De vigtigste PTZ-objektiver har lige store roller - deres opgave er skiftevis at spore oplægsholdere og vise den overordnede plan. Analyse af det overordnede billede i rummet og bestemmelse af afstanden til objekter udføres ved hjælp af videostreams modtaget fra to kameraer integreret i bunden af ​​systemet. Denne funktion giver dig mulighed for at reducere objektivets reaktionstid, når du skifter højttaler til 1-2 sekunder. Kameraet formår at veksle mellem deltagerne i en behagelig rytme, selvom de udveksler korte sætninger.
En videodemonstration af systemets drift afspejler fuldt ud funktionaliteten SmartCam A12VT. Men for dem, der ikke har set videoen, vil jeg med ord beskrive princippet om automatiseringens drift:

  1. Rummet er tomt: en af ​​linserne viser den generelle plan, den anden er klar - venter på folk
  2. Folk går ind i lokalet og tager plads: den frie linse finder de to ekstreme deltagere og rammer billedet omkring dem og afskærer den tomme del af rummet
  3. Mens folk bevæger sig, sporer linserne på skift alle i rummet og holder dem i midten af ​​rammen
  4. Taleren begynder at tale: linsen er aktiv, tilpasset den generelle plan. Den anden er rettet mod højttaleren og går først derefter i udsendelsestilstand
  5. Højttaleren ændres: linsen, der er justeret til den første højttaler, er aktiv, og den anden linse taber vidvinkelbilledet og tilpasser sig den nye højttaler
  6. I det øjeblik billedet skiftes fra den første højttaler til den anden, justeres den frie linse øjeblikkeligt til rummets generelle plan
  7. Hvis alle er tavse, vil den gratis linse vise en færdiglavet generel plan uden forsinkelser
  8. Hvis højttaleren skifter igen, vil den frie linse gå på jagt efter ham

Konklusion

Efter min mening bringer denne løsning, der blev præsenteret på ISE og ISR sidste år, højteknologi tættere på - hvis ikke til folket, så til forretning. Det er klart, at for 400 tusind rubler vil få mennesker købe sådan et "legetøj" til hjemmet, men for erhvervslivet, til virksomhedsvideokonferencer, er dette en meget overkommelig og bekvem løsning på problemet med automatisk sigtning af et kamera.
På grund af alsidigheden SmartCam A12 stemmesporing, kan systemet bruges som en løsning fra bunden, eller som en udvidelse af funktionaliteten af ​​en eksisterende videokonferenceinfrastruktur. Tilslutning via HDMI er et stort skridt mod brugeren, i modsætning til de proprietære systemer hos de ovenfor beskrevne producenter.

Jeg vil gerne takke de partnere, der har hjulpet med at teste.
Selskab IPMatika — til Yealink VC880-terminalen, mødelokalet og Yakushina Yura.
Selskab Smart-AV — for retten til den første og eksklusive gennemgang af løsningen og leveringen af ​​systemet SmartCam A12 stemmesporing til test.

I den sidste artikel Online mødelokale designer - valg af den optimale videokonferenceløsning, som webstedspromovering vc4u.ru и VKS designer meddelte vi 10% rabat fra pris ind Vejviser med kodeord HABR indtil udgangen af ​​sommeren 2019.

Rabatten gælder for produkter i følgende sektioner:

Til afgørelsen SmartCam A12 stemmesporing Jeg tilbyder yderligere 5% rabat til de allerede eksisterende 10% - i alt 15 % frem til udgangen af ​​sommeren 2019.

Jeg ser frem til dine kommentarer og svar i undersøgelsen!

Tak for din opmærksomhed.
Med venlig hilsen
Kirill Usikov (Usikoff)
Leder af
Videoovervågning og videokonferencesystemer
[e-mail beskyttet]
stss.ru
vc4u.ru

Kun registrerede brugere kan deltage i undersøgelsen. Log ind, Vær venlig.

Hvor nyttig er SmartCam A12 Voice Tracking?

  • Endelig er en universel løsning til software- og hardwareterminaler dukket op!

  • Løsningen er god, men der er andre tilgængelige muligheder (jeg skriver i kommentarerne)

  • Systemet er svagt, det når ikke Polycom og Cisco - jeg vil skrive i kommentarerne, hvorfor du skal betale 3 gange mere!

  • Hvem har overhovedet brug for automatisk vejledning i et mødelokale?

  • Hvem har overhovedet brug for et PTZ-kamera i et mødelokale? — Jeg tilsluttede webkameraet, og det var fint!

8 brugere stemte. 5 brugere undlod at stemme.

Kilde: www.habr.com

Tilføj en kommentar