Funksjonen til kameramålretting med stemme har blitt mer tilgjengelig - den universelle løsningen SmartCam A12 Voice Tracking

Funksjonen til kameramålretting med stemme har blitt mer tilgjengelig - den universelle løsningen SmartCam A12 Voice TrackingTemaet å spore en talende deltaker i en videokonferanse har skutt fart de siste årene. Teknologien har gjort det mulig å implementere komplekse algoritmer for å behandle lyd/videoinformasjon i sanntid, noe som fikk Polycom for nesten 10 år siden til å introdusere verdens første mainstream-løsning med intelligent automatisk høyttalersporing. I flere år klarte de å forbli de eneste eierne av en slik løsning, men Cisco trengte ikke å vente lenge og brakte på markedet sin versjon av et intelligent tokamerasystem, som var en rettferdig konkurrent til løsningen fra Polycom. I mange år var dette segmentet av videokonferanser begrenset av mulighetene til flere proprietær produkter, men denne artikkelen er dedikert til den første universell løsning for kameraveiledning med stemme, kompatibel med både maskinvare- og programvareinfrastruktur for videokonferanser.
Før jeg går videre til å beskrive løsninger og demonstrere evner, vil jeg merke meg en viktig hendelse:
Jeg er beæret over å presentere for Habra-samfunnet nytt knutepunkt, dedikert til videokonferanseløsninger (VCC). Nå, takket være felles innsats (mine og UFO), Videokonferanse har sitt eget hjem på Habré, og jeg inviterer alle som er involvert i dette omfattende og aktuelle temaet til å abonnere på nytt knutepunkt.

To scenarier for å rette kameraet mot høyttaleren

For øyeblikket velger integratorer av videokonferanseløsninger to forskjellige måter å implementere oppgaven med å målrette mot presentatøren på:

  1. Automatisk - Intelligent
  2. Halvautomatisk - programmerbar

Det første alternativet er bare løsninger fra Cisco, Polycom og andre produsenter; vi vil vurdere dem nedenfor. Her har vi å gjøre med full automatisering ved å rette kameraet mot den talende deltakeren i videokonferansen. Unike algoritmer for behandling av lyd-/videosignaler lar kameraet velge ønsket posisjon uavhengig.

Det andre alternativet er automatiseringssystemer basert på forskjellige eksterne kontrollkontrollere; vi vil ikke vurdere dem i detalj, fordi Artikkelen er spesifikt viet til automatisk sporing av høyttalere.
Det er ganske mange tilhengere av det andre scenariet for implementering av kamerapeking, og det er grunner til dette. Erfarne integratorer forstår at intelligente løsninger fra Polycom og Cisco krever ideelle driftsforhold for at automatiseringen skal fungere skikkelig. Men det er ikke alltid mulig å gi slike forhold, så systemets drift er noen ganger garantert av følgende løsning på kamerapekeproblemet:

1. Alle nødvendige forhåndsinnstillinger (posisjonene til PTZ-enheten og optisk zoomfaktor) legges inn manuelt på forhånd i kameraets minne (eller noen ganger i kontrollkontrollen). Som regel er dette en generell plan for møterommet, og en visning av hver konferansedeltaker i portrettmodus.

2. Deretter er initiatorene for å ringe den nødvendige forhåndsinnstillingen installert på de angitte stedene - disse er enten mikrofonkonsoller eller radioknapper, generelt, enhver enhet som kan gi kontrollkontrolleren et signal som den forstår.

3. Styringskontrolleren er programmert på en slik måte at hver initiator har sin egen forhåndsinnstilling. Generell plan for rommet - alle initiativtakere er slått av.
Som et resultat, når for eksempel et kongresssystem og en kontrollkontroller brukes, aktiverer taleren sin personlige mikrofonkonsoll før han starter talen. Kontrollsystemet behandler den lagrede kameraposisjonen umiddelbart.

Dette scenariet fungerer feilfritt - systemet trenger ikke utføre stemmetriangulering og videoanalyse. Jeg trykket på knappen og forhåndsinnstillingen fungerte, ingen forsinkelser eller falske positiver.
Kontroll- og automasjonssystemer brukes i store, komplekse rom, der noen ganger ikke ett, men flere videokameraer er installert. Vel, for små og mellomstore møterom er automatiske systemer ganske egnet (hvis du har budsjettet).
La oss starte med grunnleggerne.

Polycom EagleEye-direktør

Funksjonen til kameramålretting med stemme har blitt mer tilgjengelig - den universelle løsningen SmartCam A12 Voice TrackingDenne løsningen skapte en gang en sensasjon innen videokonferanser. Polycom EagleEye Director var den første løsningen innen intelligent kameraveiledning. Løsningen består av en EagleEye Director baseenhet og to kameraer. Det særegne med den første implementeringen er at det ene kameraet kun er tildelt et nærbilde av høyttaleren, og det andre - til en generell plan for møterommet. Samtidig kan det generelle plankameraet plasseres helt adskilt fra basen et annet sted i møterommet – det er ikke direkte involvert i den automatiske veiledningsprosessen.
Systemet fungerer som følger:

  1. Det generelle romkameraet er aktivt - alle er stille
  2. Høyttaleren begynner å snakke - mikrofonarrayen fanger opp stemmen, kameraet beveger seg mot lyden ved hjelp av patentert teknologi som inkluderer stemmetriangulering. Det generelle kameraet er fortsatt aktivt
  3. Hovedkameraet begynner akkurat å lete etter lydkilden og utfører videoanalyse. Systemet identifiserer høyttaleren ved øye-nese-munn-tilkoblingen, rammer inn bildet av høyttaleren og viser strømmen fra hovedkameraet
  4. Høyttaleren endres. Mikrofongruppen forstår at stemmen kommer fra et annet sted. Hovedplanen slås på igjen.
  5. Og så i en sirkel, fra punkt 2
  6. Hvis den nye høyttaleren er i rammen med den forrige, gjør systemet en "varm" posisjonsendring uten å endre den aktive flyten til det generelle bildet.

Ulempen, etter min mening, er tilstedeværelsen av bare ett hovedkamera. Dette resulterer i en betydelig forsinkelse ved bytte av høyttalere. Og hver gang i pekeøyeblikket slår systemet på den generelle planen for rommet - under en livlig samtale begynner denne flimringen å irritere.

Polycom EagleEye-direktør II

Funksjonen til kameramålretting med stemme har blitt mer tilgjengelig - den universelle løsningen SmartCam A12 Voice TrackingDette er den andre versjonen av løsningen fra Polycom, som ble lansert relativt nylig. Driftsprinsippet har gjennomgått endringer og har blitt mer som en løsning fra Cisco. Nå er begge PTZ-kameraene de viktigste og tjener til å sømløst bytte kanaler fra en programleder til en annen. Den generelle utformingen av møterommet er nå fanget av et separat kamera integrert i kroppen til EagleEye Director II-baseenheten. Av en eller annen grunn vises strømmen fra dette vidvinkelkameraet i et ekstra vindu i hjørnet av skjermen, som opptar 1/9 av hovedstrømmen. Prinsippet for posisjonering er det samme - stemmetriangulering og videostrømanalyse. Og flaskehalsene er de samme: Hvis systemet ikke ser den talende munnen, vil ikke kameraet sikte. Og denne situasjonen kan skje ganske ofte - taleren har vendt seg bort, taleren har vendt seg til siden, taleren er en buktaler, taleren har dekket munnen med hånden eller et dokument.
Begge reklamevideoene ble skutt kompetent - 2 personer snakker etter tur, og åpner munnen som ved en avtale med en logoped. Men selv under slike raffinerte forhold er det en veldig betydelig forsinkelse. Men innrammingen er upåklagelig - et komfortabelt portrettbilde.

Cisco TelePresence SpeakerTrack 60

Funksjonen til kameramålretting med stemme har blitt mer tilgjengelig - den universelle løsningen SmartCam A12 Voice TrackingFor å beskrive denne løsningen vil jeg bruke tekst fra den offisielle brosjyren.
SpeakerTrack 60 har en unik tilnærming med to kameraer for raskt å bytte direkte mellom deltakerne. Det ene kameraet finner raskt et nærbilde av den aktive programlederen, mens det andre søker etter og viser neste programleder. MultiSpeaker-funksjonen forhindrer unødvendig veksling hvis neste høyttaler allerede er til stede i gjeldende ramme.
Dessverre hadde jeg ikke mulighet til å teste SpeakerTrack 60 selv. Derfor må konklusjoner trekkes basert på oppfatningen "fra felten" og basert på resultatene av analysen av demonstrasjonsvideoen nedenfor. Jeg regnet med en maksimal forsinkelse på nesten 8 sekunder når jeg pekte på en ny programleder. Gjennomsnittlig forsinkelse var 2-3 sekunder, etter videoen å dømme.

HUAWEI intelligent sporingsvideokamera VPT300

Funksjonen til kameramålretting med stemme har blitt mer tilgjengelig - den universelle løsningen SmartCam A12 Voice TrackingJeg kom over denne løsningen fra Huawei ved et uhell. Systemet koster rundt $9K. Fungerer kun med Huawei-terminaler. Utviklerne la til sitt eget "triks" - et videooppsett fra to høyttalere på én skjerm hvis det ikke er noen andre i rommet. Når det gjelder egenskaper og deklarert funksjonalitet, er dette en veldig interessant versjon av det automatiske veiledningssystemet. Men dessverre fant jeg absolutt ikke noe demomateriale. Den eneste videoen som dukket opp om dette emnet var en redigert videogjennomgang av løsningen, uten original lyd, satt til musikk. Dermed var det ikke mulig å vurdere kvaliteten på systemet. Av denne grunn vil jeg ikke vurdere dette alternativet.
Jeg ser at Huawei har en aktiv blogg på Habré - kanskje kolleger kan publisere litt nyttig informasjon om dette produktet.

Ny - universalløsning SmartCam A12 stemmesporing

Funksjonen til kameramålretting med stemme har blitt mer tilgjengelig - den universelle løsningen SmartCam A12 Voice TrackingSmartCam A12VT - en monoblokk, inkludert to PTZ-kameraer for sporing av høyttalere, to innebygde kameraer for å analysere den generelle utformingen av rommet, samt en mikrofongruppe innebygd i bunnen av dekselet - som du kan se, er det ingen klumpete og skjøre strukturer som motstandernes.
Før jeg begynner å beskrive det nye produktet, vil jeg sette sammen egenskapene og funksjonene til løsninger fra Cisco og Polycom slik at jeg kan sammenligne SmartCam A12VT med eksisterende tilbud.

Polycom EagleEye-direktør

  • Detaljhandelskostnad for systemet uten terminal - $ 13K
  • Minimumskostnad for EagleEye Director + RealPresence Group 500-løsning — $ 19K
  • Gjennomsnittlig bytteforsinkelse 3 sekunder
  • Stemmeveiledning + videoanalyse
  • Høye krav til høyttalerens ansikt - du kan ikke skjule munnen
  • Inkompatibilitet med tredjepartsutstyr

Cisco TelePresence SpeakerTrack 60

  • Detaljhandelskostnad for systemet uten terminal - $ 15,9K
  • Minimumskostnad for TelePresence SpeakerTrack 60 + SX80 Codec-løsning - $ 30K
  • Gjennomsnittlig bytteforsinkelse 3 sekunder
  • Stemmeveiledning + videoanalyse
  • Krav til talerens ansikt - sjekket ikke, fant ikke informasjon
  • Inkompatibilitet med tredjepartsutstyr

SmartCam A12 stemmesporing

  • Detaljhandelskostnad for systemet uten terminal - $ 6,2K
  • Minimum løsningskostnad SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Minimum løsningskostnad SmartCam A12VT+ programvareterminal - $ 7,7K
  • Gjennomsnittlig bytteforsinkelse 3 sekunder
  • Stemmeveiledning + videoanalyse
  • Krav til høyttalerens ansikt - ingen krav
  • Tredjepartskompatibilitet - HDMI

Som to viktigste og ubestridelige fordeler med løsningen SmartCam A12 stemmesporing Jeg finner:

  1. Allsidig tilkobling — via HDMI integreres systemet med både maskinvare og programvare for videokonferanseterminalsystemer
  2. Lav pris - med lignende funksjonalitet er A12VT mange ganger rimeligere på et budsjett enn forslagene beskrevet ovenfor.

For å demonstrere hvordan systemet fungerer, tok vi opp en videogjennomgang. Oppgaven var ikke så mye reklame som funksjonell. Derfor er videoen blottet for patosen til en Polycom-kampanjevideo. Stedet som ble valgt for presentasjonen var ikke et representasjonskontor, men et laboratoriemøterom til vår partner, IPMatika-selskapet.
Målet mitt var ikke å skjule feilene i systemet, men tvert imot å avsløre flaskehalsene i funksjonaliteten, å tvinge systemet til å gjøre feil.

Etter min mening besto systemet testene. Jeg sier dette med selvtillit fordi i skrivende stund denne artikkelen, løsningen SmartCam A12 stemmesporing besøkt et dusin ekte møterom til våre kunder. Feil i automatiseringen ble utelukkende observert i forhold til brudd på de anbefalte driftsreglene. Spesielt minimumsavstanden til deltakere i nærheten. Hvis du sitter veldig nært kameraet, mindre enn en meter, vil ikke mikrofongruppen kunne gjenkjenne deg og linsen vil ikke kunne spore deg.

Funksjonen til kameramålretting med stemme har blitt mer tilgjengelig - den universelle løsningen SmartCam A12 Voice Tracking

I tillegg til avstanden er det et annet krav - høyden på kameraet.

Funksjonen til kameramålretting med stemme har blitt mer tilgjengelig - den universelle løsningen SmartCam A12 Voice Tracking

Hvis kameraet er installert for lavt, kan det oppstå problemer med stemmeposisjonering. Alternativet under TV-en fungerte dessverre ikke.
Men å installere systemet over en skjermenhet er en ideell måte for enheten å fungere på. Kamerahyllen er inkludert, kun veggfestet støttes som standard.

Hvordan SmartCam A12 Voice Tracking fungerer

De viktigste PTZ-linsene har like roller - deres oppgave er å vekselvis spore presentatører og vise den overordnede planen. Analyse av det overordnede bildet i rommet og bestemmelse av avstanden til objekter utføres ved hjelp av videostrømmer mottatt fra to kameraer integrert i basen av systemet. Denne funksjonen lar deg redusere objektivets reaksjonstid når du bytter høyttaler til 1-2 sekunder. Kameraet klarer å veksle mellom deltakerne i en behagelig rytme, selv om de veksler korte setninger.
En videodemonstrasjon av systemets drift gjenspeiler funksjonaliteten fullt ut SmartCam A12VT. Men for de som ikke har sett videoen, vil jeg beskrive med ord prinsippet for drift av automatiseringen:

  1. Rommet er tomt: en av linsene viser den generelle planen, den andre er klar - venter på folk
  2. Folk går inn i rommet og setter seg: den frie linsen finner de to ekstreme deltakerne og rammer inn bildet rundt dem, og kutter av den tomme delen av rommet
  3. Mens folk beveger seg, sporer linsene etter tur alle i rommet, og holder dem i midten av rammen
  4. Høyttaleren begynner å snakke: linsen er aktiv, tilpasset den generelle planen. Den andre er rettet mot høyttaleren, og først da går den i kringkastingsmodus
  5. Høyttaleren endres: linsen som er justert til den første høyttaleren er aktiv, og den andre linsen slipper vidvinkelbildet og justerer seg til den nye høyttaleren
  6. I det øyeblikket bildet byttes fra den første høyttaleren til den andre, justeres den ledige linsen umiddelbart til den generelle planen for rommet
  7. Hvis alle er stille, vil gratislinsen vise en ferdig generell plan uten forsinkelser
  8. Hvis høyttaleren endres igjen, vil den ledige linsen gå på jakt etter ham

Konklusjon

Etter min mening bringer denne løsningen, presentert på ISE og ISR i fjor, høyteknologi nærmere - om ikke folket, så til næringslivet. Det er klart at for 400 tusen rubler vil få mennesker kjøpe et slikt "leketøy" til hjemmet, men for bedrifter, for bedriftsvideokonferanser, er dette en veldig rimelig og praktisk løsning på problemet med automatisk sikting av et kamera.
Gitt allsidigheten SmartCam A12 stemmesporing, kan systemet brukes som en løsning fra bunnen av, eller som en utvidelse av funksjonaliteten til en eksisterende videokonferanseinfrastruktur. Tilkobling via HDMI er et stort skritt mot brukeren, i motsetning til de proprietære systemene til de ovenfor beskrevne produsentene.

Jeg vil gjerne takke partnerne som bidro til testing.
selskap IPMatika — for Yealink VC880-terminalen, møterom og Yakushina Yura.
selskap Smart-AV — for retten til den første og eksklusive gjennomgangen av løsningen og tilbudet av systemet SmartCam A12 stemmesporing for testing.

I den siste artikkelen Online møterom designer - valg av den optimale videokonferanseløsningen, som nettstedspromotering vc4u.ru и VKS designer vi annonserte 10% rabatt fra pris inn katalog med kodeord HORNBEAM til slutten av sommeren 2019.

Rabatten gjelder produkter i følgende seksjoner:

Til avgjørelsen SmartCam A12 stemmesporing Jeg tilbyr ytterligere 5 % rabatt til de allerede eksisterende 10 % - totalt 15 % frem til slutten av sommeren 2019.

Jeg ser frem til dine kommentarer og svar i undersøkelsen!

Takk for oppmerksomheten.
Vennlig hilsen,
Kirill Usikov (Usikoff)
Leder av
Videoovervåking og videokonferansesystemer
[e-postbeskyttet]
stss.ru
vc4u.ru

Kun registrerte brukere kan delta i undersøkelsen. Logg inn, vær så snill.

Hvor nyttig er SmartCam A12 Voice Tracking?

  • Endelig har en universell løsning for programvare- og maskinvareterminaler dukket opp!

  • Løsningen er god, men det er andre tilgjengelige alternativer (jeg skriver i kommentarfeltet)

  • Systemet er svakt, det når ikke Polycom og Cisco - jeg vil skrive i kommentarfeltet hvorfor du bør betale 3 ganger mer!

  • Hvem trenger autoveiledning i et møterom?

  • Hvem trenger et PTZ-kamera i et møterom? — Jeg koblet til webkameraet og det var bra!

8 brukere stemte. 5 brukere avsto.

Kilde: www.habr.com

Legg til en kommentar