Ang pag-andar ng pag-target sa camera sa pamamagitan ng boses ay naging mas naa-access - ang pangkalahatang solusyon na SmartCam A12 Voice Tracking

Ang pag-andar ng pag-target sa camera sa pamamagitan ng boses ay naging mas naa-access - ang pangkalahatang solusyon na SmartCam A12 Voice TrackingAng paksa ng pagsubaybay sa isang nagsasalitang kalahok sa isang video conference ay nakakuha ng momentum sa nakalipas na ilang taon. Ginawang posible ng teknolohiya na ipatupad ang mga kumplikadong algorithm para sa pagproseso ng impormasyon ng audio/video sa real time, na nag-udyok sa Polycom, halos 10 taon na ang nakalipas, na ipakilala ang unang pangunahing solusyon sa mundo na may matalinong awtomatikong pagsubaybay sa speaker. Sa loob ng maraming taon, nagawa nilang manatiling tanging may-ari ng naturang solusyon, ngunit hindi na kailangang maghintay ng matagal ang Cisco at dinala sa merkado ang kanilang bersyon ng isang matalinong dalawang-camera system, na isang patas na katunggali sa solusyon mula sa Polycom. Sa loob ng maraming taon, ang segment na ito ng videoconferencing ay nalimitahan ng mga kakayahan ng ilan pagmamay-ari mga produkto, ngunit ang artikulong ito ay nakatuon sa una unibersal solusyon para sa paggabay ng camera sa pamamagitan ng boses, tugma sa parehong hardware at software na imprastraktura ng video conferencing.
Bago magpatuloy sa paglalarawan ng mga solusyon at pagpapakita ng mga kakayahan, nais kong tandaan ang isang mahalagang kaganapan:
Ikinararangal kong ipakita sa komunidad ng Habra bagong hub, na nakatuon sa mga solusyon sa videoconferencing (VCC). Ngayon, salamat sa magkasanib na pagsisikap (mina at UFO), Video conferencing ay may sariling tahanan sa HabrΓ©, at inaanyayahan ko ang lahat ng kasangkot sa malawak at kasalukuyang paksang ito upang mag-subscribe bagong hub.

Dalawang senaryo para sa pagtutok ng camera sa speaker

Sa ngayon, pinipili ng mga integrator ng mga solusyon sa video conferencing para sa kanilang sarili ang dalawang magkaibang paraan para ipatupad ang gawain ng pag-target sa nagtatanghal:

  1. Awtomatiko - Matalino
  2. Semi-awtomatikong - programmable

Ang unang pagpipilian ay mga solusyon lamang mula sa Cisco, Polycom at iba pang mga tagagawa; isasaalang-alang namin ang mga ito sa ibaba. Narito kami ay nakikitungo sa buong automation ng pagturo ng camera sa nagsasalita ng kalahok sa video conference. Ang mga natatanging algorithm para sa pagproseso ng mga signal ng audio/video ay nagbibigay-daan sa camera na piliin ang nais na posisyon nang nakapag-iisa.

Ang pangalawang pagpipilian ay ang mga sistema ng automation batay sa iba't ibang mga panlabas na control controller; hindi namin isasaalang-alang ang mga ito nang detalyado, dahil Ang artikulo ay partikular na nakatuon sa awtomatikong pagsubaybay ng mga nagsasalita.
Mayroong ilang mga tagasuporta ng pangalawang senaryo para sa pagpapatupad ng camera pointing, at may mga dahilan para dito. Nauunawaan ng mga nakaranasang integrator na ang mga matatalinong solusyon mula sa Polycom at Cisco ay nangangailangan ng mainam na kondisyon sa pagpapatakbo para gumana nang maayos ang automation. Ngunit hindi laging posible na magbigay ng ganitong mga kundisyon, kaya minsan ginagarantiyahan ang pagpapatakbo ng system ng sumusunod na solusyon sa problema sa pagturo ng camera:

1. Ang lahat ng kinakailangang preset (mga posisyon ng PTZ device at optical zoom factor) ay manu-manong ipinasok nang maaga sa memorya ng camera (o minsan sa control controller). Bilang isang patakaran, ito ay isang pangkalahatang plano ng meeting room, at isang view ng bawat kalahok sa conference sa portrait mode.

2. Susunod, ang mga initiator para sa pagtawag sa kinakailangang preset ay naka-install sa mga tinukoy na lugar - ito ay alinman sa mga console ng mikropono o mga radio button, sa pangkalahatan, anumang aparato na maaaring magbigay sa control controller ng isang senyas na naiintindihan nito.

3. Ang control controller ay naka-program sa paraang ang bawat initiator ay may sariling preset. Pangkalahatang plano ng silid - lahat ng mga initiator ay naka-off.
Bilang isang resulta, kapag gumagamit ng isang sistema ng kongreso, halimbawa, at isang control controller, ang tagapagsalita, bago simulan ang kanyang pagsasalita, ay ina-activate ang kanyang personal na microphone console. Agad na pinoproseso ng control system ang naka-save na posisyon ng camera.

Ang sitwasyong ito ay gumagana nang walang kamali-mali - ang system ay hindi kailangang magsagawa ng voice triangulation at video analytics. Pinindot ko ang button at gumana ang preset, walang delay o false positive.
Ang mga control at automation system ay ginagamit sa malalaking, kumplikadong mga silid, kung saan minsan ay hindi isa, ngunit ilang mga video camera ang naka-install. Well, para sa maliliit at katamtamang laki ng mga meeting room, ang mga awtomatikong system ay medyo angkop (kung mayroon kang badyet).
Magsimula tayo sa mga founding father.

Direktor ng Polycom EagleEye

Ang pag-andar ng pag-target sa camera sa pamamagitan ng boses ay naging mas naa-access - ang pangkalahatang solusyon na SmartCam A12 Voice TrackingAng solusyong ito ay minsang lumikha ng isang pakiramdam sa larangan ng video conferencing. Ang Polycom EagleEye Director ay ang unang solusyon sa larangan ng matalinong paggabay sa camera. Ang solusyon ay binubuo ng isang EagleEye Director base unit at dalawang camera. Ang kakaiba ng unang pagpapatupad na iyon ay ang isang camera ay inilalaan lamang sa isang close-up na view ng speaker, at ang pangalawa - sa isang pangkalahatang plano ng meeting room. Kasabay nito, ang camera ng pangkalahatang plano ay maaaring ganap na mailagay nang hiwalay sa base sa ibang lugar sa meeting room - hindi ito direktang kasangkot sa proseso ng awtomatikong paggabay.
Ang sistema ay gumagana tulad ng sumusunod:

  1. Aktibo ang camera ng pangkalahatang silid - tahimik ang lahat
  2. Nagsisimulang magsalita ang speaker - kinukuha ng hanay ng mikropono ang boses, gumagalaw ang camera patungo sa tunog gamit ang patented na teknolohiya na kinabibilangan ng voice triangulation. Ang pangkalahatang camera ay aktibo pa rin
  3. Ang pangunahing kamera ay nagsisimula pa lamang na hanapin ang pinagmulan ng tunog, na nagsasagawa ng video analytics. Kinikilala ng system ang speaker sa pamamagitan ng koneksyon sa mata-ilong-bibig, ibina-frame ang larawan ng speaker at ipinapakita ang stream mula sa pangunahing camera
  4. Nagbabago ang tagapagsalita. Naiintindihan ng hanay ng mikropono na ang boses ay nagmumula sa ibang lugar. Muling binuksan ang pangkalahatang plano.
  5. At pagkatapos ay sa isang bilog, simula sa punto 2
  6. Kung ang bagong speaker ay nasa frame kasama ng nauna, gagawa ang system ng "mainit" na pagbabago sa pagpoposisyon nang hindi binabago ang aktibong daloy sa pangkalahatang pagbaril.

Ang downside, sa aking opinyon, ay ang pagkakaroon ng isang pangunahing camera lamang. Nagreresulta ito sa isang makabuluhang pagkaantala kapag nagpapalit ng mga speaker. At sa bawat oras sa sandali ng pagturo, ang sistema ay lumiliko sa pangkalahatang plano ng silid - sa isang masiglang pag-uusap, ang pagkutitap na ito ay nagsisimulang makairita.

Direktor II ng Polycom EagleEye

Ang pag-andar ng pag-target sa camera sa pamamagitan ng boses ay naging mas naa-access - ang pangkalahatang solusyon na SmartCam A12 Voice TrackingIto ang pangalawang bersyon ng solusyon mula sa Polycom, na pinakawalan kamakailan. Ang prinsipyo ng operasyon ay sumailalim sa mga pagbabago at naging mas katulad ng isang solusyon mula sa Cisco. Ngayon ang parehong PTZ camera ay ang mga pangunahing at nagsisilbi upang walang putol na paglipat ng mga channel mula sa isang nagtatanghal patungo sa isa pa. Ang pangkalahatang layout ng meeting room ay nakunan na ngayon ng isang hiwalay na camera na isinama sa katawan ng EagleEye Director II base unit. Para sa ilang kadahilanan, ang stream mula sa wide-angle na camera na ito ay ipinapakita sa isang karagdagang window sa sulok ng screen, na sumasakop sa 1/9 ng pangunahing stream. Ang prinsipyo ng pagpoposisyon ay pareho - triangulation ng boses at pagsusuri ng video stream. At pareho ang mga bottleneck: kung hindi nakikita ng system ang nagsasalitang bibig, hindi maglalayon ang camera. At ang sitwasyong ito ay maaaring mangyari nang madalas - ang nagsasalita ay tumalikod, ang nagsasalita ay nakatagilid, ang nagsasalita ay isang ventriloquist, ang nagsasalita ay tinakpan ang kanyang bibig gamit ang kanyang kamay o isang dokumento.
Ang parehong mga video na pang-promosyon ay mahusay na kinunan - 2 tao ang nagsasalita nang salitan, at ibinuka ang kanilang mga bibig na parang may appointment sa isang speech therapist. Ngunit kahit na sa gayong pinong mga kondisyon ay may napakalaking pagkaantala. Ngunit ang pag-frame ay hindi nagkakamali - isang komportableng portrait shot.

Cisco TelePresence SpeakerTrack 60

Ang pag-andar ng pag-target sa camera sa pamamagitan ng boses ay naging mas naa-access - ang pangkalahatang solusyon na SmartCam A12 Voice TrackingUpang ilarawan ang solusyong ito, gagamit ako ng teksto mula sa opisyal na polyeto.
Gumagamit ang SpeakerTrack 60 ng natatanging diskarte sa dual-camera upang mabilis na lumipat nang direkta sa pagitan ng mga kalahok. Mabilis na nakahanap ang isang camera ng close-up na view ng aktibong nagtatanghal, habang ang iba ay naghahanap at nagpapakita ng susunod na nagtatanghal. Pinipigilan ng tampok na MultiSpeaker ang hindi kinakailangang paglipat kung ang susunod na speaker ay naroroon na sa kasalukuyang frame.
Sa kasamaang palad, hindi ako nagkaroon ng pagkakataong subukan ang SpeakerTrack 60 sa aking sarili. Samakatuwid, kailangang gumawa ng mga konklusyon batay sa opinyon "mula sa field" at batay sa mga resulta ng pagsusuri ng demonstration video sa ibaba. Nagbilang ako ng maximum na pagkaantala na halos 8 segundo kapag tumuturo sa isang bagong nagtatanghal. Ang average na pagkaantala ay 2-3 segundo, batay sa video.

HUAWEI Intelligent Tracking Video Camera VPT300

Ang pag-andar ng pag-target sa camera sa pamamagitan ng boses ay naging mas naa-access - ang pangkalahatang solusyon na SmartCam A12 Voice TrackingNakita ko ang solusyon na ito mula sa Huawei nang hindi sinasadya. Ang sistema ay nagkakahalaga ng humigit-kumulang $9K. Gumagana lamang sa mga terminal ng Huawei. Nagdagdag ang mga developer ng kanilang sariling "panlilinlang" - isang layout ng video mula sa dalawang speaker sa isang screen kung walang ibang tao sa kwarto. Sa mga tuntunin ng mga katangian at ipinahayag na pag-andar, ito ay isang napaka-kagiliw-giliw na bersyon ng awtomatikong sistema ng paggabay. Ngunit, sa kasamaang-palad, wala akong nakitang materyal na demo. Ang tanging video na lumabas sa paksang ito ay isang na-edit na pagsusuri sa video ng solusyon, na walang orihinal na tunog, na nakatakda sa musika. Kaya, hindi posible na suriin ang kalidad ng system. Para sa kadahilanang ito, hindi ko isasaalang-alang ang pagpipiliang ito.
Nakikita ko na ang Huawei ay may aktibong blog sa HabrΓ© - marahil ang mga kasamahan ay makakapag-publish ng ilang kapaki-pakinabang na impormasyon sa produktong ito.

Bago - unibersal na solusyon SmartCam A12 Voice Tracking

Ang pag-andar ng pag-target sa camera sa pamamagitan ng boses ay naging mas naa-access - ang pangkalahatang solusyon na SmartCam A12 Voice TrackingSmartCam A12VT - isang monoblock, kabilang ang dalawang PTZ camera para sa pagsubaybay sa mga speaker, dalawang built-in na camera para sa pagsusuri sa pangkalahatang layout ng silid, pati na rin ang isang hanay ng mikropono na binuo sa base ng case - tulad ng nakikita mo, walang napakalaki at marupok na istruktura tulad ng sa mga kalaban.
Bago ko simulan ang paglalarawan ng bagong produkto, pagsasama-samahin ko ang mga katangian at tampok ng mga solusyon mula sa Cisco at Polycom upang maihambing ko SmartCam A12VT kasama ang mga kasalukuyang alok.

Direktor ng Polycom EagleEye

  • Retail cost ng system na walang terminal - $ 13K
  • Minimum na halaga ng EagleEye Director + RealPresence Group 500 na solusyon - $ 19K
  • Average na pagkaantala sa paglipat 3 segundo
  • Gabay sa boses + analytics ng video
  • Mataas na hinihingi sa mukha ng nagsasalita - hindi mo maitatago ang iyong bibig
  • Hindi pagkakatugma sa kagamitan ng third party

Cisco TelePresence SpeakerTrack 60

  • Retail cost ng system na walang terminal - $ 15,9K
  • Minimum na halaga ng TelePresence SpeakerTrack 60 + SX80 Codec solution - $ 30K
  • Average na pagkaantala sa paglipat 3 segundo
  • Gabay sa boses + analytics ng video
  • Mga kinakailangan para sa mukha ng tagapagsalita - hindi nagsuri, hindi nakahanap ng impormasyon
  • Hindi pagkakatugma sa kagamitan ng third party

SmartCam A12 Voice Tracking

  • Retail cost ng system na walang terminal - $ 6,2K
  • Minimum na gastos sa solusyon SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Minimum na gastos sa solusyon Terminal ng software ng SmartCam A12VT+ - $ 7,7K
  • Average na pagkaantala sa paglipat 3 segundo
  • Gabay sa boses + analytics ng video
  • Mga kinakailangan para sa mukha ng tagapagsalita - walang mga kinakailangan
  • Third Party Compatibility - HDMI

Bilang dalawang pangunahing at hindi maikakaila na mga pakinabang ng solusyon SmartCam A12 Voice Tracking Natagpuan ko:

  1. Kakayahan sa pagkakakonekta β€” sa pamamagitan ng HDMI, isinasama ang system sa parehong hardware at software na mga sistema ng terminal ng video conferencing
  2. Mababang gastos β€” na may katulad na functionality, ang A12VT ay maraming beses na mas abot-kaya sa isang badyet kaysa sa mga panukalang inilarawan sa itaas.

Para ipakita kung paano gumagana ang system, nag-record kami ng video review. Ang gawain ay hindi gaanong advertising bilang functional. Samakatuwid, ang video ay wala sa mga kalunos-lunos ng isang Polycom na pang-promosyon na video. Ang napiling lugar para sa pagtatanghal ay hindi isang tanggapan ng kinatawan, ngunit isang silid ng pagpupulong sa laboratoryo ng aming kasosyo, ang kumpanya ng IPMatika.
Ang layunin ko ay hindi itago ang mga bahid ng system, ngunit, sa kabaligtaran, upang ilantad ang mga bottleneck ng functionality, upang pilitin ang system na magkamali.

Sa palagay ko, matagumpay na naipasa ng system ang mga pagsubok. Sinasabi ko ito nang may kumpiyansa dahil sa oras ng pagsulat ng artikulong ito, ang solusyon SmartCam A12 Voice Tracking bumisita sa isang dosenang totoong meeting room ng aming mga customer. Ang mga malfunctions ng automation ay sinusunod ng eksklusibo sa mga kondisyon ng paglabag sa inirekumendang mga patakaran sa pagpapatakbo. Sa partikular, ang pinakamababang distansya sa mga kalapit na kalahok. Kung uupo ka nang napakalapit sa camera, wala pang isang metro, hindi ka makikilala ng hanay ng mikropono at hindi ka masusubaybayan ng lens.

Ang pag-andar ng pag-target sa camera sa pamamagitan ng boses ay naging mas naa-access - ang pangkalahatang solusyon na SmartCam A12 Voice Tracking

Bilang karagdagan sa distansya, may isa pang kinakailangan - ang taas ng camera.

Ang pag-andar ng pag-target sa camera sa pamamagitan ng boses ay naging mas naa-access - ang pangkalahatang solusyon na SmartCam A12 Voice Tracking

Kung masyadong mababa ang pagkaka-install ng camera, maaaring magkaroon ng mga problema sa pagpoposisyon ng boses. Ang opsyon sa ilalim ng TV, sa kasamaang-palad, ay hindi gumana.
Ngunit ang pag-install ng system sa itaas ng isang display device ay isang mainam na paraan para gumana ang device. Kasama ang istante ng camera; ang wall mount lamang ang sinusuportahan bilang pamantayan.

Paano gumagana ang SmartCam A12 Voice Tracking

Ang mga pangunahing PTZ lens ay may pantay na tungkulin - ang kanilang gawain ay ang halili na subaybayan ang mga nagtatanghal at ipakita ang pangkalahatang plano. Ang pagsusuri ng pangkalahatang larawan sa silid at pagtukoy ng distansya sa mga bagay ay isinasagawa gamit ang mga video stream na natanggap mula sa dalawang camera na isinama sa base ng system. Binibigyang-daan ka ng feature na ito na bawasan ang oras ng reaksyon ng lens kapag binabago ang speaker sa 1-2 segundo. Nagagawa ng camera na magpalit-palit sa pagitan ng mga kalahok sa komportableng ritmo, kahit na magpalitan sila ng maiikling pangungusap.
Ang isang video na pagpapakita ng pagpapatakbo ng system ay ganap na sumasalamin sa functionality SmartCam A12VT. Ngunit, para sa mga hindi pa nakapanood ng video, ilalarawan ko sa mga salita ang prinsipyo ng pagpapatakbo ng automation:

  1. Walang laman ang silid: ang isa sa mga lente ay nagpapakita ng pangkalahatang plano, ang pangalawa ay handa na - naghihintay para sa mga tao
  2. Ang mga tao ay pumasok sa silid at umupo sa kanilang mga upuan: ang libreng lens ay nahahanap ang dalawang matinding kalahok at ibina-frame ang larawan sa kanilang paligid, pinutol ang walang laman na bahagi ng silid
  3. Habang gumagalaw ang mga tao, ang mga lente ay nagsasalit-salit na sinusubaybayan ang lahat ng tao sa silid, na pinapanatili ang mga ito sa gitna ng frame
  4. Ang tagapagsalita ay nagsimulang magsalita: ang lens ay aktibo, nababagay sa pangkalahatang plano. Ang pangalawa ay nakatutok sa speaker, at pagkatapos lamang ay napupunta sa broadcast mode
  5. Nagbabago ang speaker: ang lens na naka-adjust sa unang speaker ay aktibo, at ang pangalawang lens ay bumaba ng wide shot at nag-adjust sa bagong speaker.
  6. Sa sandali ng paglipat ng larawan mula sa unang speaker patungo sa pangalawa, ang libreng lens ay agad na nababagay sa pangkalahatang plano ng silid.
  7. Kung ang lahat ay tahimik, ang libreng lens ay magpapakita ng isang handa na pangkalahatang plano nang walang anumang pagkaantala
  8. Kung magpalit muli ang speaker, hahanapin siya ng libreng lens

Konklusyon

Sa aking opinyon, ang solusyon na ito, na ipinakita sa ISE at ISR noong nakaraang taon, ay nagdudulot ng mataas na teknolohiya na mas malapit - kung hindi sa mga tao, pagkatapos ay sa negosyo para sigurado. Malinaw na para sa 400 libong rubles, kakaunti ang mga tao ang bibili ng tulad ng isang "laruan" para sa bahay, ngunit para sa negosyo, para sa corporate video conferencing, ito ay isang napaka-abot-kayang at maginhawang solusyon sa problema ng auto-aiming ng isang camera.
Dahil sa versatility SmartCam A12 Voice Tracking, ang system ay maaaring gamitin bilang isang solusyon mula sa simula, o bilang isang extension ng functionality ng isang umiiral na imprastraktura ng video conferencing. Ang pagkonekta sa pamamagitan ng HDMI ay isang malaking hakbang patungo sa user, kabaligtaran sa mga pinagmamay-ariang system ng mga manufacturer na inilarawan sa itaas.

Nais kong pasalamatan ang mga kasosyo na tumulong sa pagsubok.
kumpanya IPMatika β€” para sa Yealink VC880 terminal, meeting room at Yakushina Yura.
kumpanya Smart-AV β€” para sa karapatan ng una at eksklusibong pagsusuri ng solusyon at probisyon ng system SmartCam A12 Voice Tracking para sa pagsubok or pagsusuri.

Sa huling artikulo Online meeting room designer - pagpili ng pinakamainam na solusyon sa video conferencing, bilang pag-promote ng website vc4u.ru ΠΈ Taga-disenyo ng VKS inihayag namin 10% na diskwento mula sa presyo sa katalogo sa pamamagitan ng code word HABR hanggang sa katapusan ng tag-init 2019.

Nalalapat ang diskwento sa mga produkto sa mga sumusunod na seksyon:

Sa desisyon SmartCam A12 Voice Tracking Nag-aalok ako ng karagdagang 5% na diskwento sa mayroon nang 10% - kabuuang 15% hanggang sa katapusan ng tag-init 2019.

Inaasahan ko ang iyong mga komento at sagot sa survey!

Salamat sa iyo para sa iyong pansin.
Nang buong puso,
Kirill Usikov (Usikoff)
Pinuno ng
Video surveillance at video conferencing system
[protektado ng email]
stss.ru
vc4u.ru

Ang mga rehistradong user lamang ang maaaring lumahok sa survey. Mag-sign in, pakiusap

Gaano kapaki-pakinabang ang SmartCam A12 Voice Tracking?

  • Sa wakas, lumitaw ang isang unibersal na solusyon para sa mga terminal ng software at hardware!

  • Ang solusyon ay mabuti, ngunit may iba pang magagamit na mga pagpipilian (magsusulat ako sa mga komento)

  • Ang sistema ay mahina, hindi ito umabot sa Polycom at Cisco - Isusulat ko sa mga komento kung bakit dapat kang magbayad ng 3 beses na higit pa!

  • Sino pa rin ang nangangailangan ng auto-guidance sa isang meeting room?

  • Sino ang nangangailangan ng PTZ camera sa isang meeting room pa rin? β€” Ikinonekta ko ang webcam at ayos lang!

8 user ang bumoto. 5 na user ang umiwas.

Pinagmulan: www.habr.com

Magdagdag ng komento