Mae swyddogaeth targedu camera yn ôl llais wedi dod yn fwy hygyrch - yr ateb cyffredinol SmartCam A12 Voice Tracking

Mae swyddogaeth targedu camera yn ôl llais wedi dod yn fwy hygyrch - yr ateb cyffredinol SmartCam A12 Voice TrackingMae'r pwnc o olrhain cyfranogwr sy'n siarad mewn cynhadledd fideo wedi ennill momentwm dros yr ychydig flynyddoedd diwethaf. Mae technoleg wedi'i gwneud hi'n bosibl gweithredu algorithmau cymhleth ar gyfer prosesu gwybodaeth sain / fideo mewn amser real, a ysgogodd Polycom, bron i 10 mlynedd yn ôl, i gyflwyno datrysiad prif ffrwd cyntaf y byd gydag olrhain siaradwr awtomatig deallus. Am nifer o flynyddoedd fe wnaethant lwyddo i aros yn unig berchnogion datrysiad o'r fath, ond nid oedd yn rhaid i Cisco aros yn hir a dod â'u fersiwn o system dau gamera ddeallus i'r farchnad, a oedd yn gystadleuydd teg i'r datrysiad gan Polycom. Am flynyddoedd lawer, roedd y rhan hon o fideo-gynadledda wedi'i chyfyngu gan alluoedd sawl un perchnogol cynhyrchion, ond mae'r erthygl hon yn ymroddedig i'r cyntaf cyffredinol datrysiad ar gyfer arweiniad camera trwy lais, sy'n gydnaws â seilwaith caledwedd a meddalwedd fideo-gynadledda.
Cyn symud ymlaen i ddisgrifio atebion ac arddangos galluoedd, rwyf am nodi digwyddiad pwysig:
Mae'n anrhydedd i mi gyflwyno i gymuned Habra canolbwynt newydd, ymroddedig i atebion fideo-gynadledda (VCC). Nawr, diolch i'r ymdrechion ar y cyd (mwynglawdd ac UFO), Fideo-gynadledda wedi ei gartref ei hun ar Habré, ac rwy'n gwahodd pawb sy'n ymwneud â'r pwnc helaeth a chyfredol hwn i danysgrifio canolbwynt newydd.

Dau senario ar gyfer pwyntio'r camera at y siaradwr

Ar hyn o bryd, mae integreiddwyr datrysiadau fideo-gynadledda yn dewis drostynt eu hunain ddwy ffordd wahanol i weithredu'r dasg o dargedu'r cyflwynydd:

  1. Awtomatig - Deallus
  2. Lled-awtomatig - rhaglenadwy

Yr opsiwn cyntaf yn unig yw atebion gan Cisco, Polycom a gweithgynhyrchwyr eraill; byddwn yn eu hystyried isod. Yma rydym yn delio â'r awtomeiddio llawn o bwyntio'r camera at y cyfranogwr sy'n siarad yn y gynhadledd fideo. Mae algorithmau unigryw ar gyfer prosesu signalau sain/fideo yn caniatáu i'r camera ddewis y safle a ddymunir yn annibynnol.

Yr ail opsiwn yw systemau awtomeiddio yn seiliedig ar wahanol reolwyr rheoli allanol; ni ​​fyddwn yn eu hystyried yn fanwl, oherwydd Mae'r erthygl wedi'i neilltuo'n benodol i olrhain siaradwyr yn awtomatig.
Mae yna gryn dipyn o gefnogwyr yr ail senario ar gyfer gweithredu pwyntio camera, ac mae rhesymau dros hyn. Mae integreiddwyr profiadol yn deall bod angen amodau gweithredu delfrydol ar atebion deallus gan Polycom a Cisco er mwyn i'r awtomeiddio weithredu'n iawn. Ond nid yw bob amser yn bosibl darparu amodau o'r fath, felly mae gweithrediad y system weithiau'n cael ei warantu gan yr ateb canlynol i broblem pwyntio'r camera:

1. Mae'r holl ragosodiadau angenrheidiol (safleoedd y ddyfais PTZ a'r ffactor chwyddo optegol) yn cael eu rhoi â llaw ymlaen llaw i gof y camera (neu weithiau i'r rheolydd rheoli). Fel rheol, mae hwn yn gynllun cyffredinol o'r ystafell gyfarfod, a golygfa o bob cyfranogwr yn y gynhadledd yn y modd portread.

2. Nesaf, mae'r cychwynwyr ar gyfer galw'r rhagosodiad gofynnol yn cael eu gosod yn y lleoedd penodedig - mae'r rhain naill ai'n gonsolau meicroffon neu'n fotymau radio, yn gyffredinol, unrhyw ddyfais a all ddarparu signal i'r rheolydd rheoli y mae'n ei ddeall.

3. Mae'r rheolydd rheoli wedi'i raglennu yn y fath fodd fel bod gan bob cychwynnwr ei ragosodiad ei hun. Cynllun cyffredinol yr ystafell - mae'r holl gychwynwyr yn cael eu diffodd.
O ganlyniad, wrth ddefnyddio system gyngres, er enghraifft, a rheolydd rheoli, mae'r siaradwr, cyn dechrau ei araith, yn actifadu ei gonsol meicroffon personol. Mae'r system reoli yn prosesu safle'r camera a arbedwyd ar unwaith.

Mae'r senario hwn yn gweithio'n ddi-ffael - nid oes angen i'r system berfformio triongli llais a dadansoddeg fideo. Pwysais y botwm a gweithiodd y rhagosodiad, dim oedi na phethau cadarnhaol ffug.
Defnyddir systemau rheoli ac awtomeiddio mewn ystafelloedd mawr, cymhleth, lle weithiau nid un, ond nifer o gamerâu fideo yn cael eu gosod. Wel, ar gyfer ystafelloedd cyfarfod bach a chanolig, mae systemau awtomatig yn eithaf addas (os oes gennych chi'r gyllideb).
Gadewch i ni ddechrau gyda'r tadau sefydlu.

Cyfarwyddwr Polycom EagleEye

Mae swyddogaeth targedu camera yn ôl llais wedi dod yn fwy hygyrch - yr ateb cyffredinol SmartCam A12 Voice TrackingRoedd yr ateb hwn unwaith yn creu teimlad ym maes fideo-gynadledda. Cyfarwyddwr Polycom EagleEye oedd yr ateb cyntaf ym maes arweiniad camera deallus. Mae'r datrysiad yn cynnwys uned sylfaen Cyfarwyddwr EagleEye a dau gamera. Hynodrwydd y gweithrediad cyntaf hwnnw yw bod un camera yn cael ei ddyrannu i olwg agos o'r siaradwr yn unig, a'r ail - i gynllun cyffredinol o'r ystafell gyfarfod. Ar yr un pryd, gellir gosod y camera cynllun cyffredinol yn gyfan gwbl ar wahân i'r sylfaen mewn man arall yn yr ystafell gyfarfod - nid yw'n ymwneud yn uniongyrchol â'r broses arweiniad awtomatig.
Mae'r system yn gweithio fel a ganlyn:

  1. Mae camera'r ystafell gyffredinol yn weithredol - mae pawb yn dawel
  2. Mae'r siaradwr yn dechrau siarad - mae'r arae meicroffon yn codi'r llais, mae'r camera'n symud tuag at y sain gan ddefnyddio technoleg patent sy'n cynnwys triongli llais. Mae'r camera cyffredinol yn dal i fod yn weithredol
  3. Mae'r prif gamera newydd ddechrau chwilio am y ffynhonnell sain, gan gynnal dadansoddeg fideo. Mae'r system yn adnabod y siaradwr trwy'r cysylltiad llygad-trwyn-ceg, yn fframio llun y siaradwr ac yn arddangos y nant o'r prif gamera
  4. Mae'r siaradwr yn newid. Mae'r arae meicroffon yn deall bod y llais yn dod o le arall. Mae'r cynllun cyffredinol yn cael ei droi ymlaen eto.
  5. Ac yna mewn cylch, gan ddechrau o bwynt 2
  6. Os yw'r siaradwr newydd yn y ffrâm gyda'r un blaenorol, mae'r system yn gwneud newid lleoli "poeth" heb newid y llif gweithredol i'r saethiad cyffredinol.

Yr anfantais, yn fy marn i, yw presenoldeb un prif gamera yn unig. Mae hyn yn arwain at oedi sylweddol wrth newid siaradwyr. A phob tro ar hyn o bryd o bwyntio, mae'r system yn troi ar gynllun cyffredinol yr ystafell - yn ystod sgwrs fywiog, mae'r fflachio hwn yn dechrau cythruddo.

Cyfarwyddwr Polycom EagleEye II

Mae swyddogaeth targedu camera yn ôl llais wedi dod yn fwy hygyrch - yr ateb cyffredinol SmartCam A12 Voice TrackingDyma'r ail fersiwn o'r datrysiad gan Polycom, a ryddhawyd yn gymharol ddiweddar. Mae'r egwyddor o weithredu wedi cael ei newid ac wedi dod yn debycach i ateb gan Cisco. Nawr y ddau gamerâu PTZ yw'r prif rai ac maent yn fodd i newid sianeli yn ddi-dor o un cyflwynydd i'r llall. Mae cynllun cyffredinol yr ystafell gyfarfod bellach yn cael ei ddal gan gamera ar wahân sydd wedi'i integreiddio i gorff uned sylfaen EagleEye Director II. Am ryw reswm, mae'r ffrwd o'r camera ongl lydan hwn yn cael ei arddangos mewn ffenestr ychwanegol yng nghornel y sgrin, sy'n meddiannu 1/9 o'r brif ffrwd. Mae egwyddor lleoli yr un peth - triongli llais a dadansoddi llif fideo. Ac mae'r tagfeydd yr un peth: os nad yw'r system yn gweld y geg sy'n siarad, ni fydd y camera yn anelu. A gall y sefyllfa hon ddigwydd yn eithaf aml - mae'r siaradwr wedi troi i ffwrdd, mae'r siaradwr wedi troi i'r ochr, mae'r siaradwr yn fentriloquist, mae'r siaradwr wedi gorchuddio ei geg gyda'i law neu ddogfen.
Cafodd y ddau fideo hyrwyddo eu saethu'n fedrus - mae 2 berson yn siarad yn eu tro, ac yn agor eu cegau fel pe bai mewn apwyntiad gyda therapydd lleferydd. Ond hyd yn oed mewn amodau mor gywrain mae oedi sylweddol iawn. Ond mae'r fframio yn berffaith - llun portread cyfforddus.

Trac Siaradwr TelePresence Cisco 60

Mae swyddogaeth targedu camera yn ôl llais wedi dod yn fwy hygyrch - yr ateb cyffredinol SmartCam A12 Voice TrackingI ddisgrifio'r ateb hwn, byddaf yn defnyddio testun o'r llyfryn swyddogol.
Mae SpeakerTrack 60 yn defnyddio dull camera deuol unigryw i newid yn gyflym rhwng cyfranogwyr. Mae un camera yn dod o hyd i'r cyflwynydd gweithredol yn gyflym, tra bod y llall yn chwilio am y cyflwynydd nesaf ac yn ei arddangos. Mae'r nodwedd MultiSpeaker yn atal newid diangen os yw'r siaradwr nesaf eisoes yn bresennol yn y ffrâm gyfredol.
Yn anffodus, ni chefais gyfle i brofi'r SpeakerTrack 60 fy hun. Felly, rhaid dod i gasgliadau ar sail y farn “o’r maes” ac yn seiliedig ar ganlyniadau dadansoddiad o’r fideo arddangos isod. Fe wnes i gyfrif uchafswm oedi o bron i 8 eiliad wrth bwyntio at gyflwynydd newydd. Yr oedi ar gyfartaledd oedd 2-3 eiliad, a barnu yn ôl y fideo.

Camera Fideo Olrhain Deallus HUAWEI VPT300

Mae swyddogaeth targedu camera yn ôl llais wedi dod yn fwy hygyrch - yr ateb cyffredinol SmartCam A12 Voice TrackingDeuthum ar draws yr ateb hwn gan Huawei ar ddamwain. Mae'r system yn costio tua $9K. Yn gweithio gyda therfynellau Huawei yn unig. Ychwanegodd y datblygwyr eu “tric” eu hunain - cynllun fideo gan ddau siaradwr ar un sgrin os nad oes unrhyw un arall yn yr ystafell. O ran nodweddion ac ymarferoldeb datganedig, mae hon yn fersiwn ddiddorol iawn o'r system arweiniad awtomatig. Ond, yn anffodus, ni chefais unrhyw ddeunydd demo o gwbl. Yr unig fideo a ymddangosodd ar y pwnc hwn oedd adolygiad fideo wedi'i olygu o'r datrysiad, heb sain wreiddiol, wedi'i osod i gerddoriaeth. Felly, nid oedd yn bosibl gwerthuso ansawdd y system. Am y rheswm hwn, ni fyddaf yn ystyried yr opsiwn hwn.
Gwelaf fod gan Huawei blog gweithredol ar Habré - efallai y bydd cydweithwyr yn gallu cyhoeddi rhywfaint o wybodaeth ddefnyddiol ar y cynnyrch hwn.

Newydd - ateb cyffredinol Olrhain Llais SmartCam A12

Mae swyddogaeth targedu camera yn ôl llais wedi dod yn fwy hygyrch - yr ateb cyffredinol SmartCam A12 Voice TrackingSmartCam A12VT - monoblock, gan gynnwys dau gamerâu PTZ ar gyfer olrhain siaradwyr, dau gamera adeiledig ar gyfer dadansoddi cynllun cyffredinol yr ystafell, yn ogystal ag arae meicroffon wedi'i ymgorffori yng ngwaelod yr achos - fel y gwelwch, nid oes unrhyw swmpus a strwythurau bregus fel rhai gwrthwynebwyr.
Cyn i mi ddechrau disgrifio'r cynnyrch newydd, byddaf yn llunio nodweddion a nodweddion datrysiadau gan Cisco a Polycom fel y gallaf gymharu SmartCam A12VT gyda chynigion presennol.

Cyfarwyddwr Polycom EagleEye

  • Cost manwerthu'r system heb derfynell - $ 13K
  • Isafswm cost datrysiad EagleEye Director + RealPresence Group 500 - $ 19K
  • Oedi newid cyfartalog 3 eiliad
  • Arweiniad llais + dadansoddeg fideo
  • Gofynion uchel ar wyneb y siaradwr - ni allwch guddio'ch ceg
  • Anghydnaws ag offer trydydd parti

Trac Siaradwr TelePresence Cisco 60

  • Cost manwerthu'r system heb derfynell - $ 15,9K
  • Isafswm cost datrysiad Codec TelePresence SpeakerTrack 60 + SX80 - $ 30K
  • Oedi newid cyfartalog 3 eiliad
  • Arweiniad llais + dadansoddeg fideo
  • Gofynion ar gyfer wyneb y siaradwr - nid oedd yn gwirio, ni ddaeth o hyd i wybodaeth
  • Anghydnaws ag offer trydydd parti

Olrhain Llais SmartCam A12

  • Cost manwerthu'r system heb derfynell - $ 6,2K
  • Isafswm cost datrysiad SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Isafswm cost datrysiad Terfynell meddalwedd SmartCam A12VT+ - $ 7,7K
  • Oedi newid cyfartalog 3 eiliad
  • Arweiniad llais + dadansoddeg fideo
  • Gofynion ar gyfer wyneb y siaradwr - dim gofynion
  • Cydnawsedd Trydydd Parti - HDMI

Fel dwy brif fantais a diymwad yr ateb Olrhain Llais SmartCam A12 Rydw i'n ffeindio:

  1. Amlochredd cysylltedd — trwy HDMI, mae'r system yn integreiddio â systemau terfynell fideo-gynadledda caledwedd a meddalwedd
  2. Cost isel — gyda swyddogaeth debyg, mae A12VT lawer gwaith yn fwy fforddiadwy ar gyllideb na'r cynigion a ddisgrifir uchod.

Er mwyn dangos sut mae'r system yn gweithio, gwnaethom recordio adolygiad fideo. Nid hysbysebu cymaint â swyddogaethol oedd y dasg. Felly, mae'r fideo yn amddifad o pathos fideo hyrwyddo Polycom. Nid swyddfa gynrychioliadol oedd y lleoliad a ddewiswyd ar gyfer y cyflwyniad, ond ystafell gyfarfod labordy ein partner, y cwmni IPmatika.
Nid cuddio diffygion y system oedd fy nod, ond, i'r gwrthwyneb, amlygu tagfeydd y swyddogaeth, gorfodi'r system i wneud camgymeriadau.

Yn fy marn i, llwyddodd y system i basio'r profion yn llwyddiannus. Rwy'n dweud hyn yn hyderus oherwydd ar adeg ysgrifennu'r erthygl hon, yr ateb Olrhain Llais SmartCam A12 ymweld â dwsin o ystafelloedd cyfarfod go iawn ein cwsmeriaid. Gwelwyd diffygion awtomeiddio yn unig o dan amodau torri'r rheolau gweithredu a argymhellir. Yn benodol, y pellter lleiaf i gyfranogwyr cyfagos. Os ydych chi'n eistedd yn agos iawn at y camera, llai na metr, ni fydd yr arae meicroffon yn gallu eich adnabod ac ni fydd y lens yn gallu eich olrhain.

Mae swyddogaeth targedu camera yn ôl llais wedi dod yn fwy hygyrch - yr ateb cyffredinol SmartCam A12 Voice Tracking

Yn ogystal â'r pellter, mae gofyniad arall - uchder y camera.

Mae swyddogaeth targedu camera yn ôl llais wedi dod yn fwy hygyrch - yr ateb cyffredinol SmartCam A12 Voice Tracking

Os yw'r camera wedi'i osod yn rhy isel, gall problemau gyda lleoliad llais godi. Yn anffodus, nid oedd yr opsiwn o dan y teledu yn gweithio.
Ond mae gosod y system uwchben dyfais arddangos yn ffordd ddelfrydol i'r ddyfais weithredu. Mae silff y camera wedi'i chynnwys; dim ond y mownt wal sy'n cael ei gynnal fel y safon.

Sut mae Olrhain Llais SmartCam A12 yn gweithio

Mae gan y prif lensys PTZ rolau cyfartal - eu tasg yw olrhain cyflwynwyr bob yn ail ac arddangos y cynllun cyffredinol. Gwneir dadansoddiadau o'r darlun cyffredinol yn yr ystafell a phennu'r pellter i wrthrychau gan ddefnyddio ffrydiau fideo a dderbynnir o ddau gamera wedi'u hintegreiddio i waelod y system. Mae'r nodwedd hon yn caniatáu ichi leihau amser ymateb y lens wrth newid y siaradwr i 1-2 eiliad. Mae'r camera yn llwyddo i newid rhwng y cyfranogwyr ar rythm cyfforddus, hyd yn oed os ydynt yn cyfnewid brawddegau byr.
Mae arddangosiad fideo o weithrediad y system yn adlewyrchu'r ymarferoldeb yn llawn SmartCam A12VT. Ond, i'r rhai nad ydynt wedi gwylio'r fideo, byddaf yn disgrifio mewn geiriau egwyddor gweithredu'r awtomeiddio:

  1. Mae'r ystafell yn wag: mae un o'r lensys yn dangos y cynllun cyffredinol, mae'r ail yn barod - aros am bobl
  2. Mae pobl yn mynd i mewn i'r ystafell ac yn cymryd eu seddi: mae'r lens rydd yn dod o hyd i'r ddau gyfranogwr eithafol ac yn fframio'r ddelwedd o'u cwmpas, gan dorri rhan wag yr ystafell i ffwrdd
  3. Tra bod pobl yn symud, mae'r lensys yn cymryd eu tro i olrhain pawb yn yr ystafell, gan eu cadw yng nghanol y ffrâm
  4. Mae'r siaradwr yn dechrau siarad: mae'r lens yn weithredol, wedi'i addasu i'r cynllun cyffredinol. Mae'r ail un wedi'i anelu at y siaradwr, a dim ond wedyn yn mynd i'r modd darlledu
  5. Mae'r siaradwr yn newid: mae'r lens sydd wedi'i haddasu i'r siaradwr cyntaf yn weithredol, ac mae'r ail lens yn gollwng yr ergyd lydan ac yn addasu i'r siaradwr newydd
  6. Ar hyn o bryd o newid y llun o'r siaradwr cyntaf i'r ail, mae'r lens am ddim yn cael ei addasu ar unwaith i gynllun cyffredinol yr ystafell
  7. Os bydd pawb yn dawel, bydd y lens am ddim yn dangos cynllun cyffredinol parod heb unrhyw oedi
  8. Os bydd y siaradwr yn newid eto, bydd y lens rydd yn mynd i chwilio amdano

Casgliad

Yn fy marn i, mae'r ateb hwn, a gyflwynwyd yn ISE ac ISR y llynedd, yn dod â thechnoleg uchel yn agosach - os nad at y bobl, yna at fusnes yn sicr. Mae'n amlwg mai ychydig o bobl fydd yn prynu "tegan" o'r fath gartref am 400 mil rubles, ond ar gyfer busnes, ar gyfer fideo-gynadledda corfforaethol, mae hwn yn ddatrysiad fforddiadwy a chyfleus iawn i'r broblem o anelu camera yn awtomatig.
O ystyried yr amlochredd Olrhain Llais SmartCam A12, gellir defnyddio'r system fel ateb o'r dechrau, neu fel estyniad o ymarferoldeb seilwaith fideo-gynadledda presennol. Mae cysylltu trwy HDMI yn gam mawr tuag at y defnyddiwr, yn wahanol i systemau perchnogol y gweithgynhyrchwyr a ddisgrifir uchod.

Hoffwn ddiolch i’r partneriaid a gynorthwyodd gyda’r profion.
Cwmni IPmatika — ar gyfer terfynell Yealink VC880, ystafell gyfarfod a Yakushina Yura.
Cwmni Smart-AV — am yr hawl i gael yr adolygiad cyntaf ac unigryw o ddatrysiad a darpariaeth y system Olrhain Llais SmartCam A12 ar gyfer profi.

Yn yr erthygl ddiweddaf Dylunydd ystafell gyfarfod ar-lein - dewis yr ateb fideo-gynadledda gorau posibl, fel hyrwyddiad gwefan vc4u.ru и dylunydd VKS cyhoeddasom Gostyngiad o 10%. o bris yn cyfeiriadur trwy air cod HABR tan ddiwedd haf 2019.

Mae'r gostyngiad yn berthnasol i gynhyrchion yn yr adrannau canlynol:

I'r penderfyniad Olrhain Llais SmartCam A12 Rwy'n cynnig gostyngiad ychwanegol o 5% i'r 10% sy'n bodoli eisoes - cyfanswm o 15% tan ddiwedd haf 2019.

Edrychaf ymlaen at eich sylwadau a'ch atebion yn yr arolwg!

Diolch i chi am eich sylw.
Yn gywir,
Kirill Usikov (Usikoff)
Pennaeth
Systemau gwyliadwriaeth fideo a fideo-gynadledda
[e-bost wedi'i warchod]
stss.ru
vc4u.ru

Dim ond defnyddwyr cofrestredig all gymryd rhan yn yr arolwg. Mewngofnodios gwelwch yn dda.

Pa mor ddefnyddiol yw Olrhain Llais SmartCam A12?

  • Yn olaf, mae datrysiad cyffredinol ar gyfer terfynellau meddalwedd a chaledwedd wedi ymddangos!

  • Mae'r ateb yn dda, ond mae opsiynau eraill ar gael (byddaf yn ysgrifennu yn y sylwadau)

  • Mae'r system yn wan, nid yw'n cyrraedd Polycom a Cisco - byddaf yn ysgrifennu yn y sylwadau pam y dylech dalu 3 gwaith yn fwy!

  • Pwy sydd angen awto-arweiniad mewn ystafell gyfarfod beth bynnag?

  • Pwy sydd angen camera PTZ mewn ystafell gyfarfod beth bynnag? - Fe wnes i gysylltu'r gwe-gamera ac roedd yn iawn!

Pleidleisiodd 8 o ddefnyddwyr. Ataliodd 5 o ddefnyddwyr.

Ffynhonnell: hab.com

Ychwanegu sylw