ProHoster > blog > Gweinyddiaeth > Mae swyddogaeth targedu camera yn ôl llais wedi dod yn fwy hygyrch - yr ateb cyffredinol SmartCam A12 Voice Tracking
Mae swyddogaeth targedu camera yn ôl llais wedi dod yn fwy hygyrch - yr ateb cyffredinol SmartCam A12 Voice Tracking
Mae'r pwnc o olrhain cyfranogwr sy'n siarad mewn cynhadledd fideo wedi ennill momentwm dros yr ychydig flynyddoedd diwethaf. Mae technoleg wedi'i gwneud hi'n bosibl gweithredu algorithmau cymhleth ar gyfer prosesu gwybodaeth sain / fideo mewn amser real, a ysgogodd Polycom, bron i 10 mlynedd yn ôl, i gyflwyno datrysiad prif ffrwd cyntaf y byd gydag olrhain siaradwr awtomatig deallus. Am nifer o flynyddoedd fe wnaethant lwyddo i aros yn unig berchnogion datrysiad o'r fath, ond nid oedd yn rhaid i Cisco aros yn hir a dod â'u fersiwn o system dau gamera ddeallus i'r farchnad, a oedd yn gystadleuydd teg i'r datrysiad gan Polycom. Am flynyddoedd lawer, roedd y rhan hon o fideo-gynadledda wedi'i chyfyngu gan alluoedd sawl un perchnogol cynhyrchion, ond mae'r erthygl hon yn ymroddedig i'r cyntaf cyffredinol datrysiad ar gyfer arweiniad camera trwy lais, sy'n gydnaws â seilwaith caledwedd a meddalwedd fideo-gynadledda.
Cyn symud ymlaen i ddisgrifio atebion ac arddangos galluoedd, rwyf am nodi digwyddiad pwysig: Mae'n anrhydedd i mi gyflwyno i gymuned Habra canolbwynt newydd, ymroddedig i atebion fideo-gynadledda (VCC). Nawr, diolch i'r ymdrechion ar y cyd (mwynglawdd ac UFO), Fideo-gynadledda wedi ei gartref ei hun ar Habré, ac rwy'n gwahodd pawb sy'n ymwneud â'r pwnc helaeth a chyfredol hwn i danysgrifio canolbwynt newydd.
Dau senario ar gyfer pwyntio'r camera at y siaradwr
Ar hyn o bryd, mae integreiddwyr datrysiadau fideo-gynadledda yn dewis drostynt eu hunain ddwy ffordd wahanol i weithredu'r dasg o dargedu'r cyflwynydd:
Awtomatig - Deallus
Lled-awtomatig - rhaglenadwy
Yr opsiwn cyntaf yn unig yw atebion gan Cisco, Polycom a gweithgynhyrchwyr eraill; byddwn yn eu hystyried isod. Yma rydym yn delio â'r awtomeiddio llawn o bwyntio'r camera at y cyfranogwr sy'n siarad yn y gynhadledd fideo. Mae algorithmau unigryw ar gyfer prosesu signalau sain/fideo yn caniatáu i'r camera ddewis y safle a ddymunir yn annibynnol.
Yr ail opsiwn yw systemau awtomeiddio yn seiliedig ar wahanol reolwyr rheoli allanol; ni fyddwn yn eu hystyried yn fanwl, oherwydd Mae'r erthygl wedi'i neilltuo'n benodol i olrhain siaradwyr yn awtomatig.
Mae yna gryn dipyn o gefnogwyr yr ail senario ar gyfer gweithredu pwyntio camera, ac mae rhesymau dros hyn. Mae integreiddwyr profiadol yn deall bod angen amodau gweithredu delfrydol ar atebion deallus gan Polycom a Cisco er mwyn i'r awtomeiddio weithredu'n iawn. Ond nid yw bob amser yn bosibl darparu amodau o'r fath, felly mae gweithrediad y system weithiau'n cael ei warantu gan yr ateb canlynol i broblem pwyntio'r camera:
1. Mae'r holl ragosodiadau angenrheidiol (safleoedd y ddyfais PTZ a'r ffactor chwyddo optegol) yn cael eu rhoi â llaw ymlaen llaw i gof y camera (neu weithiau i'r rheolydd rheoli). Fel rheol, mae hwn yn gynllun cyffredinol o'r ystafell gyfarfod, a golygfa o bob cyfranogwr yn y gynhadledd yn y modd portread.
2. Nesaf, mae'r cychwynwyr ar gyfer galw'r rhagosodiad gofynnol yn cael eu gosod yn y lleoedd penodedig - mae'r rhain naill ai'n gonsolau meicroffon neu'n fotymau radio, yn gyffredinol, unrhyw ddyfais a all ddarparu signal i'r rheolydd rheoli y mae'n ei ddeall.
3. Mae'r rheolydd rheoli wedi'i raglennu yn y fath fodd fel bod gan bob cychwynnwr ei ragosodiad ei hun. Cynllun cyffredinol yr ystafell - mae'r holl gychwynwyr yn cael eu diffodd.
O ganlyniad, wrth ddefnyddio system gyngres, er enghraifft, a rheolydd rheoli, mae'r siaradwr, cyn dechrau ei araith, yn actifadu ei gonsol meicroffon personol. Mae'r system reoli yn prosesu safle'r camera a arbedwyd ar unwaith.
Mae'r senario hwn yn gweithio'n ddi-ffael - nid oes angen i'r system berfformio triongli llais a dadansoddeg fideo. Pwysais y botwm a gweithiodd y rhagosodiad, dim oedi na phethau cadarnhaol ffug.
Defnyddir systemau rheoli ac awtomeiddio mewn ystafelloedd mawr, cymhleth, lle weithiau nid un, ond nifer o gamerâu fideo yn cael eu gosod. Wel, ar gyfer ystafelloedd cyfarfod bach a chanolig, mae systemau awtomatig yn eithaf addas (os oes gennych chi'r gyllideb).
Gadewch i ni ddechrau gyda'r tadau sefydlu.
Cyfarwyddwr Polycom EagleEye
Roedd yr ateb hwn unwaith yn creu teimlad ym maes fideo-gynadledda. Cyfarwyddwr Polycom EagleEye oedd yr ateb cyntaf ym maes arweiniad camera deallus. Mae'r datrysiad yn cynnwys uned sylfaen Cyfarwyddwr EagleEye a dau gamera. Hynodrwydd y gweithrediad cyntaf hwnnw yw bod un camera yn cael ei ddyrannu i olwg agos o'r siaradwr yn unig, a'r ail - i gynllun cyffredinol o'r ystafell gyfarfod. Ar yr un pryd, gellir gosod y camera cynllun cyffredinol yn gyfan gwbl ar wahân i'r sylfaen mewn man arall yn yr ystafell gyfarfod - nid yw'n ymwneud yn uniongyrchol â'r broses arweiniad awtomatig.
Mae'r system yn gweithio fel a ganlyn:
Mae camera'r ystafell gyffredinol yn weithredol - mae pawb yn dawel
Mae'r siaradwr yn dechrau siarad - mae'r arae meicroffon yn codi'r llais, mae'r camera'n symud tuag at y sain gan ddefnyddio technoleg patent sy'n cynnwys triongli llais. Mae'r camera cyffredinol yn dal i fod yn weithredol
Mae'r prif gamera newydd ddechrau chwilio am y ffynhonnell sain, gan gynnal dadansoddeg fideo. Mae'r system yn adnabod y siaradwr trwy'r cysylltiad llygad-trwyn-ceg, yn fframio llun y siaradwr ac yn arddangos y nant o'r prif gamera
Mae'r siaradwr yn newid. Mae'r arae meicroffon yn deall bod y llais yn dod o le arall. Mae'r cynllun cyffredinol yn cael ei droi ymlaen eto.
Ac yna mewn cylch, gan ddechrau o bwynt 2
Os yw'r siaradwr newydd yn y ffrâm gyda'r un blaenorol, mae'r system yn gwneud newid lleoli "poeth" heb newid y llif gweithredol i'r saethiad cyffredinol.
Yr anfantais, yn fy marn i, yw presenoldeb un prif gamera yn unig. Mae hyn yn arwain at oedi sylweddol wrth newid siaradwyr. A phob tro ar hyn o bryd o bwyntio, mae'r system yn troi ar gynllun cyffredinol yr ystafell - yn ystod sgwrs fywiog, mae'r fflachio hwn yn dechrau cythruddo.
Cyfarwyddwr Polycom EagleEye II
Dyma'r ail fersiwn o'r datrysiad gan Polycom, a ryddhawyd yn gymharol ddiweddar. Mae'r egwyddor o weithredu wedi cael ei newid ac wedi dod yn debycach i ateb gan Cisco. Nawr y ddau gamerâu PTZ yw'r prif rai ac maent yn fodd i newid sianeli yn ddi-dor o un cyflwynydd i'r llall. Mae cynllun cyffredinol yr ystafell gyfarfod bellach yn cael ei ddal gan gamera ar wahân sydd wedi'i integreiddio i gorff uned sylfaen EagleEye Director II. Am ryw reswm, mae'r ffrwd o'r camera ongl lydan hwn yn cael ei arddangos mewn ffenestr ychwanegol yng nghornel y sgrin, sy'n meddiannu 1/9 o'r brif ffrwd. Mae egwyddor lleoli yr un peth - triongli llais a dadansoddi llif fideo. Ac mae'r tagfeydd yr un peth: os nad yw'r system yn gweld y geg sy'n siarad, ni fydd y camera yn anelu. A gall y sefyllfa hon ddigwydd yn eithaf aml - mae'r siaradwr wedi troi i ffwrdd, mae'r siaradwr wedi troi i'r ochr, mae'r siaradwr yn fentriloquist, mae'r siaradwr wedi gorchuddio ei geg gyda'i law neu ddogfen.
Cafodd y ddau fideo hyrwyddo eu saethu'n fedrus - mae 2 berson yn siarad yn eu tro, ac yn agor eu cegau fel pe bai mewn apwyntiad gyda therapydd lleferydd. Ond hyd yn oed mewn amodau mor gywrain mae oedi sylweddol iawn. Ond mae'r fframio yn berffaith - llun portread cyfforddus.
Trac Siaradwr TelePresence Cisco 60
I ddisgrifio'r ateb hwn, byddaf yn defnyddio testun o'r llyfryn swyddogol. Mae SpeakerTrack 60 yn defnyddio dull camera deuol unigryw i newid yn gyflym rhwng cyfranogwyr. Mae un camera yn dod o hyd i'r cyflwynydd gweithredol yn gyflym, tra bod y llall yn chwilio am y cyflwynydd nesaf ac yn ei arddangos. Mae'r nodwedd MultiSpeaker yn atal newid diangen os yw'r siaradwr nesaf eisoes yn bresennol yn y ffrâm gyfredol.
Yn anffodus, ni chefais gyfle i brofi'r SpeakerTrack 60 fy hun. Felly, rhaid dod i gasgliadau ar sail y farn “o’r maes” ac yn seiliedig ar ganlyniadau dadansoddiad o’r fideo arddangos isod. Fe wnes i gyfrif uchafswm oedi o bron i 8 eiliad wrth bwyntio at gyflwynydd newydd. Yr oedi ar gyfartaledd oedd 2-3 eiliad, a barnu yn ôl y fideo.
Camera Fideo Olrhain Deallus HUAWEI VPT300
Deuthum ar draws yr ateb hwn gan Huawei ar ddamwain. Mae'r system yn costio tua $9K. Yn gweithio gyda therfynellau Huawei yn unig. Ychwanegodd y datblygwyr eu “tric” eu hunain - cynllun fideo gan ddau siaradwr ar un sgrin os nad oes unrhyw un arall yn yr ystafell. O ran nodweddion ac ymarferoldeb datganedig, mae hon yn fersiwn ddiddorol iawn o'r system arweiniad awtomatig. Ond, yn anffodus, ni chefais unrhyw ddeunydd demo o gwbl. Yr unig fideo a ymddangosodd ar y pwnc hwn oedd adolygiad fideo wedi'i olygu o'r datrysiad, heb sain wreiddiol, wedi'i osod i gerddoriaeth. Felly, nid oedd yn bosibl gwerthuso ansawdd y system. Am y rheswm hwn, ni fyddaf yn ystyried yr opsiwn hwn.
Gwelaf fod gan Huawei blog gweithredol ar Habré - efallai y bydd cydweithwyr yn gallu cyhoeddi rhywfaint o wybodaeth ddefnyddiol ar y cynnyrch hwn.
SmartCam A12VT - monoblock, gan gynnwys dau gamerâu PTZ ar gyfer olrhain siaradwyr, dau gamera adeiledig ar gyfer dadansoddi cynllun cyffredinol yr ystafell, yn ogystal ag arae meicroffon wedi'i ymgorffori yng ngwaelod yr achos - fel y gwelwch, nid oes unrhyw swmpus a strwythurau bregus fel rhai gwrthwynebwyr.
Cyn i mi ddechrau disgrifio'r cynnyrch newydd, byddaf yn llunio nodweddion a nodweddion datrysiadau gan Cisco a Polycom fel y gallaf gymharu SmartCam A12VT gyda chynigion presennol.
Cyfarwyddwr Polycom EagleEye
Cost manwerthu'r system heb derfynell - $ 13K
Isafswm cost datrysiad EagleEye Director + RealPresence Group 500 - $ 19K
Oedi newid cyfartalog 3 eiliad
Arweiniad llais + dadansoddeg fideo
Gofynion uchel ar wyneb y siaradwr - ni allwch guddio'ch ceg
Fel dwy brif fantais a diymwad yr ateb Olrhain Llais SmartCam A12 Rydw i'n ffeindio:
Amlochredd cysylltedd — trwy HDMI, mae'r system yn integreiddio â systemau terfynell fideo-gynadledda caledwedd a meddalwedd
Cost isel — gyda swyddogaeth debyg, mae A12VT lawer gwaith yn fwy fforddiadwy ar gyllideb na'r cynigion a ddisgrifir uchod.
Er mwyn dangos sut mae'r system yn gweithio, gwnaethom recordio adolygiad fideo. Nid hysbysebu cymaint â swyddogaethol oedd y dasg. Felly, mae'r fideo yn amddifad o pathos fideo hyrwyddo Polycom. Nid swyddfa gynrychioliadol oedd y lleoliad a ddewiswyd ar gyfer y cyflwyniad, ond ystafell gyfarfod labordy ein partner, y cwmni IPmatika.
Nid cuddio diffygion y system oedd fy nod, ond, i'r gwrthwyneb, amlygu tagfeydd y swyddogaeth, gorfodi'r system i wneud camgymeriadau.
Yn fy marn i, llwyddodd y system i basio'r profion yn llwyddiannus. Rwy'n dweud hyn yn hyderus oherwydd ar adeg ysgrifennu'r erthygl hon, yr ateb Olrhain Llais SmartCam A12 ymweld â dwsin o ystafelloedd cyfarfod go iawn ein cwsmeriaid. Gwelwyd diffygion awtomeiddio yn unig o dan amodau torri'r rheolau gweithredu a argymhellir. Yn benodol, y pellter lleiaf i gyfranogwyr cyfagos. Os ydych chi'n eistedd yn agos iawn at y camera, llai na metr, ni fydd yr arae meicroffon yn gallu eich adnabod ac ni fydd y lens yn gallu eich olrhain.
Yn ogystal â'r pellter, mae gofyniad arall - uchder y camera.
Os yw'r camera wedi'i osod yn rhy isel, gall problemau gyda lleoliad llais godi. Yn anffodus, nid oedd yr opsiwn o dan y teledu yn gweithio.
Ond mae gosod y system uwchben dyfais arddangos yn ffordd ddelfrydol i'r ddyfais weithredu. Mae silff y camera wedi'i chynnwys; dim ond y mownt wal sy'n cael ei gynnal fel y safon.
Sut mae Olrhain Llais SmartCam A12 yn gweithio
Mae gan y prif lensys PTZ rolau cyfartal - eu tasg yw olrhain cyflwynwyr bob yn ail ac arddangos y cynllun cyffredinol. Gwneir dadansoddiadau o'r darlun cyffredinol yn yr ystafell a phennu'r pellter i wrthrychau gan ddefnyddio ffrydiau fideo a dderbynnir o ddau gamera wedi'u hintegreiddio i waelod y system. Mae'r nodwedd hon yn caniatáu ichi leihau amser ymateb y lens wrth newid y siaradwr i 1-2 eiliad. Mae'r camera yn llwyddo i newid rhwng y cyfranogwyr ar rythm cyfforddus, hyd yn oed os ydynt yn cyfnewid brawddegau byr.
Mae arddangosiad fideo o weithrediad y system yn adlewyrchu'r ymarferoldeb yn llawn SmartCam A12VT. Ond, i'r rhai nad ydynt wedi gwylio'r fideo, byddaf yn disgrifio mewn geiriau egwyddor gweithredu'r awtomeiddio:
Mae'r ystafell yn wag: mae un o'r lensys yn dangos y cynllun cyffredinol, mae'r ail yn barod - aros am bobl
Mae pobl yn mynd i mewn i'r ystafell ac yn cymryd eu seddi: mae'r lens rydd yn dod o hyd i'r ddau gyfranogwr eithafol ac yn fframio'r ddelwedd o'u cwmpas, gan dorri rhan wag yr ystafell i ffwrdd
Tra bod pobl yn symud, mae'r lensys yn cymryd eu tro i olrhain pawb yn yr ystafell, gan eu cadw yng nghanol y ffrâm
Mae'r siaradwr yn dechrau siarad: mae'r lens yn weithredol, wedi'i addasu i'r cynllun cyffredinol. Mae'r ail un wedi'i anelu at y siaradwr, a dim ond wedyn yn mynd i'r modd darlledu
Mae'r siaradwr yn newid: mae'r lens sydd wedi'i haddasu i'r siaradwr cyntaf yn weithredol, ac mae'r ail lens yn gollwng yr ergyd lydan ac yn addasu i'r siaradwr newydd
Ar hyn o bryd o newid y llun o'r siaradwr cyntaf i'r ail, mae'r lens am ddim yn cael ei addasu ar unwaith i gynllun cyffredinol yr ystafell
Os bydd pawb yn dawel, bydd y lens am ddim yn dangos cynllun cyffredinol parod heb unrhyw oedi
Os bydd y siaradwr yn newid eto, bydd y lens rydd yn mynd i chwilio amdano
Casgliad
Yn fy marn i, mae'r ateb hwn, a gyflwynwyd yn ISE ac ISR y llynedd, yn dod â thechnoleg uchel yn agosach - os nad at y bobl, yna at fusnes yn sicr. Mae'n amlwg mai ychydig o bobl fydd yn prynu "tegan" o'r fath gartref am 400 mil rubles, ond ar gyfer busnes, ar gyfer fideo-gynadledda corfforaethol, mae hwn yn ddatrysiad fforddiadwy a chyfleus iawn i'r broblem o anelu camera yn awtomatig.
O ystyried yr amlochredd Olrhain Llais SmartCam A12, gellir defnyddio'r system fel ateb o'r dechrau, neu fel estyniad o ymarferoldeb seilwaith fideo-gynadledda presennol. Mae cysylltu trwy HDMI yn gam mawr tuag at y defnyddiwr, yn wahanol i systemau perchnogol y gweithgynhyrchwyr a ddisgrifir uchod.
Hoffwn ddiolch i’r partneriaid a gynorthwyodd gyda’r profion.
Cwmni IPmatika — ar gyfer terfynell Yealink VC880, ystafell gyfarfod a Yakushina Yura.
Cwmni Smart-AV — am yr hawl i gael yr adolygiad cyntaf ac unigryw o ddatrysiad a darpariaeth y system Olrhain Llais SmartCam A12 ar gyfer profi.