ProHoster > Blog > Uprava > Funkcija ciljanja kamere z glasom je postala bolj dostopna - univerzalna rešitev SmartCam A12 Voice Tracking
Funkcija ciljanja kamere z glasom je postala bolj dostopna - univerzalna rešitev SmartCam A12 Voice Tracking
Tema sledenja govornemu udeležencu v videokonferenci je v zadnjih nekaj letih dobila zagon. Tehnologija je omogočila implementacijo kompleksnih algoritmov za obdelavo avdio/video informacij v realnem času, kar je Polycom spodbudilo, da je pred skoraj 10 leti uvedel prvo glavno rešitev na svetu z inteligentnim samodejnim sledenjem govorcem. Nekaj let jim je uspelo ostati edini lastnik takšne rešitve, Cisco pa ni čakal dolgo in je na trg prinesel svojo različico inteligentnega dvokamernega sistema, ki je bil poštena konkurenca rešitvi iz Polycoma. Dolga leta je bil ta segment videokonference omejen z zmogljivostmi več lastniški izdelkov, vendar je ta članek posvečen prvemu univerzalni rešitev za glasovno vodenje kamere, združljiva s strojno in programsko infrastrukturo za videokonference.
Preden nadaljujem z opisovanjem rešitev in prikazovanjem zmogljivosti, želim opozoriti na pomemben dogodek: V čast mi je, da se lahko predstavim skupnosti Habra novo vozlišče, namenjen videokonferenčnim rešitvam (VCC). Zdaj, zahvaljujoč skupnim prizadevanjem (moj in NLP), Video konferenca ima svoj dom na Habréju in vabim vse, ki se ukvarjajo s to obsežno in aktualno temo, da se naročijo novo vozlišče.
Dva scenarija za usmerjanje kamere proti zvočniku
Trenutno integratorji videokonferenčnih rešitev zase izberejo dva različna načina za izvedbo naloge ciljanja na predstavitelja:
Samodejno - Inteligentno
Polavtomatski - programabilen
Prva možnost so le rešitve Cisco, Polycom in drugih proizvajalcev, ki jih bomo obravnavali spodaj. Tukaj imamo opravka s popolno avtomatizacijo usmerjanja kamere proti govornemu udeležencu videokonference. Edinstveni algoritmi za obdelavo avdio/video signalov omogočajo kameri samostojno izbiro želenega položaja.
Druga možnost so sistemi avtomatizacije, ki temeljijo na različnih zunanjih krmilnikih, zato jih ne bomo podrobno obravnavali Članek je posvečen posebej samodejnemu sledenju govorcev.
Zagovornikov drugega scenarija uvedbe usmerjanja kamere je kar nekaj in za to obstajajo razlogi. Izkušeni integratorji razumejo, da inteligentne rešitve podjetij Polycom in Cisco zahtevajo idealne pogoje delovanja za pravilno delovanje avtomatizacije. Toda takih pogojev ni vedno mogoče zagotoviti, zato je delovanje sistema včasih zagotovljeno z naslednjo rešitvijo težave z usmerjanjem kamere:
1. Vse potrebne prednastavitve (položaji PTZ naprave in faktor optičnega zooma) so vnaprej ročno vnesene v pomnilnik kamere (ali včasih v kontrolni krmilnik). Praviloma je to splošen načrt sejne sobe in pogled vsakega udeleženca konference v portretnem načinu.
2. Nato so pobudniki za klic zahtevane prednastavitve nameščeni na določenih mestih - to so bodisi mikrofonske konzole ali radijski gumbi, na splošno katera koli naprava, ki lahko krmilniku zagotovi signal, ki ga razume.
3. Krmilni krmilnik je programiran tako, da ima vsak iniciator svojo prednastavitev. Splošni načrt sobe - vsi pobudniki so izklopljeni.
Posledično pri uporabi kongresnega sistema, na primer, in krmilnika, govorec, preden začne z govorom, aktivira svojo osebno mikrofonsko konzolo. Nadzorni sistem takoj obdela shranjen položaj kamere.
Ta scenarij deluje brezhibno - sistemu ni treba izvajati glasovne triangulacije in video analitike. Pritisnil sem gumb in prednastavitev je delovala, brez zamud ali lažnih pozitivnih rezultatov.
Sistemi nadzora in avtomatizacije se uporabljajo v velikih kompleksnih prostorih, kjer včasih ni nameščena ena, ampak več video kamer. No, za majhne in srednje velike sejne sobe so avtomatski sistemi povsem primerni (če imate proračun).
Začnimo z ustanovnimi očeti.
Direktor Polycom EagleEye
Ta rešitev je nekoč povzročila senzacijo na področju videokonferenc. Polycom EagleEye Director je bila prva rešitev na področju inteligentnega vodenja kamere. Rešitev je sestavljena iz osnovne enote EagleEye Director in dveh kamer. Posebnost te prve izvedbe je, da je ena kamera namenjena samo bližnjemu pogledu govorca, druga pa splošnemu načrtu sejne sobe. Hkrati je mogoče kamero splošnega načrta postaviti popolnoma ločeno od podnožja na drugo mesto v sejni sobi - ni neposredno vključena v proces samodejnega vodenja.
Sistem deluje na naslednji način:
Splošna sobna kamera je aktivna - vsi so tiho
Govorec začne govoriti - niz mikrofonov zajame glas, kamera se premakne proti zvoku s pomočjo patentirane tehnologije, ki vključuje glasovno triangulacijo. Splošna kamera je še vedno aktivna
Glavna kamera šele začenja iskati vir zvoka in izvaja video analitiko. Sistem prepozna govorca po povezavi oko-nos-usta, uokviri sliko govorca in prikaže tok iz glavne kamere.
Govornik se spremeni. Niz mikrofonov razume, da glas prihaja z drugega mesta. Splošni načrt se ponovno vklopi.
In nato v krogu, začenši s točko 2
Če je novi zvočnik v okvirju s prejšnjim, sistem naredi "vročo" spremembo položaja, ne da bi spremenil aktivni tok splošnega posnetka.
Slaba stran je po mojem mnenju prisotnost samo ene glavne kamere. Posledica tega je znatna zamuda pri menjavi zvočnikov. In vsakič v trenutku kazanja sistem vklopi splošni načrt sobe - med živahnim pogovorom to utripanje začne dražiti.
Polycom EagleEye Director II
To je druga različica rešitve podjetja Polycom, ki je bila izdana relativno nedavno. Načelo delovanja je bilo spremenjeno in je postalo bolj podobno rešitvi podjetja Cisco. Zdaj sta obe PTZ kameri glavni in služita za nemoteno preklapljanje kanalov od enega voditelja do drugega. Splošno postavitev sejne sobe zdaj zajema ločena kamera, integrirana v ohišje osnovne enote EagleEye Director II. Iz nekega razloga je tok iz te širokokotne kamere prikazan v dodatnem oknu v kotu zaslona in zavzema 1/9 glavnega toka. Princip pozicioniranja je enak - glasovna triangulacija in analiza video toka. In ozka grla so enaka: če sistem ne vidi govorečih ust, kamera ne bo ciljala. In ta situacija se lahko zgodi precej pogosto - govorec se je obrnil stran, govorec se je obrnil na stran, govorec je ventrilokvist, govorec si je pokril usta z roko ali dokumentom.
Oba promocijska videoposnetka sta bila posneta kompetentno - 2 osebi govorita izmenično in odpreta usta, kot da sta na sestanku z logopedom. Toda tudi v tako rafiniranih pogojih pride do zelo velike zamude. Toda kadriranje je brezhibno – udoben portretni posnetek.
Cisco TelePresence SpeakerTrack 60
Za opis te rešitve bom uporabil besedilo iz uradne brošure. SpeakerTrack 60 uporablja edinstven pristop dvojne kamere za hitro preklapljanje neposredno med udeleženci. Ena kamera hitro najde bližino aktivnega voditelja, druga pa poišče in prikaže naslednjega voditelja. Funkcija MultiSpeaker preprečuje nepotrebno preklapljanje, če je naslednji zvočnik že prisoten v trenutnem okvirju.
SpeakerTrack 60 žal nisem imel priložnosti preizkusiti sam. Zato je treba sklepati na podlagi mnenja »s terena« in na podlagi rezultatov analize spodnjega predstavitvenega videa. Preštel sem največjo zamudo skoraj 8 sekund, ko sem kazal na novega voditelja. Povprečna zamuda je bila 2-3 sekunde, sodeč po videu.
Inteligentna sledilna video kamera HUAWEI VPT300
Na Huaweijevo rešitev sem naletel po naključju. Sistem stane približno 9 tisoč dolarjev. Deluje samo s terminali Huawei. Razvijalci so dodali svoj "trik" - postavitev videa iz dveh zvočnikov na enem zaslonu, če v sobi ni nikogar drugega. Glede na značilnosti in deklarirano funkcionalnost je to zelo zanimiva različica sistema za samodejno vodenje. Toda na žalost nisem našel prav nobenega demo gradiva. Edini video, ki se je pojavil na to temo, je bil montiran video pregled rešitve, brez originalnega zvoka, uglasbljen. Tako ni bilo mogoče oceniti kakovosti sistema. Zaradi tega ne bom upošteval te možnosti.
Vidim, da ima Huawei aktiven blog na Habréju - morda bodo kolegi lahko objavili nekaj koristnih informacij o tem izdelku.
SmartCam A12VT - monoblok, vključno z dvema kamerama PTZ za sledenje zvočnikom, dvema vgrajenima kamerama za analizo splošne postavitve prostora in nizom mikrofonov, vgrajenim v dno ohišja - kot lahko vidite, ni kosovnih in krhke strukture, kot so strukture nasprotnikov.
Preden začnem z opisom novega izdelka, bom združil značilnosti in lastnosti rešitev Cisco in Polycom, da bom lahko primerjal SmartCam A12VT z obstoječimi ponudbami.
Direktor Polycom EagleEye
Maloprodajni stroški sistema brez terminala - $ 13K
Minimalni stroški rešitve EagleEye Director + RealPresence Group 500 — $ 19K
Povprečna zakasnitev preklopa 3 sekunde
Glasovno vodenje + video analitika
Visoke zahteve do obraza govorca - ust ne moreš skriti
Nezdružljivost z opremo tretjih oseb
Cisco TelePresence SpeakerTrack 60
Maloprodajni stroški sistema brez terminala - $ 15,9K
Kot dve glavni in nesporni prednosti rešitve Glasovno sledenje SmartCam A12 Zdi se mi:
Vsestranskost povezljivosti — prek HDMI se sistem integrira s strojno in programsko opremo za videokonferenčne terminalske sisteme
Nizki stroški — s podobno funkcionalnostjo je A12VT mnogokrat bolj dostopen glede na proračun kot zgoraj opisani predlogi.
Za predstavitev delovanja sistema smo posneli video pregled. Naloga ni bila toliko oglaševalska kot funkcionalna. Zato je video brez patetike Polycomovega promocijskega videa. Za prizorišče predstavitve ni bilo izbrano predstavništvo, temveč sejna soba laboratorija našega partnerja, podjetja IPMatika.
Moj cilj ni bil prikriti pomanjkljivosti sistema, ampak, nasprotno, razkriti ozka grla funkcionalnosti, prisiliti sistem v napake.
Po mojem mnenju je sistem uspešno prestal teste. To trdim z zaupanjem, ker je v času pisanja tega članka rešitev Glasovno sledenje SmartCam A12 obiskali ducat pravih sejnih sob naših strank. Motnje v delovanju avtomatizacije so bile opažene izključno v pogojih kršitve priporočenih pravil delovanja. Predvsem minimalna razdalja do bližnjih udeležencev. Če sedite zelo blizu kamere, manj kot meter, vas niz mikrofonov ne bo mogel prepoznati in objektiv vam ne bo mogel slediti.
Poleg razdalje obstaja še ena zahteva - višina kamere.
Če je kamera nameščena prenizko, lahko pride do težav z glasovnim pozicioniranjem. Možnost pod televizorjem žal ni delovala.
Toda namestitev sistema nad prikazovalno napravo je idealen način za delovanje naprave. Polica za kamero je priložena; standardno je podprt samo stenski nosilec.
Kako deluje glasovno sledenje SmartCam A12
Glavne PTZ leče imajo enakovredne vloge – njihova naloga je izmenično spremljanje voditeljev in prikaz celotnega načrta. Analiza celotne slike v prostoru in določanje razdalje do predmetov se izvaja z uporabo video tokov, prejetih iz dveh kamer, integriranih v osnovo sistema. Ta funkcija vam omogoča, da skrajšate reakcijski čas leče pri menjavi zvočnika na 1-2 sekundi. Kamera uspe izmenjevati udeležence v udobnem ritmu, tudi če si izmenjujejo kratke stavke.
Video prikaz delovanja sistema v celoti odraža funkcionalnost SmartCam A12VT. Toda za tiste, ki niso gledali videa, bom z besedami opisal princip delovanja avtomatizacije:
Soba je prazna: ena od leč prikazuje splošni načrt, druga je pripravljena - čaka na ljudi
Ljudje vstopijo v sobo in zasedejo svoje sedeže: prosta leča najde dva skrajna udeleženca in uokviri sliko okoli njiju ter odreže prazen del sobe
Medtem ko se ljudje premikajo, leče izmenično sledijo vsem v prostoru in jih zadržijo v središču kadra
Govorec začne govoriti: objektiv je aktiven, prilagojen splošnemu načrtu. Drugi je usmerjen proti zvočniku in šele nato preide v način oddajanja
Zvočnik se spremeni: leča, prilagojena prvemu zvočniku, je aktivna, druga leča pa opusti široki posnetek in se prilagodi novemu zvočniku
V trenutku preklopa slike s prvega zvočnika na drugega se prosta leča takoj prilagodi splošnemu načrtu prostora
Če vsi molčijo, bo brezplačna leča brez odlašanja pokazala že pripravljen splošni načrt
Če se govornik znova spremeni, ga bo brezplačni objektiv šel iskat
Zaključek
Po mojem mnenju ta rešitev, ki je bila lani predstavljena na ISE in ISR, približuje visoko tehnologijo - če že ne ljudem, pa podjetju zagotovo. Jasno je, da bo za 400 tisoč rubljev malo ljudi kupilo takšno "igračo" za dom, toda za podjetja, za korporativne videokonference, je to zelo ugodna in priročna rešitev problema samodejnega usmerjanja kamere.
Glede na vsestranskost Glasovno sledenje SmartCam A12, se lahko sistem uporablja kot rešitev iz nič ali kot razširitev funkcionalnosti obstoječe videokonferenčne infrastrukture. Priključitev prek HDMI je v nasprotju z lastniškimi sistemi zgoraj opisanih proizvajalcev velik korak k uporabniku.
Rad bi se zahvalil partnerjem, ki so pomagali pri testiranju.
podjetje IPMatika — za terminal Yealink VC880, sejno sobo in Yakushina Yura.
podjetje Smart-AV — za pravico do prvega in izključnega pregleda rešitve in zagotavljanja sistema Glasovno sledenje SmartCam A12 za testiranje.