Funkcija ciljanja kamere z glasom je postala bolj dostopna - univerzalna rešitev SmartCam A12 Voice Tracking

Funkcija ciljanja kamere z glasom je postala bolj dostopna - univerzalna rešitev SmartCam A12 Voice TrackingTema sledenja govornemu udeležencu v videokonferenci je v zadnjih nekaj letih dobila zagon. Tehnologija je omogočila implementacijo kompleksnih algoritmov za obdelavo avdio/video informacij v realnem času, kar je Polycom spodbudilo, da je pred skoraj 10 leti uvedel prvo glavno rešitev na svetu z inteligentnim samodejnim sledenjem govorcem. Nekaj ​​let jim je uspelo ostati edini lastnik takšne rešitve, Cisco pa ni čakal dolgo in je na trg prinesel svojo različico inteligentnega dvokamernega sistema, ki je bil poštena konkurenca rešitvi iz Polycoma. Dolga leta je bil ta segment videokonference omejen z zmogljivostmi več lastniški izdelkov, vendar je ta članek posvečen prvemu univerzalni rešitev za glasovno vodenje kamere, združljiva s strojno in programsko infrastrukturo za videokonference.
Preden nadaljujem z opisovanjem rešitev in prikazovanjem zmogljivosti, želim opozoriti na pomemben dogodek:
V čast mi je, da se lahko predstavim skupnosti Habra novo vozlišče, namenjen videokonferenčnim rešitvam (VCC). Zdaj, zahvaljujoč skupnim prizadevanjem (moj in NLP), Video konferenca ima svoj dom na Habréju in vabim vse, ki se ukvarjajo s to obsežno in aktualno temo, da se naročijo novo vozlišče.

Dva scenarija za usmerjanje kamere proti zvočniku

Trenutno integratorji videokonferenčnih rešitev zase izberejo dva različna načina za izvedbo naloge ciljanja na predstavitelja:

  1. Samodejno - Inteligentno
  2. Polavtomatski - programabilen

Prva možnost so le rešitve Cisco, Polycom in drugih proizvajalcev, ki jih bomo obravnavali spodaj. Tukaj imamo opravka s popolno avtomatizacijo usmerjanja kamere proti govornemu udeležencu videokonference. Edinstveni algoritmi za obdelavo avdio/video signalov omogočajo kameri samostojno izbiro želenega položaja.

Druga možnost so sistemi avtomatizacije, ki temeljijo na različnih zunanjih krmilnikih, zato jih ne bomo podrobno obravnavali Članek je posvečen posebej samodejnemu sledenju govorcev.
Zagovornikov drugega scenarija uvedbe usmerjanja kamere je kar nekaj in za to obstajajo razlogi. Izkušeni integratorji razumejo, da inteligentne rešitve podjetij Polycom in Cisco zahtevajo idealne pogoje delovanja za pravilno delovanje avtomatizacije. Toda takih pogojev ni vedno mogoče zagotoviti, zato je delovanje sistema včasih zagotovljeno z naslednjo rešitvijo težave z usmerjanjem kamere:

1. Vse potrebne prednastavitve (položaji PTZ naprave in faktor optičnega zooma) so vnaprej ročno vnesene v pomnilnik kamere (ali včasih v kontrolni krmilnik). Praviloma je to splošen načrt sejne sobe in pogled vsakega udeleženca konference v portretnem načinu.

2. Nato so pobudniki za klic zahtevane prednastavitve nameščeni na določenih mestih - to so bodisi mikrofonske konzole ali radijski gumbi, na splošno katera koli naprava, ki lahko krmilniku zagotovi signal, ki ga razume.

3. Krmilni krmilnik je programiran tako, da ima vsak iniciator svojo prednastavitev. Splošni načrt sobe - vsi pobudniki so izklopljeni.
Posledično pri uporabi kongresnega sistema, na primer, in krmilnika, govorec, preden začne z govorom, aktivira svojo osebno mikrofonsko konzolo. Nadzorni sistem takoj obdela shranjen položaj kamere.

Ta scenarij deluje brezhibno - sistemu ni treba izvajati glasovne triangulacije in video analitike. Pritisnil sem gumb in prednastavitev je delovala, brez zamud ali lažnih pozitivnih rezultatov.
Sistemi nadzora in avtomatizacije se uporabljajo v velikih kompleksnih prostorih, kjer včasih ni nameščena ena, ampak več video kamer. No, za majhne in srednje velike sejne sobe so avtomatski sistemi povsem primerni (če imate proračun).
Začnimo z ustanovnimi očeti.

Direktor Polycom EagleEye

Funkcija ciljanja kamere z glasom je postala bolj dostopna - univerzalna rešitev SmartCam A12 Voice TrackingTa rešitev je nekoč povzročila senzacijo na področju videokonferenc. Polycom EagleEye Director je bila prva rešitev na področju inteligentnega vodenja kamere. Rešitev je sestavljena iz osnovne enote EagleEye Director in dveh kamer. Posebnost te prve izvedbe je, da je ena kamera namenjena samo bližnjemu pogledu govorca, druga pa splošnemu načrtu sejne sobe. Hkrati je mogoče kamero splošnega načrta postaviti popolnoma ločeno od podnožja na drugo mesto v sejni sobi - ni neposredno vključena v proces samodejnega vodenja.
Sistem deluje na naslednji način:

  1. Splošna sobna kamera je aktivna - vsi so tiho
  2. Govorec začne govoriti - niz mikrofonov zajame glas, kamera se premakne proti zvoku s pomočjo patentirane tehnologije, ki vključuje glasovno triangulacijo. Splošna kamera je še vedno aktivna
  3. Glavna kamera šele začenja iskati vir zvoka in izvaja video analitiko. Sistem prepozna govorca po povezavi oko-nos-usta, uokviri sliko govorca in prikaže tok iz glavne kamere.
  4. Govornik se spremeni. Niz mikrofonov razume, da glas prihaja z drugega mesta. Splošni načrt se ponovno vklopi.
  5. In nato v krogu, začenši s točko 2
  6. Če je novi zvočnik v okvirju s prejšnjim, sistem naredi "vročo" spremembo položaja, ne da bi spremenil aktivni tok splošnega posnetka.

Slaba stran je po mojem mnenju prisotnost samo ene glavne kamere. Posledica tega je znatna zamuda pri menjavi zvočnikov. In vsakič v trenutku kazanja sistem vklopi splošni načrt sobe - med živahnim pogovorom to utripanje začne dražiti.

Polycom EagleEye Director II

Funkcija ciljanja kamere z glasom je postala bolj dostopna - univerzalna rešitev SmartCam A12 Voice TrackingTo je druga različica rešitve podjetja Polycom, ki je bila izdana relativno nedavno. Načelo delovanja je bilo spremenjeno in je postalo bolj podobno rešitvi podjetja Cisco. Zdaj sta obe PTZ kameri glavni in služita za nemoteno preklapljanje kanalov od enega voditelja do drugega. Splošno postavitev sejne sobe zdaj zajema ločena kamera, integrirana v ohišje osnovne enote EagleEye Director II. Iz nekega razloga je tok iz te širokokotne kamere prikazan v dodatnem oknu v kotu zaslona in zavzema 1/9 glavnega toka. Princip pozicioniranja je enak - glasovna triangulacija in analiza video toka. In ozka grla so enaka: če sistem ne vidi govorečih ust, kamera ne bo ciljala. In ta situacija se lahko zgodi precej pogosto - govorec se je obrnil stran, govorec se je obrnil na stran, govorec je ventrilokvist, govorec si je pokril usta z roko ali dokumentom.
Oba promocijska videoposnetka sta bila posneta kompetentno - 2 osebi govorita izmenično in odpreta usta, kot da sta na sestanku z logopedom. Toda tudi v tako rafiniranih pogojih pride do zelo velike zamude. Toda kadriranje je brezhibno – udoben portretni posnetek.

Cisco TelePresence SpeakerTrack 60

Funkcija ciljanja kamere z glasom je postala bolj dostopna - univerzalna rešitev SmartCam A12 Voice TrackingZa opis te rešitve bom uporabil besedilo iz uradne brošure.
SpeakerTrack 60 uporablja edinstven pristop dvojne kamere za hitro preklapljanje neposredno med udeleženci. Ena kamera hitro najde bližino aktivnega voditelja, druga pa poišče in prikaže naslednjega voditelja. Funkcija MultiSpeaker preprečuje nepotrebno preklapljanje, če je naslednji zvočnik že prisoten v trenutnem okvirju.
SpeakerTrack 60 žal nisem imel priložnosti preizkusiti sam. Zato je treba sklepati na podlagi mnenja »s terena« in na podlagi rezultatov analize spodnjega predstavitvenega videa. Preštel sem največjo zamudo skoraj 8 sekund, ko sem kazal na novega voditelja. Povprečna zamuda je bila 2-3 sekunde, sodeč po videu.

Inteligentna sledilna video kamera HUAWEI VPT300

Funkcija ciljanja kamere z glasom je postala bolj dostopna - univerzalna rešitev SmartCam A12 Voice TrackingNa Huaweijevo rešitev sem naletel po naključju. Sistem stane približno 9 tisoč dolarjev. Deluje samo s terminali Huawei. Razvijalci so dodali svoj "trik" - postavitev videa iz dveh zvočnikov na enem zaslonu, če v sobi ni nikogar drugega. Glede na značilnosti in deklarirano funkcionalnost je to zelo zanimiva različica sistema za samodejno vodenje. Toda na žalost nisem našel prav nobenega demo gradiva. Edini video, ki se je pojavil na to temo, je bil montiran video pregled rešitve, brez originalnega zvoka, uglasbljen. Tako ni bilo mogoče oceniti kakovosti sistema. Zaradi tega ne bom upošteval te možnosti.
Vidim, da ima Huawei aktiven blog na Habréju - morda bodo kolegi lahko objavili nekaj koristnih informacij o tem izdelku.

Nova - univerzalna rešitev Glasovno sledenje SmartCam A12

Funkcija ciljanja kamere z glasom je postala bolj dostopna - univerzalna rešitev SmartCam A12 Voice TrackingSmartCam A12VT - monoblok, vključno z dvema kamerama PTZ za sledenje zvočnikom, dvema vgrajenima kamerama za analizo splošne postavitve prostora in nizom mikrofonov, vgrajenim v dno ohišja - kot lahko vidite, ni kosovnih in krhke strukture, kot so strukture nasprotnikov.
Preden začnem z opisom novega izdelka, bom združil značilnosti in lastnosti rešitev Cisco in Polycom, da bom lahko primerjal SmartCam A12VT z obstoječimi ponudbami.

Direktor Polycom EagleEye

  • Maloprodajni stroški sistema brez terminala - $ 13K
  • Minimalni stroški rešitve EagleEye Director + RealPresence Group 500 — $ 19K
  • Povprečna zakasnitev preklopa 3 sekunde
  • Glasovno vodenje + video analitika
  • Visoke zahteve do obraza govorca - ust ne moreš skriti
  • Nezdružljivost z opremo tretjih oseb

Cisco TelePresence SpeakerTrack 60

  • Maloprodajni stroški sistema brez terminala - $ 15,9K
  • Najnižji stroški rešitve TelePresence SpeakerTrack 60 + kodek SX80 - $ 30K
  • Povprečna zakasnitev preklopa 3 sekunde
  • Glasovno vodenje + video analitika
  • Zahteve za govorčev obraz - nisem preveril, nisem našel informacij
  • Nezdružljivost z opremo tretjih oseb

Glasovno sledenje SmartCam A12

  • Maloprodajni stroški sistema brez terminala - $ 6,2K
  • Minimalni stroški rešitve SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Minimalni stroški rešitve Programski terminal SmartCam A12VT+ - $ 7,7K
  • Povprečna zakasnitev preklopa 3 sekunde
  • Glasovno vodenje + video analitika
  • Zahteve za obraz govorca - ni zahtev
  • Združljivost s tretjimi osebami - HDMI

Kot dve glavni in nesporni prednosti rešitve Glasovno sledenje SmartCam A12 Zdi se mi:

  1. Vsestranskost povezljivosti — prek HDMI se sistem integrira s strojno in programsko opremo za videokonferenčne terminalske sisteme
  2. Nizki stroški — s podobno funkcionalnostjo je A12VT mnogokrat bolj dostopen glede na proračun kot zgoraj opisani predlogi.

Za predstavitev delovanja sistema smo posneli video pregled. Naloga ni bila toliko oglaševalska kot funkcionalna. Zato je video brez patetike Polycomovega promocijskega videa. Za prizorišče predstavitve ni bilo izbrano predstavništvo, temveč sejna soba laboratorija našega partnerja, podjetja IPMatika.
Moj cilj ni bil prikriti pomanjkljivosti sistema, ampak, nasprotno, razkriti ozka grla funkcionalnosti, prisiliti sistem v napake.

Po mojem mnenju je sistem uspešno prestal teste. To trdim z zaupanjem, ker je v času pisanja tega članka rešitev Glasovno sledenje SmartCam A12 obiskali ducat pravih sejnih sob naših strank. Motnje v delovanju avtomatizacije so bile opažene izključno v pogojih kršitve priporočenih pravil delovanja. Predvsem minimalna razdalja do bližnjih udeležencev. Če sedite zelo blizu kamere, manj kot meter, vas niz mikrofonov ne bo mogel prepoznati in objektiv vam ne bo mogel slediti.

Funkcija ciljanja kamere z glasom je postala bolj dostopna - univerzalna rešitev SmartCam A12 Voice Tracking

Poleg razdalje obstaja še ena zahteva - višina kamere.

Funkcija ciljanja kamere z glasom je postala bolj dostopna - univerzalna rešitev SmartCam A12 Voice Tracking

Če je kamera nameščena prenizko, lahko pride do težav z glasovnim pozicioniranjem. Možnost pod televizorjem žal ni delovala.
Toda namestitev sistema nad prikazovalno napravo je idealen način za delovanje naprave. Polica za kamero je priložena; standardno je podprt samo stenski nosilec.

Kako deluje glasovno sledenje SmartCam A12

Glavne PTZ leče imajo enakovredne vloge – njihova naloga je izmenično spremljanje voditeljev in prikaz celotnega načrta. Analiza celotne slike v prostoru in določanje razdalje do predmetov se izvaja z uporabo video tokov, prejetih iz dveh kamer, integriranih v osnovo sistema. Ta funkcija vam omogoča, da skrajšate reakcijski čas leče pri menjavi zvočnika na 1-2 sekundi. Kamera uspe izmenjevati udeležence v udobnem ritmu, tudi če si izmenjujejo kratke stavke.
Video prikaz delovanja sistema v celoti odraža funkcionalnost SmartCam A12VT. Toda za tiste, ki niso gledali videa, bom z besedami opisal princip delovanja avtomatizacije:

  1. Soba je prazna: ena od leč prikazuje splošni načrt, druga je pripravljena - čaka na ljudi
  2. Ljudje vstopijo v sobo in zasedejo svoje sedeže: prosta leča najde dva skrajna udeleženca in uokviri sliko okoli njiju ter odreže prazen del sobe
  3. Medtem ko se ljudje premikajo, leče izmenično sledijo vsem v prostoru in jih zadržijo v središču kadra
  4. Govorec začne govoriti: objektiv je aktiven, prilagojen splošnemu načrtu. Drugi je usmerjen proti zvočniku in šele nato preide v način oddajanja
  5. Zvočnik se spremeni: leča, prilagojena prvemu zvočniku, je aktivna, druga leča pa opusti široki posnetek in se prilagodi novemu zvočniku
  6. V trenutku preklopa slike s prvega zvočnika na drugega se prosta leča takoj prilagodi splošnemu načrtu prostora
  7. Če vsi molčijo, bo brezplačna leča brez odlašanja pokazala že pripravljen splošni načrt
  8. Če se govornik znova spremeni, ga bo brezplačni objektiv šel iskat

Zaključek

Po mojem mnenju ta rešitev, ki je bila lani predstavljena na ISE in ISR, približuje visoko tehnologijo - če že ne ljudem, pa podjetju zagotovo. Jasno je, da bo za 400 tisoč rubljev malo ljudi kupilo takšno "igračo" za dom, toda za podjetja, za korporativne videokonference, je to zelo ugodna in priročna rešitev problema samodejnega usmerjanja kamere.
Glede na vsestranskost Glasovno sledenje SmartCam A12, se lahko sistem uporablja kot rešitev iz nič ali kot razširitev funkcionalnosti obstoječe videokonferenčne infrastrukture. Priključitev prek HDMI je v nasprotju z lastniškimi sistemi zgoraj opisanih proizvajalcev velik korak k uporabniku.

Rad bi se zahvalil partnerjem, ki so pomagali pri testiranju.
podjetje IPMatika — za terminal Yealink VC880, sejno sobo in Yakushina Yura.
podjetje Smart-AV — za pravico do prvega in izključnega pregleda rešitve in zagotavljanja sistema Glasovno sledenje SmartCam A12 za testiranje.

V zadnjem članku Spletni oblikovalec sejne sobe - izbira optimalne videokonferenčne rešitve, kot promocija spletne strani vc4u.ru и Oblikovalec VKS smo napovedali 10% popust od cene v imenik po kodni besedi HABR do konca poletja 2019.

Popust velja za izdelke v naslednjih sklopih:

Na odločitev Glasovno sledenje SmartCam A12 Na že obstoječih 5% nudim dodatnih 10% popusta - skupaj 15 % do konca poletja 2019.

Veselim se vaših komentarjev in odgovorov v anketi!

Hvala za vašo pozornost.
S spoštovanjem,
Kiril Usikov (Usikoff)
Vodja
Videonadzorni in videokonferenčni sistemi
[e-pošta zaščitena]
stss.ru
vc4u.ru

V anketi lahko sodelujejo samo registrirani uporabniki. Prijaviti se, prosim.

Kako uporabno je glasovno sledenje SmartCam A12?

  • Končno se je pojavila univerzalna rešitev za programske in strojne terminale!

  • Rešitev je dobra, vendar so na voljo še druge možnosti (napisal bom v komentarjih)

  • Sistem je šibek, ne doseže Polycoma in Cisca - v komentarju bom napisal, zakaj bi morali plačati 3-krat več!

  • Kdo sploh potrebuje samodejno vodenje v sejni sobi?

  • Kdo sploh potrebuje PTZ kamero v sejni sobi? — Povezal sem spletno kamero in je bilo v redu!

Glasovalo je 8 uporabnikov. 5 uporabnikov se je vzdržalo.

Vir: www.habr.com

Dodaj komentar