Dostupnejšia sa stala funkcia zacielenia kamery hlasom - univerzálne riešenie SmartCam A12 Voice Tracking

Dostupnejšia sa stala funkcia zacielenia kamery hlasom - univerzálne riešenie SmartCam A12 Voice TrackingTéma sledovania hovoriaceho účastníka videokonferencie v posledných rokoch nabrala na obrátkach. Technológia umožnila implementovať zložité algoritmy na spracovanie audio/video informácií v reálnom čase, čo prinútilo Polycom pred takmer 10 rokmi predstaviť prvé bežné riešenie na svete s inteligentným automatickým sledovaním reproduktorov. Niekoľko rokov sa im darilo zostať jedinými vlastníkmi takéhoto riešenia, no Cisco nenechalo na seba dlho čakať a prinieslo na trh svoju verziu inteligentného dvojkamerového systému, ktorý bol férovou konkurenciou riešeniu od Polycomu. Tento segment videokonferencií bol dlhé roky limitovaný možnosťami viacerých vlastnícky produktom, ale tento článok je venovaný tým prvým univerzálny riešenie pre kamerové navádzanie hlasom, kompatibilné s hardvérovou aj softvérovou infraštruktúrou videokonferencií.
Skôr než prejdem k opisu riešení a demonštrácii schopností, chcem poznamenať dôležitú udalosť:
Je mi cťou predstaviť komunitu Habra nový rozbočovač, ktorá sa venuje videokonferenčným riešeniam (VCC). Teraz, vďaka spoločnému úsiliu (baňa a UFO), Video konferencia má svoj domov na Habré a pozývam všetkých, ktorí sa zaoberajú touto rozsiahlou a aktuálnou témou, aby sa prihlásili nový rozbočovač.

Dva scenáre nasmerovania fotoaparátu na reproduktor

V súčasnosti si integrátori riešení pre videokonferencie vyberajú dva rôzne spôsoby implementácie úlohy zacielenia na prezentujúceho:

  1. Automatické - inteligentné
  2. Poloautomatický - programovateľný

Prvou možnosťou sú len riešenia od spoločností Cisco, Polycom a ďalších výrobcov, ktoré zvážime nižšie. Tu máme do činenia s plnou automatizáciou nasmerovania kamery na hovoriaceho účastníka videokonferencie. Jedinečné algoritmy na spracovanie audio/video signálov umožňujú kamere nezávisle zvoliť požadovanú polohu.

Druhou možnosťou sú automatizačné systémy založené na rôznych externých riadiacich jednotkách, nebudeme sa nimi podrobne zaoberať, pretože Článok je venovaný špeciálne automatickému sledovaniu reproduktorov.
Existuje pomerne veľa zástancov druhého scenára implementácie kamerového nasmerovania a existujú na to dôvody. Skúsení integrátori chápu, že inteligentné riešenia od Polycom a Cisco vyžadujú ideálne prevádzkové podmienky, aby automatizácia správne fungovala. Nie je však vždy možné zabezpečiť takéto podmienky, takže fungovanie systému je niekedy zaručené nasledujúcim riešením problému smerovania kamery:

1. Všetky potrebné predvoľby (polohy PTZ zariadenia a faktor optického priblíženia) sú vopred manuálne zadané do pamäte kamery (alebo niekedy do ovládacieho ovládača). Spravidla ide o všeobecný plán zasadacej miestnosti a pohľad na každého účastníka konferencie v režime na výšku.

2. Ďalej sa na určených miestach inštalujú iniciátory na volanie požadovanej predvoľby - sú to buď mikrofónové konzoly alebo rádiové tlačidlá, vo všeobecnosti akékoľvek zariadenie, ktoré dokáže poskytnúť riadiacemu ovládaču signál, ktorému rozumie.

3. Riadiaci ovládač je naprogramovaný tak, že každý iniciátor má svoju predvoľbu. Všeobecný plán miestnosti - všetky iniciátory sú vypnuté.
Výsledkom je, že pri použití napríklad kongresového systému a riadiaceho ovládača rečník pred začiatkom prejavu aktivuje svoju osobnú mikrofónnu konzolu. Riadiaci systém okamžite spracuje uloženú polohu kamery.

Tento scenár funguje bezchybne – systém nemusí vykonávať hlasovú trianguláciu a analýzu videa. Stlačil som tlačidlo a predvoľba fungovala, žiadne oneskorenia ani falošné pozitíva.
Riadiace a automatizačné systémy sa používajú vo veľkých, zložitých miestnostiach, kde niekedy nie je nainštalovaná jedna, ale niekoľko videokamier. Pre malé a stredne veľké zasadacie miestnosti sú automatické systémy celkom vhodné (ak máte rozpočet).
Začnime otcami zakladateľmi.

Riaditeľ Polycom EagleEye

Dostupnejšia sa stala funkcia zacielenia kamery hlasom - univerzálne riešenie SmartCam A12 Voice TrackingToto riešenie kedysi vyvolalo senzáciu na poli videokonferencií. Polycom EagleEye Director bolo prvé riešenie v oblasti inteligentného navádzania kamier. Riešenie pozostáva zo základnej jednotky EagleEye Director a dvoch kamier. Zvláštnosťou tejto prvej implementácie je, že jedna kamera je pridelená iba na detailný pohľad na rečníka a druhá - na všeobecný plán zasadacej miestnosti. Zároveň môže byť kamera všeobecného plánu umiestnená úplne oddelene od základne na inom mieste v zasadacej miestnosti - nie je priamo zapojená do procesu automatického navádzania.
Systém funguje nasledovne:

  1. Všeobecná izbová kamera je aktívna – všetci sú ticho
  2. Reproduktor začne hovoriť - mikrofónové pole zachytí hlas, kamera sa pohybuje smerom k zvuku pomocou patentovanej technológie, ktorá zahŕňa hlasovú trianguláciu. Všeobecná kamera je stále aktívna
  3. Hlavná kamera práve začína hľadať zdroj zvuku a vykonáva analýzu videa. Systém identifikuje reproduktora podľa spojenia oko-nos-ústa, orámuje obraz reproduktora a zobrazuje stream z hlavnej kamery
  4. Reproduktor sa zmení. Mikrofónové pole chápe, že hlas prichádza z iného miesta. Všeobecný plán sa opäť zapne.
  5. A potom v kruhu, počnúc bodom 2
  6. Ak je nový reproduktor v ráme s predchádzajúcim, systém vykoná „horúcu“ zmenu polohy bez zmeny aktívneho toku na všeobecný záber.

Nevýhodou je podľa mňa prítomnosť iba jedného hlavného fotoaparátu. To má za následok výrazné oneskorenie pri výmene reproduktorov. A zakaždým, keď ukážete, systém zapne všeobecný plán miestnosti - počas živého rozhovoru toto blikanie začne dráždiť.

Riaditeľ Polycom EagleEye II

Dostupnejšia sa stala funkcia zacielenia kamery hlasom - univerzálne riešenie SmartCam A12 Voice TrackingIde o druhú verziu riešenia od Polycomu, ktorá vyšla pomerne nedávno. Princíp fungovania prešiel zmenami a stal sa skôr riešením od spoločnosti Cisco. Teraz sú obe PTZ kamery hlavné a slúžia na bezproblémové prepínanie kanálov z jedného prezentujúceho na druhého. Celkové usporiadanie zasadacej miestnosti teraz zachytáva samostatná kamera integrovaná do tela základnej jednotky EagleEye Director II. Z nejakého dôvodu sa prúd z tejto širokouhlej kamery zobrazuje v dodatočnom okne v rohu obrazovky, ktoré zaberá 1/9 hlavného prúdu. Princíp určovania polohy je rovnaký - hlasová triangulácia a analýza video streamu. A úzke miesta sú rovnaké: ak systém nevidí hovoriace ústa, kamera nezameria. A táto situácia môže nastať pomerne často – rečník sa odvrátil, rečník sa otočil nabok, rečník je brómhovorec, rečník si zakryl ústa rukou alebo dokumentom.
Obe propagačné videá natočili kompetentní – striedavo rozprávajú 2 ľudia a otvárajú ústa ako na stretnutí s logopédom. Ale aj v takýchto rafinovaných podmienkach dochádza k veľmi výraznému oneskoreniu. Rámovanie je však dokonalé - pohodlný portrét.

Cisco TelePresence SpeakerTrack 60

Dostupnejšia sa stala funkcia zacielenia kamery hlasom - univerzálne riešenie SmartCam A12 Voice TrackingNa popis tohto riešenia použijem text z oficiálnej brožúry.
SpeakerTrack 60 využíva jedinečný prístup dvoch kamier na rýchle priame prepínanie medzi účastníkmi. Jedna kamera rýchlo nájde detail aktívneho prezentujúceho, zatiaľ čo druhá vyhľadá a zobrazí ďalšieho prezentujúceho. Funkcia MultiSpeaker zabraňuje zbytočnému prepínaniu, ak sa ďalší reproduktor už nachádza v aktuálnej snímke.
Žiaľ, SpeakerTrack 60 som nemal možnosť sám otestovať. Preto je potrebné vyvodiť závery na základe názoru „z terénu“ a na základe výsledkov analýzy nižšie uvedeného demonštračného videa. Pri ukazovaní na novú moderátorku som narátal maximálne oneskorenie takmer 8 sekúnd. Priemerné oneskorenie bolo 2-3 sekundy, súdiac podľa videa.

Inteligentná sledovacia videokamera HUAWEI VPT300

Dostupnejšia sa stala funkcia zacielenia kamery hlasom - univerzálne riešenie SmartCam A12 Voice TrackingK tomuto riešeniu od Huawei som sa dostal náhodou. Systém stojí približne 9 tisíc dolárov. Funguje iba s terminálmi Huawei. Vývojári pridali svoj vlastný „trik“ - rozloženie videa z dvoch reproduktorov na jednej obrazovke, ak v miestnosti nie je nikto iný. Z hľadiska charakteristík a deklarovanej funkčnosti ide o veľmi zaujímavú verziu automatického navádzacieho systému. Ale bohužiaľ som nenašiel absolútne žiadny demo materiál. Jediné video, ktoré sa na túto tému objavilo, bola zostrihaná videorecenzia riešenia, bez originálneho zvuku, zhudobnená. Kvalitu systému teda nebolo možné vyhodnotiť. Z tohto dôvodu o tejto možnosti neuvažujem.
Vidím, že Huawei má aktívny blog na Habré - možno sa kolegom podarí zverejniť nejaké užitočné informácie o tomto produkte.

Nové - univerzálne riešenie Sledovanie hlasu SmartCam A12

Dostupnejšia sa stala funkcia zacielenia kamery hlasom - univerzálne riešenie SmartCam A12 Voice TrackingSmartCam A12VT - monoblok vrátane dvoch PTZ kamier na sledovanie reproduktorov, dvoch vstavaných kamier na analýzu celkového usporiadania miestnosti, ako aj mikrofónového poľa zabudovaného do základne puzdra - ako vidíte, neexistujú žiadne objemné a krehké štruktúry, aké majú oponenti.
Predtým, než začnem popisovať nový produkt, dám dokopy charakteristiky a vlastnosti riešení od Cisco a Polycom, aby som mohol porovnať SmartCam A12VT s existujúcimi ponukami.

Riaditeľ Polycom EagleEye

  • Maloobchodná cena systému bez terminálu - $ 13K
  • Minimálne náklady na riešenie EagleEye Director + RealPresence Group 500 — $ 19K
  • Priemerné oneskorenie spínania 3 sekundy
  • Hlasové navádzanie + analýza videa
  • Vysoké nároky na tvár rečníka – ústa si neskryjete
  • Nekompatibilita so zariadeniami tretích strán

Cisco TelePresence SpeakerTrack 60

  • Maloobchodná cena systému bez terminálu - $ 15,9K
  • Minimálne náklady na riešenie TelePresence SpeakerTrack 60 + SX80 Codec - $ 30K
  • Priemerné oneskorenie spínania 3 sekundy
  • Hlasové navádzanie + analýza videa
  • Požiadavky na tvár rečníka – nepreveril, nenašiel informácie
  • Nekompatibilita so zariadeniami tretích strán

Sledovanie hlasu SmartCam A12

  • Maloobchodná cena systému bez terminálu - $ 6,2K
  • Minimálne náklady na riešenie SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Minimálne náklady na riešenie Softvérový terminál SmartCam A12VT+ - $ 7,7K
  • Priemerné oneskorenie spínania 3 sekundy
  • Hlasové navádzanie + analýza videa
  • Požiadavky na tvár reproduktora – žiadne požiadavky
  • Kompatibilita tretích strán - HDMI

Ako dve hlavné a nepopierateľné výhody riešenia Sledovanie hlasu SmartCam A12 Nájdem:

  1. Všestrannosť pripojenia — cez HDMI sa systém integruje s hardvérovými aj softvérovými videokonferenčnými terminálovými systémami
  2. Nízke náklady — s podobnou funkcionalitou je A12VT mnohonásobne cenovo dostupnejší ako návrhy opísané vyššie.

Aby sme ukázali, ako systém funguje, nahrali sme videorecenziu. Úlohou nebola ani tak reklama, ako skôr funkčná. Preto je video zbavené pátosu propagačného videa Polycom. Miestom prezentácie nebola reprezentatívna kancelária, ale laboratórna zasadačka nášho partnera, spoločnosti IPMatika.
Mojím cieľom nebolo skryť chyby systému, ale naopak odhaliť úzke miesta funkčnosti, prinútiť systém robiť chyby.

Podľa môjho názoru systém prešiel testami úspešne. Hovorím to s dôverou, pretože v čase písania tohto článku bolo riešenie Sledovanie hlasu SmartCam A12 navštívil tucet reálnych zasadacích miestností našich zákazníkov. Poruchy automatizácie boli pozorované výlučne v podmienkach porušenia odporúčaných prevádzkových pravidiel. Najmä minimálna vzdialenosť od blízkych účastníkov. Ak sedíte veľmi blízko ku kamere, menej ako meter, pole mikrofónov vás nerozpozná a objektív vás nebude môcť sledovať.

Dostupnejšia sa stala funkcia zacielenia kamery hlasom - univerzálne riešenie SmartCam A12 Voice Tracking

Okrem vzdialenosti je tu ešte jedna požiadavka – výška kamery.

Dostupnejšia sa stala funkcia zacielenia kamery hlasom - univerzálne riešenie SmartCam A12 Voice Tracking

Ak je kamera nainštalovaná príliš nízko, môžu sa vyskytnúť problémy s polohovaním hlasu. Možnosť pod televízorom, žiaľ, nefungovala.
Inštalácia systému nad zobrazovacie zariadenie je však ideálnym spôsobom fungovania zariadenia. Polica na fotoaparát je súčasťou dodávky, štandardne je podporovaný iba držiak na stenu.

Ako funguje funkcia SmartCam A12 Voice Tracking

Hlavné PTZ šošovky majú rovnaké úlohy - ich úlohou je striedavo sledovať prezentujúcich a zobrazovať celkový plán. Analýza celkového obrazu v miestnosti a určenie vzdialenosti od objektov sa vykonáva pomocou video streamov prijímaných z dvoch kamier integrovaných do základne systému. Táto funkcia umožňuje skrátiť reakčný čas objektívu pri výmene reproduktora na 1-2 sekundy. Kamera zvláda striedanie účastníkov v pohodlnom rytme, aj keď si vymieňajú krátke vety.
Video ukážka fungovania systému plne odráža funkčnosť SmartCam A12VT. Ale pre tých, ktorí si video nepozreli, slovami opíšem princíp fungovania automatizácie:

  1. Miestnosť je prázdna: jedna z šošoviek ukazuje všeobecný plán, druhá je pripravená - čaká na ľudí
  2. Ľudia vstupujú do miestnosti a sadnú si na svoje miesta: voľná šošovka nájde dvoch extrémnych účastníkov a orámuje obraz okolo nich, čím odreže prázdnu časť miestnosti
  3. Kým sa ľudia pohybujú, šošovky striedavo sledujú všetkých v miestnosti a držia ich v strede záberu
  4. Rečník začne hovoriť: šošovka je aktívna, prispôsobená všeobecnému plánu. Druhý mieri na reproduktor a až potom prejde do režimu vysielania
  5. Reproduktor sa zmení: šošovka nastavená na prvý reproduktor je aktívna a druhá šošovka zahodí široký záber a prispôsobí sa novému reproduktoru
  6. V momente prepínania obrazu z prvého reproduktora na druhý sa voľná šošovka okamžite prispôsobí celkovému plánu miestnosti
  7. Ak všetci mlčia, bezplatná šošovka bez oneskorení ukáže pripravený všeobecný plán
  8. Ak sa reproduktor opäť zmení, voľná šošovka ho bude hľadať

Záver

Podľa môjho názoru toto riešenie, prezentované na ISE a ISR minulý rok, približuje špičkové technológie – ak nie ľuďom, tak určite biznisu. Je jasné, že za 400 XNUMX rubľov si len málo ľudí kúpi takúto „hračku“ pre domácnosť, ale pre podnikanie, pre firemné videokonferencie, je to veľmi cenovo dostupné a pohodlné riešenie problému automatického zamerania kamery.
Vzhľadom na všestrannosť Sledovanie hlasu SmartCam A12, systém je možné použiť ako riešenie od základu, alebo ako rozšírenie funkcionality existujúcej videokonferenčnej infraštruktúry. Pripojenie cez HDMI je na rozdiel od proprietárnych systémov vyššie popísaných výrobcov veľkým krokom k užívateľovi.

Chcel by som poďakovať partnerom, ktorí pomáhali pri testovaní.
spoločnosti IPMatika — pre terminál Yealink VC880, zasadaciu miestnosť a Yakushina Yura.
spoločnosti Smart-AV — za právo prvej a výhradnej kontroly riešenia a poskytovania systému Sledovanie hlasu SmartCam A12 na testovanie.

V poslednom článku Online dizajnér zasadacej miestnosti - výber optimálneho riešenia videokonferencie, ako propagácia webovej stránky vc4u.ru и dizajnér VKS oznámili sme 10% zľava z ceny v adresár kódovým slovom HABR do konca leta 2019.

Zľava sa vzťahuje na produkty v nasledujúcich sekciách:

K rozhodnutiu Sledovanie hlasu SmartCam A12 Ponúkam dodatočnú zľavu 5% k už existujúcim 10% - spolu 15 % do konca leta 2019.

Teším sa na vaše komentáre a odpovede v ankete!

Ďakujem vám za pozornosť.
S pozdravom,
Kirill Usikov (Usikoff)
Vedúci
Video monitorovacie a videokonferenčné systémy
[chránené e-mailom]
stss.ru
vc4u.ru

Do prieskumu sa môžu zapojiť iba registrovaní užívatelia. Prihlásiť saProsím.

Ako užitočné je sledovanie hlasu SmartCam A12?

  • Konečne sa objavilo univerzálne riešenie pre softvérové ​​a hardvérové ​​terminály!

  • Riešenie je dobré, ale existujú aj iné dostupné možnosti (napíšem do komentárov)

  • Systém je slabý, nedosahuje Polycom a Cisco - do komentárov napíšem, prečo by ste mali platiť 3-krát viac!

  • Kto vôbec potrebuje automatické navádzanie v zasadacej miestnosti?

  • Kto vôbec potrebuje PTZ kameru v zasadacej miestnosti? — Pripojil som webovú kameru a bolo to v poriadku!

Hlasovalo 8 užívateľov. 5 užívateľov sa zdržalo hlasovania.

Zdroj: hab.com

Pridať komentár