Dostupnější se stala funkce zaměřování kamer hlasem - univerzální řešení SmartCam A12 Voice Tracking

Dostupnější se stala funkce zaměřování kamer hlasem - univerzální řešení SmartCam A12 Voice TrackingTéma sledování hovořícího účastníka videokonference nabylo v posledních letech na obrátkách. Technologie umožnila implementovat složité algoritmy pro zpracování audio/video informací v reálném čase, což přimělo Polycom před téměř 10 lety představit první běžné řešení na světě s inteligentním automatickým sledováním reproduktorů. Několik let se jim podařilo zůstat jedinými vlastníky takového řešení, ale Cisco na sebe nenechalo dlouho čekat a přineslo na trh svou verzi inteligentního dvoukamerového systému, který byl poctivou konkurencí řešení od Polycomu. Po mnoho let byl tento segment videokonferencí omezen možnostmi několika proprietární produktů, ale tento článek je věnován prvnímu univerzální řešení pro kamerové navádění hlasem, kompatibilní s hardwarovou i softwarovou infrastrukturou videokonferencí.
Než přistoupím k popisu řešení a demonstraci schopností, chci poznamenat důležitou událost:
Je mi ctí prezentovat komunitu Habra nový náboj, věnující se řešení pro videokonference (VCC). Nyní, díky společnému úsilí (důl a UFO), Video konference má svůj domov na Habré a zvu všechny, kdo se o toto rozsáhlé a aktuální téma zajímají, k odběru nový náboj.

Dva scénáře pro namíření kamery na reproduktor

V současné době si integrátoři řešení pro videokonference vybírají dva různé způsoby realizace úkolu zacílení na přednášejícího:

  1. Automaticky - Inteligentní
  2. Poloautomatický - programovatelný

První možností jsou pouze řešení od společností Cisco, Polycom a dalších výrobců, kterým se budeme věnovat níže. Zde se zabýváme plnou automatizací namíření kamery na mluvícího účastníka videokonference. Unikátní algoritmy pro zpracování audio/video signálů umožňují kameře nezávisle zvolit požadovanou pozici.

Druhou možností jsou automatizační systémy založené na různých externích řídicích jednotkách, které nebudeme podrobně zvažovat, protože Článek je věnován konkrétně automatickému sledování řečníků.
Zastánců druhého scénáře implementace zaměření kamery je poměrně dost a má to své důvody. Zkušení integrátoři chápou, že inteligentní řešení od společností Polycom a Cisco vyžadují ideální provozní podmínky, aby automatizace správně fungovala. Ne vždy je však možné takové podmínky zajistit, takže fungování systému je někdy zaručeno následujícím řešením problému s nasměrováním kamery:

1. Všechny potřebné předvolby (pozice PTZ zařízení a faktor optického zoomu) jsou předem ručně zadány do paměti kamery (nebo někdy do řídicího ovladače). Zpravidla se jedná o obecný plán zasedací místnosti a pohled na každého účastníka konference v režimu na výšku.

2. Dále se na určená místa instalují iniciátory pro vyvolání požadované předvolby - jedná se buď o mikrofonní konzole, nebo radiotlačítka, obecně jakékoli zařízení, které dokáže poskytnout řídicímu ovladači signál, kterému rozumí.

3. Řídicí ovladač je naprogramován tak, že každý iniciátor má svou vlastní předvolbu. Celkový plán místnosti - všechny iniciátory jsou vypnuty.
Výsledkem je, že při použití například kongresového systému a ovládacího ovladače mluvčí před zahájením svého projevu aktivuje svůj osobní mikrofonní pult. Řídicí systém okamžitě zpracuje uloženou polohu kamery.

Tento scénář funguje bezchybně – systém nemusí provádět hlasovou triangulaci a analýzu videa. Stiskl jsem tlačítko a předvolba fungovala, žádné zpoždění ani falešné poplachy.
Řídicí a automatizační systémy se používají ve velkých, složitých místnostech, kde někdy není instalována jedna, ale několik videokamer. No, pro malé a středně velké zasedací místnosti jsou automatické systémy docela vhodné (pokud máte rozpočet).
Začněme u otců zakladatelů.

Ředitel Polycom EagleEye

Dostupnější se stala funkce zaměřování kamer hlasem - univerzální řešení SmartCam A12 Voice TrackingToto řešení kdysi vytvořilo senzaci na poli videokonferencí. Polycom EagleEye Director bylo prvním řešením v oblasti inteligentního navádění kamer. Řešení se skládá ze základní jednotky EagleEye Director a dvou kamer. Zvláštností této první implementace je, že jedna kamera je přidělena pouze pro detailní pohled na řečníka a druhá - pro celkový plán zasedací místnosti. Zároveň lze kameru obecného plánu umístit zcela odděleně od základny na jiné místo v zasedací místnosti – není přímo zapojena do procesu automatického navádění.
Systém funguje následovně:

  1. Obecná pokojová kamera je aktivní – všichni mlčí
  2. Reproduktor začne mluvit – pole mikrofonů zachytí hlas, kamera se pohybuje směrem ke zvuku pomocí patentované technologie, která zahrnuje hlasovou triangulaci. Obecná kamera je stále aktivní
  3. Hlavní kamera právě začíná hledat zdroj zvuku a provádí analýzu videa. Systém identifikuje reproduktor podle spojení oko-nos-ústa, orámuje obraz reproduktoru a zobrazuje stream z hlavní kamery
  4. Reproduktor se změní. Mikrofonní pole chápe, že hlas přichází z jiného místa. Obecný plán se znovu zapne.
  5. A pak v kruhu, počínaje bodem 2
  6. Pokud je nový reproduktor v rámu s předchozím, systém provede „horkou“ změnu polohy, aniž by změnil aktivní tok na obecný záběr.

Nevýhodou je podle mě přítomnost pouze jednoho hlavního fotoaparátu. To má za následek značné zpoždění při výměně reproduktorů. A pokaždé v okamžiku ukázání systém zapne celkový plán místnosti - při živé konverzaci toto blikání začíná dráždit.

Ředitel Polycom EagleEye II

Dostupnější se stala funkce zaměřování kamer hlasem - univerzální řešení SmartCam A12 Voice TrackingJedná se o druhou verzi řešení od Polycom, která vyšla relativně nedávno. Princip fungování doznal změn a stal se spíše řešením od společnosti Cisco. Nyní jsou obě PTZ kamery hlavní a slouží k bezproblémovému přepínání kanálů z jednoho prezentujícího na druhého. Celkové uspořádání zasedací místnosti je nyní snímáno samostatnou kamerou integrovanou do těla základní jednotky EagleEye Director II. Z nějakého důvodu se proud z této širokoúhlé kamery zobrazuje v dalším okně v rohu obrazovky, které zabírá 1/9 hlavního proudu. Princip určování polohy je stejný - hlasová triangulace a analýza video streamu. A úzká místa jsou stejná: pokud systém nevidí mluvící ústa, kamera nezamíří. A tato situace může nastat poměrně často – řečník se odvrátil, řečník se otočil na stranu, řečník je břichomluvec, řečník si zakryl ústa rukou nebo dokumentem.
Obě propagační videa byla natočena kvalifikovaně - střídavě mluví 2 lidé a otevírají ústa jako na domluvě s logopedem. Ale i v takto vytříbených podmínkách dochází k velmi výraznému zpoždění. Ale rámování je bezvadné - pohodlný portrét.

Cisco TelePresence SpeakerTrack 60

Dostupnější se stala funkce zaměřování kamer hlasem - univerzální řešení SmartCam A12 Voice TrackingK popisu tohoto řešení použiji text z oficiální brožury.
SpeakerTrack 60 využívá unikátní přístup dvou kamer pro rychlé přímé přepínání mezi účastníky. Jedna kamera rychle najde detailní záběr aktivního přednášejícího, zatímco druhá vyhledává a zobrazuje dalšího přednášejícího. Funkce MultiSpeaker zabraňuje zbytečnému přepínání, pokud je další reproduktor již přítomen v aktuálním snímku.
SpeakerTrack 60 jsem bohužel neměl možnost sám otestovat. Proto je třeba vyvodit závěry na základě názoru „z terénu“ a na základě výsledků analýzy níže uvedeného demonstračního videa. Při ukazování na nového prezentujícího jsem napočítal maximální zpoždění téměř 8 sekund. Průměrná prodleva byla 2-3 sekundy, soudě podle videa.

Inteligentní sledovací videokamera HUAWEI VPT300

Dostupnější se stala funkce zaměřování kamer hlasem - univerzální řešení SmartCam A12 Voice TrackingNa toto řešení od Huawei jsem narazil náhodou. Systém stojí asi 9 tisíc dolarů. Funguje pouze s terminály Huawei. Vývojáři přidali svůj vlastní „trik“ - rozložení videa ze dvou reproduktorů na jedné obrazovce, pokud v místnosti není nikdo jiný. Z hlediska charakteristik a deklarované funkčnosti se jedná o velmi zajímavou verzi systému automatického navádění. Ale bohužel jsem nenašel absolutně žádný demo materiál. Jediné video, které se na toto téma objevilo, byla sestříhaná videorecenze řešení, bez originálního zvuku, zhudebněná. Kvalitu systému tedy nebylo možné vyhodnotit. Z tohoto důvodu nebudu o této možnosti uvažovat.
Koukám, že Huawei má aktivní blog na Habré - možná se kolegům podaří zveřejnit nějaké užitečné informace o tomto produktu.

Novinka - univerzální řešení Sledování hlasu SmartCam A12

Dostupnější se stala funkce zaměřování kamer hlasem - univerzální řešení SmartCam A12 Voice TrackingSmartCam A12VT - monoblok, včetně dvou PTZ kamer pro sledování reproduktorů, dvou vestavěných kamer pro analýzu celkového uspořádání místnosti a také pole mikrofonů vestavěné do základny pouzdra - jak vidíte, neexistují žádné objemné a křehké struktury jako u protivníků.
Než začnu popisovat nový produkt, dám dohromady vlastnosti a vlastnosti řešení od Cisco a Polycom, abych mohl porovnat SmartCam A12VT se stávajícími nabídkami.

Ředitel Polycom EagleEye

  • Maloobchodní cena systému bez terminálu - $ 13K
  • Minimální náklady na řešení EagleEye Director + RealPresence Group 500 – $ 19K
  • Průměrná spínací prodleva 3 sekundy
  • Hlasové navádění + analýza videa
  • Vysoké nároky na tvář mluvčího – ústa neschováte
  • Nekompatibilita se zařízeními třetích stran

Cisco TelePresence SpeakerTrack 60

  • Maloobchodní cena systému bez terminálu - $ 15,9K
  • Minimální náklady na řešení TelePresence SpeakerTrack 60 + SX80 Codec - $ 30K
  • Průměrná spínací prodleva 3 sekundy
  • Hlasové navádění + analýza videa
  • Požadavky na tvář mluvčího - nezkontroloval, nenašel informace
  • Nekompatibilita se zařízeními třetích stran

Sledování hlasu SmartCam A12

  • Maloobchodní cena systému bez terminálu - $ 6,2K
  • Minimální náklady na řešení SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Minimální náklady na řešení Softwarový terminál SmartCam A12VT+ - $ 7,7K
  • Průměrná spínací prodleva 3 sekundy
  • Hlasové navádění + analýza videa
  • Požadavky na obličej mluvčího - žádné požadavky
  • Kompatibilita třetích stran - HDMI

Jako dvě hlavní a nepopiratelné výhody řešení Sledování hlasu SmartCam A12 najdu:

  1. Všestrannost konektivity — přes HDMI se systém integruje s hardwarovými i softwarovými videokonferenčními terminálovými systémy
  2. Nízké náklady — s podobnou funkčností je A12VT mnohonásobně cenově dostupnější než výše popsané návrhy.

Abychom demonstrovali, jak systém funguje, natočili jsme video recenzi. Úkolem nebyl ani tak reklamní jako spíše funkční. Video proto postrádá patos propagačního videa Polycom. Pro prezentaci nebyla zvolena reprezentativní kancelář, ale laboratorní zasedací místnost našeho partnera, společnosti IPMatika.
Mým cílem nebylo skrýt chyby systému, ale naopak odhalit úzká místa funkčnosti, donutit systém k chybám.

Podle mého názoru systém prošel testy úspěšně. Říkám to s důvěrou, protože v době psaní tohoto článku bylo řešení Sledování hlasu SmartCam A12 navštívil tucet skutečných zasedacích místností našich zákazníků. Poruchy automatizace byly pozorovány výhradně v podmínkách porušení doporučeného provozního řádu. Zejména minimální vzdálenost k blízkým účastníkům. Pokud sedíte velmi blízko ke kameře, méně než metr, pole mikrofonů vás nerozpozná a objektiv vás nebude moci sledovat.

Dostupnější se stala funkce zaměřování kamer hlasem - univerzální řešení SmartCam A12 Voice Tracking

Kromě vzdálenosti je zde ještě jeden požadavek – výška kamery.

Dostupnější se stala funkce zaměřování kamer hlasem - univerzální řešení SmartCam A12 Voice Tracking

Pokud je kamera nainstalována příliš nízko, mohou nastat problémy s polohováním hlasu. Možnost pod TV bohužel nefungovala.
Ale instalace systému nad zobrazovací zařízení je ideální způsob, jak zařízení fungovat. Polička na kameru je součástí dodávky, standardně je podporován pouze nástěnný držák.

Jak funguje funkce SmartCam A12 Voice Tracking

Hlavní PTZ čočky mají rovnocenné role – jejich úkolem je střídavě sledovat prezentující a zobrazovat celkový plán. Analýza celkového obrazu v místnosti a určení vzdálenosti od objektů se provádí pomocí video streamů přijímaných ze dvou kamer integrovaných do základny systému. Tato funkce umožňuje zkrátit reakční dobu objektivu při výměně reproduktoru na 1-2 sekundy. Kamera zvládá střídat účastníky v pohodlném rytmu, i když si vyměňují krátké věty.
Video ukázka fungování systému plně odráží funkčnost SmartCam A12VT. Ale pro ty, kteří video neviděli, popíšu slovy princip fungování automatizace:

  1. Místnost je prázdná: jedna z čoček ukazuje obecný plán, druhá je připravena - čeká na lidi
  2. Lidé vstoupí do místnosti a posadí se: volná čočka najde dva extrémní účastníky a orámuje obraz kolem nich, čímž odřízne prázdnou část místnosti
  3. Zatímco se lidé pohybují, čočky střídavě sledují všechny v místnosti a udržují je ve středu záběru
  4. Mluvčí začne mluvit: čočka je aktivní, přizpůsobená obecnému plánu. Druhý míří na reproduktor a teprve poté přejde do režimu vysílání
  5. Reproduktor se změní: čočka nastavená na první reproduktor je aktivní a druhá čočka sníží širokoúhlý záběr a přizpůsobí se novému reproduktoru
  6. V okamžiku přepnutí obrazu z prvního reproduktoru na druhý se volná čočka okamžitě přizpůsobí celkovému plánu místnosti
  7. Pokud všichni mlčí, bezplatná čočka ukáže připravený obecný plán bez jakýchkoli prodlev
  8. Pokud se reproduktor znovu změní, volná čočka ho bude hledat

Závěr

Podle mého názoru toto řešení, prezentované na ISE a ISR v loňském roce, přibližuje špičkové technologie – když ne lidem, tak určitě byznysu. Je jasné, že za 400 tisíc rublů si jen málo lidí koupí takovou „hračku“ pro domácnost, ale pro podnikání, pro firemní videokonference, je to velmi cenově dostupné a pohodlné řešení problému automatického zaměření kamery.
Vzhledem k všestrannosti Sledování hlasu SmartCam A12, lze systém použít jako řešení od nuly nebo jako rozšíření funkčnosti stávající videokonferenční infrastruktury. Připojení přes HDMI je na rozdíl od proprietárních systémů výše popsaných výrobců velký krok směrem k uživateli.

Rád bych poděkoval partnerům, kteří pomáhali při testování.
Společnost IPMatika — pro terminál Yealink VC880, zasedací místnost a Yakushina Yura.
Společnost Smart-AV — za právo prvního a výhradního přezkoumání řešení a poskytování systému Sledování hlasu SmartCam A12 pro testování.

V minulém článku Online designér zasedacích místností - výběr optimálního řešení pro videokonference, jako propagace webových stránek vc4u.ru и konstruktér VKS oznámili jsme 10% sleva od ceny v adresář kódovým slovem HABR do konce léta 2019.

Sleva se vztahuje na produkty v následujících sekcích:

K rozhodnutí Sledování hlasu SmartCam A12 Nabízím dodatečnou slevu 5% k již existujícím 10% - celkem 15 % do konce léta 2019.

Těším se na vaše komentáře a odpovědi v anketě!

Děkuji vám za pozornost.
S pozdravem,
Kirill Usikov (Usikoff)
Vedoucí
Video monitorovací a videokonferenční systémy
[chráněno e-mailem]
stss.ru
vc4u.ru

Průzkumu se mohou zúčastnit pouze registrovaní uživatelé. Přihlásit se, prosím.

Jak užitečné je sledování hlasu SmartCam A12?

  • Konečně se objevilo univerzální řešení pro softwarové i hardwarové terminály!

  • Řešení je dobré, ale existují další dostupné možnosti (napíšu do komentářů)

  • Systém je slabý, nedosahuje Polycom a Cisco - do komentářů napíšu, proč byste měli platit 3krát více!

  • Kdo vůbec potřebuje automatické navádění v zasedací místnosti?

  • Kdo vůbec potřebuje PTZ kameru v zasedací místnosti? — Připojil jsem webovou kameru a bylo to v pořádku!

Hlasovalo 8 uživatelů. 5 uživatelů se zdrželo hlasování.

Zdroj: www.habr.com

Přidat komentář