ProHoster > Blog > podávání > Dostupnější se stala funkce zaměřování kamer hlasem - univerzální řešení SmartCam A12 Voice Tracking
Dostupnější se stala funkce zaměřování kamer hlasem - univerzální řešení SmartCam A12 Voice Tracking
Téma sledování hovořícího účastníka videokonference nabylo v posledních letech na obrátkách. Technologie umožnila implementovat složité algoritmy pro zpracování audio/video informací v reálném čase, což přimělo Polycom před téměř 10 lety představit první běžné řešení na světě s inteligentním automatickým sledováním reproduktorů. Několik let se jim podařilo zůstat jedinými vlastníky takového řešení, ale Cisco na sebe nenechalo dlouho čekat a přineslo na trh svou verzi inteligentního dvoukamerového systému, který byl poctivou konkurencí řešení od Polycomu. Po mnoho let byl tento segment videokonferencí omezen možnostmi několika proprietární produktů, ale tento článek je věnován prvnímu univerzální řešení pro kamerové navádění hlasem, kompatibilní s hardwarovou i softwarovou infrastrukturou videokonferencí.
Než přistoupím k popisu řešení a demonstraci schopností, chci poznamenat důležitou událost: Je mi ctí prezentovat komunitu Habra nový náboj, věnující se řešení pro videokonference (VCC). Nyní, díky společnému úsilí (důl a UFO), Video konference má svůj domov na Habré a zvu všechny, kdo se o toto rozsáhlé a aktuální téma zajímají, k odběru nový náboj.
Dva scénáře pro namíření kamery na reproduktor
V současné době si integrátoři řešení pro videokonference vybírají dva různé způsoby realizace úkolu zacílení na přednášejícího:
Automaticky - Inteligentní
Poloautomatický - programovatelný
První možností jsou pouze řešení od společností Cisco, Polycom a dalších výrobců, kterým se budeme věnovat níže. Zde se zabýváme plnou automatizací namíření kamery na mluvícího účastníka videokonference. Unikátní algoritmy pro zpracování audio/video signálů umožňují kameře nezávisle zvolit požadovanou pozici.
Druhou možností jsou automatizační systémy založené na různých externích řídicích jednotkách, které nebudeme podrobně zvažovat, protože Článek je věnován konkrétně automatickému sledování řečníků.
Zastánců druhého scénáře implementace zaměření kamery je poměrně dost a má to své důvody. Zkušení integrátoři chápou, že inteligentní řešení od společností Polycom a Cisco vyžadují ideální provozní podmínky, aby automatizace správně fungovala. Ne vždy je však možné takové podmínky zajistit, takže fungování systému je někdy zaručeno následujícím řešením problému s nasměrováním kamery:
1. Všechny potřebné předvolby (pozice PTZ zařízení a faktor optického zoomu) jsou předem ručně zadány do paměti kamery (nebo někdy do řídicího ovladače). Zpravidla se jedná o obecný plán zasedací místnosti a pohled na každého účastníka konference v režimu na výšku.
2. Dále se na určená místa instalují iniciátory pro vyvolání požadované předvolby - jedná se buď o mikrofonní konzole, nebo radiotlačítka, obecně jakékoli zařízení, které dokáže poskytnout řídicímu ovladači signál, kterému rozumí.
3. Řídicí ovladač je naprogramován tak, že každý iniciátor má svou vlastní předvolbu. Celkový plán místnosti - všechny iniciátory jsou vypnuty.
Výsledkem je, že při použití například kongresového systému a ovládacího ovladače mluvčí před zahájením svého projevu aktivuje svůj osobní mikrofonní pult. Řídicí systém okamžitě zpracuje uloženou polohu kamery.
Tento scénář funguje bezchybně – systém nemusí provádět hlasovou triangulaci a analýzu videa. Stiskl jsem tlačítko a předvolba fungovala, žádné zpoždění ani falešné poplachy.
Řídicí a automatizační systémy se používají ve velkých, složitých místnostech, kde někdy není instalována jedna, ale několik videokamer. No, pro malé a středně velké zasedací místnosti jsou automatické systémy docela vhodné (pokud máte rozpočet).
Začněme u otců zakladatelů.
Ředitel Polycom EagleEye
Toto řešení kdysi vytvořilo senzaci na poli videokonferencí. Polycom EagleEye Director bylo prvním řešením v oblasti inteligentního navádění kamer. Řešení se skládá ze základní jednotky EagleEye Director a dvou kamer. Zvláštností této první implementace je, že jedna kamera je přidělena pouze pro detailní pohled na řečníka a druhá - pro celkový plán zasedací místnosti. Zároveň lze kameru obecného plánu umístit zcela odděleně od základny na jiné místo v zasedací místnosti – není přímo zapojena do procesu automatického navádění.
Systém funguje následovně:
Obecná pokojová kamera je aktivní – všichni mlčí
Reproduktor začne mluvit – pole mikrofonů zachytí hlas, kamera se pohybuje směrem ke zvuku pomocí patentované technologie, která zahrnuje hlasovou triangulaci. Obecná kamera je stále aktivní
Hlavní kamera právě začíná hledat zdroj zvuku a provádí analýzu videa. Systém identifikuje reproduktor podle spojení oko-nos-ústa, orámuje obraz reproduktoru a zobrazuje stream z hlavní kamery
Reproduktor se změní. Mikrofonní pole chápe, že hlas přichází z jiného místa. Obecný plán se znovu zapne.
A pak v kruhu, počínaje bodem 2
Pokud je nový reproduktor v rámu s předchozím, systém provede „horkou“ změnu polohy, aniž by změnil aktivní tok na obecný záběr.
Nevýhodou je podle mě přítomnost pouze jednoho hlavního fotoaparátu. To má za následek značné zpoždění při výměně reproduktorů. A pokaždé v okamžiku ukázání systém zapne celkový plán místnosti - při živé konverzaci toto blikání začíná dráždit.
Ředitel Polycom EagleEye II
Jedná se o druhou verzi řešení od Polycom, která vyšla relativně nedávno. Princip fungování doznal změn a stal se spíše řešením od společnosti Cisco. Nyní jsou obě PTZ kamery hlavní a slouží k bezproblémovému přepínání kanálů z jednoho prezentujícího na druhého. Celkové uspořádání zasedací místnosti je nyní snímáno samostatnou kamerou integrovanou do těla základní jednotky EagleEye Director II. Z nějakého důvodu se proud z této širokoúhlé kamery zobrazuje v dalším okně v rohu obrazovky, které zabírá 1/9 hlavního proudu. Princip určování polohy je stejný - hlasová triangulace a analýza video streamu. A úzká místa jsou stejná: pokud systém nevidí mluvící ústa, kamera nezamíří. A tato situace může nastat poměrně často – řečník se odvrátil, řečník se otočil na stranu, řečník je břichomluvec, řečník si zakryl ústa rukou nebo dokumentem.
Obě propagační videa byla natočena kvalifikovaně - střídavě mluví 2 lidé a otevírají ústa jako na domluvě s logopedem. Ale i v takto vytříbených podmínkách dochází k velmi výraznému zpoždění. Ale rámování je bezvadné - pohodlný portrét.
Cisco TelePresence SpeakerTrack 60
K popisu tohoto řešení použiji text z oficiální brožury. SpeakerTrack 60 využívá unikátní přístup dvou kamer pro rychlé přímé přepínání mezi účastníky. Jedna kamera rychle najde detailní záběr aktivního přednášejícího, zatímco druhá vyhledává a zobrazuje dalšího přednášejícího. Funkce MultiSpeaker zabraňuje zbytečnému přepínání, pokud je další reproduktor již přítomen v aktuálním snímku.
SpeakerTrack 60 jsem bohužel neměl možnost sám otestovat. Proto je třeba vyvodit závěry na základě názoru „z terénu“ a na základě výsledků analýzy níže uvedeného demonstračního videa. Při ukazování na nového prezentujícího jsem napočítal maximální zpoždění téměř 8 sekund. Průměrná prodleva byla 2-3 sekundy, soudě podle videa.
Inteligentní sledovací videokamera HUAWEI VPT300
Na toto řešení od Huawei jsem narazil náhodou. Systém stojí asi 9 tisíc dolarů. Funguje pouze s terminály Huawei. Vývojáři přidali svůj vlastní „trik“ - rozložení videa ze dvou reproduktorů na jedné obrazovce, pokud v místnosti není nikdo jiný. Z hlediska charakteristik a deklarované funkčnosti se jedná o velmi zajímavou verzi systému automatického navádění. Ale bohužel jsem nenašel absolutně žádný demo materiál. Jediné video, které se na toto téma objevilo, byla sestříhaná videorecenze řešení, bez originálního zvuku, zhudebněná. Kvalitu systému tedy nebylo možné vyhodnotit. Z tohoto důvodu nebudu o této možnosti uvažovat.
Koukám, že Huawei má aktivní blog na Habré - možná se kolegům podaří zveřejnit nějaké užitečné informace o tomto produktu.
SmartCam A12VT - monoblok, včetně dvou PTZ kamer pro sledování reproduktorů, dvou vestavěných kamer pro analýzu celkového uspořádání místnosti a také pole mikrofonů vestavěné do základny pouzdra - jak vidíte, neexistují žádné objemné a křehké struktury jako u protivníků.
Než začnu popisovat nový produkt, dám dohromady vlastnosti a vlastnosti řešení od Cisco a Polycom, abych mohl porovnat SmartCam A12VT se stávajícími nabídkami.
Ředitel Polycom EagleEye
Maloobchodní cena systému bez terminálu - $ 13K
Minimální náklady na řešení EagleEye Director + RealPresence Group 500 – $ 19K
Průměrná spínací prodleva 3 sekundy
Hlasové navádění + analýza videa
Vysoké nároky na tvář mluvčího – ústa neschováte
Nekompatibilita se zařízeními třetích stran
Cisco TelePresence SpeakerTrack 60
Maloobchodní cena systému bez terminálu - $ 15,9K
Minimální náklady na řešení TelePresence SpeakerTrack 60 + SX80 Codec - $ 30K
Průměrná spínací prodleva 3 sekundy
Hlasové navádění + analýza videa
Požadavky na tvář mluvčího - nezkontroloval, nenašel informace
Jako dvě hlavní a nepopiratelné výhody řešení Sledování hlasu SmartCam A12 najdu:
Všestrannost konektivity — přes HDMI se systém integruje s hardwarovými i softwarovými videokonferenčními terminálovými systémy
Nízké náklady — s podobnou funkčností je A12VT mnohonásobně cenově dostupnější než výše popsané návrhy.
Abychom demonstrovali, jak systém funguje, natočili jsme video recenzi. Úkolem nebyl ani tak reklamní jako spíše funkční. Video proto postrádá patos propagačního videa Polycom. Pro prezentaci nebyla zvolena reprezentativní kancelář, ale laboratorní zasedací místnost našeho partnera, společnosti IPMatika.
Mým cílem nebylo skrýt chyby systému, ale naopak odhalit úzká místa funkčnosti, donutit systém k chybám.
Podle mého názoru systém prošel testy úspěšně. Říkám to s důvěrou, protože v době psaní tohoto článku bylo řešení Sledování hlasu SmartCam A12 navštívil tucet skutečných zasedacích místností našich zákazníků. Poruchy automatizace byly pozorovány výhradně v podmínkách porušení doporučeného provozního řádu. Zejména minimální vzdálenost k blízkým účastníkům. Pokud sedíte velmi blízko ke kameře, méně než metr, pole mikrofonů vás nerozpozná a objektiv vás nebude moci sledovat.
Kromě vzdálenosti je zde ještě jeden požadavek – výška kamery.
Pokud je kamera nainstalována příliš nízko, mohou nastat problémy s polohováním hlasu. Možnost pod TV bohužel nefungovala.
Ale instalace systému nad zobrazovací zařízení je ideální způsob, jak zařízení fungovat. Polička na kameru je součástí dodávky, standardně je podporován pouze nástěnný držák.
Jak funguje funkce SmartCam A12 Voice Tracking
Hlavní PTZ čočky mají rovnocenné role – jejich úkolem je střídavě sledovat prezentující a zobrazovat celkový plán. Analýza celkového obrazu v místnosti a určení vzdálenosti od objektů se provádí pomocí video streamů přijímaných ze dvou kamer integrovaných do základny systému. Tato funkce umožňuje zkrátit reakční dobu objektivu při výměně reproduktoru na 1-2 sekundy. Kamera zvládá střídat účastníky v pohodlném rytmu, i když si vyměňují krátké věty.
Video ukázka fungování systému plně odráží funkčnost SmartCam A12VT. Ale pro ty, kteří video neviděli, popíšu slovy princip fungování automatizace:
Místnost je prázdná: jedna z čoček ukazuje obecný plán, druhá je připravena - čeká na lidi
Lidé vstoupí do místnosti a posadí se: volná čočka najde dva extrémní účastníky a orámuje obraz kolem nich, čímž odřízne prázdnou část místnosti
Zatímco se lidé pohybují, čočky střídavě sledují všechny v místnosti a udržují je ve středu záběru
Mluvčí začne mluvit: čočka je aktivní, přizpůsobená obecnému plánu. Druhý míří na reproduktor a teprve poté přejde do režimu vysílání
Reproduktor se změní: čočka nastavená na první reproduktor je aktivní a druhá čočka sníží širokoúhlý záběr a přizpůsobí se novému reproduktoru
V okamžiku přepnutí obrazu z prvního reproduktoru na druhý se volná čočka okamžitě přizpůsobí celkovému plánu místnosti
Pokud všichni mlčí, bezplatná čočka ukáže připravený obecný plán bez jakýchkoli prodlev
Pokud se reproduktor znovu změní, volná čočka ho bude hledat
Závěr
Podle mého názoru toto řešení, prezentované na ISE a ISR v loňském roce, přibližuje špičkové technologie – když ne lidem, tak určitě byznysu. Je jasné, že za 400 tisíc rublů si jen málo lidí koupí takovou „hračku“ pro domácnost, ale pro podnikání, pro firemní videokonference, je to velmi cenově dostupné a pohodlné řešení problému automatického zaměření kamery.
Vzhledem k všestrannosti Sledování hlasu SmartCam A12, lze systém použít jako řešení od nuly nebo jako rozšíření funkčnosti stávající videokonferenční infrastruktury. Připojení přes HDMI je na rozdíl od proprietárních systémů výše popsaných výrobců velký krok směrem k uživateli.
Rád bych poděkoval partnerům, kteří pomáhali při testování.
Společnost IPMatika — pro terminál Yealink VC880, zasedací místnost a Yakushina Yura.
Společnost Smart-AV — za právo prvního a výhradního přezkoumání řešení a poskytování systému Sledování hlasu SmartCam A12 pro testování.