ProHoster > Blog > administracja > Funkcja kierowania kamerą za pomocą głosu stała się bardziej dostępna – uniwersalne rozwiązanie SmartCam A12 Voice Tracking
Funkcja kierowania kamerą za pomocą głosu stała się bardziej dostępna – uniwersalne rozwiązanie SmartCam A12 Voice Tracking
Temat śledzenia mówiącego uczestnika wideokonferencji nabrał tempa w ciągu ostatnich kilku lat. Technologia umożliwiła wdrożenie złożonych algorytmów przetwarzania informacji audio/wideo w czasie rzeczywistym, co skłoniło firmę Polycom prawie 10 lat temu do wprowadzenia pierwszego na świecie głównego nurtu rozwiązania z inteligentnym automatycznym śledzeniem głośników. Przez kilka lat udało im się pozostać jedynymi właścicielami takiego rozwiązania, jednak Cisco nie musiało długo czekać i wprowadziło na rynek swoją wersję inteligentnego systemu z dwoma kamerami, który był uczciwą konkurencją dla rozwiązania firmy Polycom. Przez wiele lat ten segment wideokonferencji był ograniczony możliwościami kilku prawnie zastrzeżony produktów, ale ten artykuł poświęcony jest temu pierwszemu uniwersalny rozwiązanie do głosowego prowadzenia kamer, kompatybilne zarówno ze sprzętem, jak i oprogramowaniem infrastruktury wideokonferencji.
Zanim przejdę do opisu rozwiązań i demonstracji możliwości, chcę zwrócić uwagę na ważne wydarzenie: Mam zaszczyt zaprezentować społeczność Habra nowe centrum, dedykowane rozwiązaniom wideokonferencyjnym (VCC). Teraz, dzięki wspólnym wysiłkom (moim i UFO), Wideokonferencje ma swój dom na Habré, dlatego wszystkich zaangażowanych w ten obszerny i aktualny temat zapraszam do subskrybowania nowe centrum.
Dwa scenariusze skierowania kamery na mówiącego
W tej chwili integratorzy rozwiązań wideokonferencyjnych wybierają dla siebie dwa różne sposoby realizacji zadania targetowania prezentera:
Automatyczny - Inteligentny
Półautomatyczny - programowalny
Pierwsza opcja to tylko rozwiązania Cisco, Polycom i innych producentów, rozważymy je poniżej. Tutaj mamy do czynienia z pełną automatyzacją skierowania kamery na mówiącego uczestnika wideokonferencji. Unikalne algorytmy przetwarzania sygnałów audio/wideo pozwalają kamerze samodzielnie wybrać żądaną pozycję.
Drugą opcją są systemy automatyki oparte na różnych zewnętrznych sterownikach sterujących, nie będziemy ich szczegółowo omawiać, ponieważ Artykuł poświęcony jest w szczególności automatycznemu śledzeniu głośników.
Jest całkiem sporo zwolenników drugiego scenariusza wdrożenia celowania kamery i istnieją ku temu powody. Doświadczeni integratorzy rozumieją, że inteligentne rozwiązania firm Polycom i Cisco wymagają idealnych warunków pracy, aby automatyka działała prawidłowo. Nie zawsze jednak udaje się zapewnić takie warunki, dlatego czasami działanie systemu gwarantuje następujące rozwiązanie problemu skierowania kamery:
1. Wszystkie niezbędne ustawienia wstępne (pozycje urządzenia PTZ i współczynnik zoomu optycznego) są wcześniej ręcznie wprowadzane do pamięci kamery (lub czasami do sterownika sterującego). Z reguły jest to ogólny plan sali konferencyjnej i widok każdego uczestnika konferencji w trybie portretowym.
2. Następnie w określonych miejscach instaluje się inicjatory wywoływania wymaganego ustawienia wstępnego - są to albo konsole mikrofonowe, albo przyciski radiowe, ogólnie rzecz biorąc, dowolne urządzenie, które może dostarczyć kontrolerowi sterującemu zrozumiały dla niego sygnał.
3. Sterownik sterujący zaprogramowano w ten sposób, że każdy inicjator ma swój preset. Ogólny plan pomieszczenia - wszystkie inicjatory wyłączone.
Dzięki temu, korzystając np. z systemu kongresowego i sterownika sterującego, prelegent przed rozpoczęciem swojego wystąpienia aktywuje swoją osobistą konsolę mikrofonową. System sterowania natychmiast przetwarza zapisaną pozycję kamery.
Ten scenariusz sprawdza się bez zarzutu – system nie musi wykonywać triangulacji głosu i analityki wideo. Nacisnąłem przycisk i ustawienie wstępne zadziałało, bez opóźnień i fałszywych alarmów.
Systemy sterowania i automatyki znajdują zastosowanie w dużych, skomplikowanych pomieszczeniach, w których czasami instaluje się nie jedną, a kilka kamer wideo. Cóż, w przypadku małych i średnich sal konferencyjnych systemy automatyczne są całkiem odpowiednie (jeśli masz budżet).
Zacznijmy od ojców założycieli.
Dyrektor Polycom EagleEye
To rozwiązanie zrobiło kiedyś furorę w dziedzinie wideokonferencji. Polycom EagleEye Director był pierwszym rozwiązaniem w zakresie inteligentnego prowadzenia kamer. Rozwiązanie składa się z jednostki bazowej EagleEye Director i dwóch kamer. Specyfiką tej pierwszej realizacji jest to, że jedna kamera jest przeznaczona tylko do zbliżenia prelegenta, a druga do ogólnego planu sali konferencyjnej. Jednocześnie kamerę planu ogólnego można umieścić całkowicie oddzielnie od podstawy w innym miejscu sali konferencyjnej – nie bierze ona bezpośredniego udziału w procesie automatycznego prowadzenia.
System działa w następujący sposób:
Kamera w pomieszczeniu ogólnym jest aktywna – wszyscy milczą
Głośnik zaczyna mówić – układ mikrofonów wychwytuje głos, kamera przesuwa się w stronę dźwięku, wykorzystując opatentowaną technologię obejmującą triangulację głosu. Kamera ogólna jest nadal aktywna
Kamera główna dopiero zaczyna szukać źródła dźwięku, przeprowadzając analizę wideo. System identyfikuje mówiącego na podstawie połączenia oko-nos-usta, kadruje zdjęcie mówiącego i wyświetla strumień z kamery głównej
Głośnik się zmienia. Układ mikrofonów rozpoznaje, że głos dochodzi z innego miejsca. Plan ogólny zostaje ponownie włączony.
A następnie w kółko, zaczynając od punktu 2
Jeśli nowy głośnik znajduje się w ramce z poprzednim, system dokonuje „gorącej” zmiany położenia bez zmiany aktywnego przepływu na ujęcie ogólne.
Minusem, moim zdaniem, jest obecność tylko jednego głównego aparatu. Skutkuje to znacznym opóźnieniem przy zmianie głośników. I za każdym razem w momencie wskazania system włącza ogólny plan pomieszczenia – podczas ożywionej rozmowy to migotanie zaczyna irytować.
Polycom EagleEye Dyrektor II
To już druga wersja rozwiązania firmy Polycom, która ukazała się stosunkowo niedawno. Zasada działania uległa zmianom i przypomina bardziej rozwiązanie Cisco. Teraz obie kamery PTZ są głównymi i służą do płynnego przełączania kanałów między prezenterami. Ogólny układ sali konferencyjnej jest teraz rejestrowany przez oddzielną kamerę zintegrowaną z korpusem jednostki bazowej EagleEye Director II. Z jakiegoś powodu strumień z tej szerokokątnej kamery wyświetlany jest w dodatkowym oknie w rogu ekranu, zajmując 1/9 głównego strumienia. Zasada pozycjonowania jest taka sama – triangulacja głosu i analiza strumienia wideo. Wąskie gardła są takie same: jeśli system nie widzi mówiących ust, kamera nie będzie celować. A taka sytuacja może się zdarzyć dość często - mówiący odwrócił się, mówca odwrócił się na bok, mówca jest brzuchomówcą, mówca zakrył usta dłonią lub dokumentem.
Oba filmy promocyjne zostały nakręcone kompetentnie - 2 osoby mówią na zmianę i otwierają usta, jak na wizycie u logopedy. Ale nawet w tak wyrafinowanych warunkach opóźnienie jest bardzo znaczne. Ale kadrowanie jest bez zarzutu – wygodne zdjęcie portretowe.
Cisco TelePresence SpeakerTrack 60
Aby opisać to rozwiązanie posłużę się tekstem z oficjalnej broszury. SpeakerTrack 60 wykorzystuje unikalne rozwiązanie z dwoma kamerami, aby szybko przełączać się bezpośrednio między uczestnikami. Jedna kamera szybko znajduje zbliżenie aktywnego prezentera, druga natomiast wyszukuje i wyświetla kolejnego prezentera. Funkcja MultiSpeaker zapobiega niepotrzebnemu przełączaniu, jeśli w bieżącej ramce obecny jest już następny głośnik.
Niestety nie miałem okazji osobiście przetestować SpeakerTrack 60. Dlatego wnioski należy wyciągnąć w oparciu o opinię „z terenu” oraz w oparciu o wyniki analizy poniższego filmu demonstracyjnego. Maksymalne opóźnienie przy wskazywaniu na nowego prezentera naliczyłem prawie 8 sekund. Sądząc po filmie, średnie opóźnienie wynosiło 2-3 sekundy.
Inteligentna kamera śledząca HUAWEI VPT300
Na to rozwiązanie od Huawei natknąłem się przez przypadek. System kosztuje około 9 tys. dolarów. Działa tylko z terminalami Huawei. Twórcy dodali własną „sztuczkę” - układ wideo z dwóch głośników na jednym ekranie, jeśli w pomieszczeniu nie ma nikogo innego. Pod względem właściwości i deklarowanej funkcjonalności jest to bardzo interesująca wersja systemu automatycznego prowadzenia. Ale niestety nie znalazłem absolutnie żadnego materiału demonstracyjnego. Jedynym filmem, który pojawił się na ten temat, była zmontowana recenzja wideo rozwiązania, bez oryginalnego dźwięku, z podkładem muzycznym. W związku z tym nie można było ocenić jakości systemu. Z tego powodu nie będę rozważał tej opcji.
Widzę, że Huawei ma aktywnego bloga na temat Habré – może koledzy będą mogli opublikować jakieś przydatne informacje na temat tego produktu.
SmartCam A12VT - monoblok, w skład którego wchodzą dwie kamery PTZ do śledzenia głośników, dwie wbudowane kamery do analizy ogólnego układu pomieszczenia, a także układ mikrofonów wbudowany w podstawę obudowy - jak widać nie ma tu nieporęcznych i kruche struktury, takie jak struktury przeciwników.
Zanim zacznę opisywać nowy produkt, zestawię cechy i cechy rozwiązań firm Cisco i Polycom, aby móc je porównać SmartCam A12VT z istniejącymi ofertami.
Dyrektor Polycom EagleEye
Koszt detaliczny systemu bez terminala - $ 13K
Minimalny koszt rozwiązania EagleEye Director + RealPresence Group 500 — $ 19K
Średnie opóźnienie przełączania 3 sekundy
Wskazówki głosowe + analiza wideo
Wysokie wymagania wobec twarzy mówiącego – ust nie da się ukryć
Wymagania dotyczące twarzy głośnika - brak wymagań
Zgodność z innymi firmami — HDMI
Jako dwie główne i niezaprzeczalne zalety rozwiązania Śledzenie głosu SmartCam A12 Znajduję:
Wszechstronność połączeń — poprzez złącze HDMI system integruje się zarówno ze sprzętem, jak i oprogramowaniem systemów terminali wideokonferencyjnych
Niski koszt — przy podobnej funkcjonalności A12VT jest wielokrotnie tańszy w budżecie niż propozycje opisane powyżej.
Aby zademonstrować działanie systemu, nagraliśmy recenzję wideo. Zadaniem było nie tyle reklama co funkcjonalność. Film pozbawiony jest zatem patosu filmu promocyjnego Polycom. Miejscem wybranym na prezentację nie było przedstawicielstwo, lecz laboratoryjna sala spotkań naszego partnera, firmy IPMatika.
Moim celem nie było ukrycie wad systemu, ale wręcz przeciwnie, wyeksponowanie wąskich gardeł funkcjonalności, zmuszenie systemu do popełniania błędów.
W mojej ocenie system pomyślnie przeszedł testy. Mówię to z całą pewnością, ponieważ w momencie pisania tego artykułu było to rozwiązanie Śledzenie głosu SmartCam A12 odwiedziło kilkanaście prawdziwych sal konferencyjnych naszych klientów. Awarie automatyki zaobserwowano wyłącznie w warunkach naruszenia zalecanych zasad eksploatacji. W szczególności minimalna odległość od pobliskich uczestników. Jeśli usiądziesz bardzo blisko aparatu, mniej niż metr, układ mikrofonów nie będzie w stanie Cię rozpoznać, a obiektyw nie będzie w stanie Cię wyśledzić.
Oprócz odległości istnieje jeszcze jeden wymóg - wysokość kamery.
Jeśli kamera zostanie zainstalowana zbyt nisko, mogą wystąpić problemy z pozycjonowaniem głosu. Opcja pod telewizorem niestety nie zadziałała.
Jednak zainstalowanie systemu nad urządzeniem wyświetlającym jest idealnym sposobem działania urządzenia. Półka na kamerę jest dołączona do zestawu; w standardzie obsługiwany jest tylko uchwyt ścienny.
Jak działa śledzenie głosu SmartCam A12
Główne obiektywy PTZ pełnią równorzędną rolę – ich zadaniem jest naprzemienne śledzenie prezenterów i wyświetlanie ogólnego planu. Analiza ogólnego obrazu pomieszczenia i określenie odległości od obiektów odbywa się na podstawie strumieni wideo odbieranych z dwóch kamer zintegrowanych w podstawie systemu. Funkcja ta pozwala skrócić czas reakcji obiektywu przy zmianie głośnika do 1-2 sekund. Kamera potrafi przełączać się między uczestnikami w wygodnym rytmie, nawet jeśli wymieniają krótkie zdania.
Filmowa demonstracja działania systemu w pełni odzwierciedla funkcjonalność SmartCam A12VT. Ale dla tych, którzy nie oglądali wideo, opiszę słowami zasadę działania automatyki:
Sala jest pusta: jeden z obiektywów pokazuje plan ogólny, drugi jest gotowy – czeka na ludzi
Ludzie wchodzą do sali i zajmują miejsca: wolna soczewka odnajduje dwójkę skrajnych uczestników i kadruje obraz wokół nich, odcinając pustą część sali
Kiedy ludzie się poruszają, soczewki na zmianę śledzą wszystkich w pomieszczeniu, utrzymując ich w centrum kadru
Głośnik zaczyna mówić: obiektyw jest aktywny, dostosowany do ogólnego planu. Drugi jest skierowany na głośnik i dopiero wtedy przechodzi w tryb nadawczy
Głośnik się zmienia: obiektyw dostosowany do pierwszego głośnika jest aktywny, a drugi obiektyw opuszcza szerokie ujęcie i dostosowuje się do nowego głośnika
W momencie przełączenia obrazu z pierwszego głośnika na drugi, wolna soczewka natychmiast dopasowuje się do ogólnego planu pomieszczenia
Jeśli wszyscy będą milczeć, darmowy obiektyw bez żadnych opóźnień pokaże gotowy plan ogólny
Jeśli mówca ponownie się zmieni, wolna soczewka wyruszy na jego poszukiwanie
wniosek
Moim zdaniem rozwiązanie to, zaprezentowane w zeszłym roku na ISE i ISR, przybliża zaawansowaną technologię – jeśli nie ludziom, to na pewno biznesowi. Oczywiste jest, że za 400 tysięcy rubli niewiele osób kupi taką „zabawkę” do domu, ale dla biznesu, do korporacyjnych wideokonferencji jest to bardzo niedrogie i wygodne rozwiązanie problemu automatycznego celowania kamerą.
Ze względu na wszechstronność Śledzenie głosu SmartCam A12system może być stosowany jako rozwiązanie od podstaw lub jako rozszerzenie funkcjonalności istniejącej infrastruktury wideokonferencyjnej. Podłączenie przez HDMI to duży krok w stronę użytkownika, w przeciwieństwie do autorskich systemów wyżej opisanych producentów.
Chciałbym podziękować partnerom, którzy pomogli w testowaniu.
firma IPMatika — dla terminala Yealink VC880, sali konferencyjnej i Yakushina Yura.
firma Inteligentne AV — o prawo do pierwszego i wyłącznego przeglądu rozwiązania i udostępnienia systemu Śledzenie głosu SmartCam A12 dla testów.