Funkcja kierowania kamerą za pomocą głosu stała się bardziej dostępna – uniwersalne rozwiązanie SmartCam A12 Voice Tracking

Funkcja kierowania kamerą za pomocą głosu stała się bardziej dostępna – uniwersalne rozwiązanie SmartCam A12 Voice TrackingTemat śledzenia mówiącego uczestnika wideokonferencji nabrał tempa w ciągu ostatnich kilku lat. Technologia umożliwiła wdrożenie złożonych algorytmów przetwarzania informacji audio/wideo w czasie rzeczywistym, co skłoniło firmę Polycom prawie 10 lat temu do wprowadzenia pierwszego na świecie głównego nurtu rozwiązania z inteligentnym automatycznym śledzeniem głośników. Przez kilka lat udało im się pozostać jedynymi właścicielami takiego rozwiązania, jednak Cisco nie musiało długo czekać i wprowadziło na rynek swoją wersję inteligentnego systemu z dwoma kamerami, który był uczciwą konkurencją dla rozwiązania firmy Polycom. Przez wiele lat ten segment wideokonferencji był ograniczony możliwościami kilku prawnie zastrzeżony produktów, ale ten artykuł poświęcony jest temu pierwszemu uniwersalny rozwiązanie do głosowego prowadzenia kamer, kompatybilne zarówno ze sprzętem, jak i oprogramowaniem infrastruktury wideokonferencji.
Zanim przejdę do opisu rozwiązań i demonstracji możliwości, chcę zwrócić uwagę na ważne wydarzenie:
Mam zaszczyt zaprezentować społeczność Habra nowe centrum, dedykowane rozwiązaniom wideokonferencyjnym (VCC). Teraz, dzięki wspólnym wysiłkom (moim i UFO), Wideokonferencje ma swój dom na Habré, dlatego wszystkich zaangażowanych w ten obszerny i aktualny temat zapraszam do subskrybowania nowe centrum.

Dwa scenariusze skierowania kamery na mówiącego

W tej chwili integratorzy rozwiązań wideokonferencyjnych wybierają dla siebie dwa różne sposoby realizacji zadania targetowania prezentera:

  1. Automatyczny - Inteligentny
  2. Półautomatyczny - programowalny

Pierwsza opcja to tylko rozwiązania Cisco, Polycom i innych producentów, rozważymy je poniżej. Tutaj mamy do czynienia z pełną automatyzacją skierowania kamery na mówiącego uczestnika wideokonferencji. Unikalne algorytmy przetwarzania sygnałów audio/wideo pozwalają kamerze samodzielnie wybrać żądaną pozycję.

Drugą opcją są systemy automatyki oparte na różnych zewnętrznych sterownikach sterujących, nie będziemy ich szczegółowo omawiać, ponieważ Artykuł poświęcony jest w szczególności automatycznemu śledzeniu głośników.
Jest całkiem sporo zwolenników drugiego scenariusza wdrożenia celowania kamery i istnieją ku temu powody. Doświadczeni integratorzy rozumieją, że inteligentne rozwiązania firm Polycom i Cisco wymagają idealnych warunków pracy, aby automatyka działała prawidłowo. Nie zawsze jednak udaje się zapewnić takie warunki, dlatego czasami działanie systemu gwarantuje następujące rozwiązanie problemu skierowania kamery:

1. Wszystkie niezbędne ustawienia wstępne (pozycje urządzenia PTZ i współczynnik zoomu optycznego) są wcześniej ręcznie wprowadzane do pamięci kamery (lub czasami do sterownika sterującego). Z reguły jest to ogólny plan sali konferencyjnej i widok każdego uczestnika konferencji w trybie portretowym.

2. Następnie w określonych miejscach instaluje się inicjatory wywoływania wymaganego ustawienia wstępnego - są to albo konsole mikrofonowe, albo przyciski radiowe, ogólnie rzecz biorąc, dowolne urządzenie, które może dostarczyć kontrolerowi sterującemu zrozumiały dla niego sygnał.

3. Sterownik sterujący zaprogramowano w ten sposób, że każdy inicjator ma swój preset. Ogólny plan pomieszczenia - wszystkie inicjatory wyłączone.
Dzięki temu, korzystając np. z systemu kongresowego i sterownika sterującego, prelegent przed rozpoczęciem swojego wystąpienia aktywuje swoją osobistą konsolę mikrofonową. System sterowania natychmiast przetwarza zapisaną pozycję kamery.

Ten scenariusz sprawdza się bez zarzutu – system nie musi wykonywać triangulacji głosu i analityki wideo. Nacisnąłem przycisk i ustawienie wstępne zadziałało, bez opóźnień i fałszywych alarmów.
Systemy sterowania i automatyki znajdują zastosowanie w dużych, skomplikowanych pomieszczeniach, w których czasami instaluje się nie jedną, a kilka kamer wideo. Cóż, w przypadku małych i średnich sal konferencyjnych systemy automatyczne są całkiem odpowiednie (jeśli masz budżet).
Zacznijmy od ojców założycieli.

Dyrektor Polycom EagleEye

Funkcja kierowania kamerą za pomocą głosu stała się bardziej dostępna – uniwersalne rozwiązanie SmartCam A12 Voice TrackingTo rozwiązanie zrobiło kiedyś furorę w dziedzinie wideokonferencji. Polycom EagleEye Director był pierwszym rozwiązaniem w zakresie inteligentnego prowadzenia kamer. Rozwiązanie składa się z jednostki bazowej EagleEye Director i dwóch kamer. Specyfiką tej pierwszej realizacji jest to, że jedna kamera jest przeznaczona tylko do zbliżenia prelegenta, a druga do ogólnego planu sali konferencyjnej. Jednocześnie kamerę planu ogólnego można umieścić całkowicie oddzielnie od podstawy w innym miejscu sali konferencyjnej – nie bierze ona bezpośredniego udziału w procesie automatycznego prowadzenia.
System działa w następujący sposób:

  1. Kamera w pomieszczeniu ogólnym jest aktywna – wszyscy milczą
  2. Głośnik zaczyna mówić – układ mikrofonów wychwytuje głos, kamera przesuwa się w stronę dźwięku, wykorzystując opatentowaną technologię obejmującą triangulację głosu. Kamera ogólna jest nadal aktywna
  3. Kamera główna dopiero zaczyna szukać źródła dźwięku, przeprowadzając analizę wideo. System identyfikuje mówiącego na podstawie połączenia oko-nos-usta, kadruje zdjęcie mówiącego i wyświetla strumień z kamery głównej
  4. Głośnik się zmienia. Układ mikrofonów rozpoznaje, że głos dochodzi z innego miejsca. Plan ogólny zostaje ponownie włączony.
  5. A następnie w kółko, zaczynając od punktu 2
  6. Jeśli nowy głośnik znajduje się w ramce z poprzednim, system dokonuje „gorącej” zmiany położenia bez zmiany aktywnego przepływu na ujęcie ogólne.

Minusem, moim zdaniem, jest obecność tylko jednego głównego aparatu. Skutkuje to znacznym opóźnieniem przy zmianie głośników. I za każdym razem w momencie wskazania system włącza ogólny plan pomieszczenia – podczas ożywionej rozmowy to migotanie zaczyna irytować.

Polycom EagleEye Dyrektor II

Funkcja kierowania kamerą za pomocą głosu stała się bardziej dostępna – uniwersalne rozwiązanie SmartCam A12 Voice TrackingTo już druga wersja rozwiązania firmy Polycom, która ukazała się stosunkowo niedawno. Zasada działania uległa zmianom i przypomina bardziej rozwiązanie Cisco. Teraz obie kamery PTZ są głównymi i służą do płynnego przełączania kanałów między prezenterami. Ogólny układ sali konferencyjnej jest teraz rejestrowany przez oddzielną kamerę zintegrowaną z korpusem jednostki bazowej EagleEye Director II. Z jakiegoś powodu strumień z tej szerokokątnej kamery wyświetlany jest w dodatkowym oknie w rogu ekranu, zajmując 1/9 głównego strumienia. Zasada pozycjonowania jest taka sama – triangulacja głosu i analiza strumienia wideo. Wąskie gardła są takie same: jeśli system nie widzi mówiących ust, kamera nie będzie celować. A taka sytuacja może się zdarzyć dość często - mówiący odwrócił się, mówca odwrócił się na bok, mówca jest brzuchomówcą, mówca zakrył usta dłonią lub dokumentem.
Oba filmy promocyjne zostały nakręcone kompetentnie - 2 osoby mówią na zmianę i otwierają usta, jak na wizycie u logopedy. Ale nawet w tak wyrafinowanych warunkach opóźnienie jest bardzo znaczne. Ale kadrowanie jest bez zarzutu – wygodne zdjęcie portretowe.

Cisco TelePresence SpeakerTrack 60

Funkcja kierowania kamerą za pomocą głosu stała się bardziej dostępna – uniwersalne rozwiązanie SmartCam A12 Voice TrackingAby opisać to rozwiązanie posłużę się tekstem z oficjalnej broszury.
SpeakerTrack 60 wykorzystuje unikalne rozwiązanie z dwoma kamerami, aby szybko przełączać się bezpośrednio między uczestnikami. Jedna kamera szybko znajduje zbliżenie aktywnego prezentera, druga natomiast wyszukuje i wyświetla kolejnego prezentera. Funkcja MultiSpeaker zapobiega niepotrzebnemu przełączaniu, jeśli w bieżącej ramce obecny jest już następny głośnik.
Niestety nie miałem okazji osobiście przetestować SpeakerTrack 60. Dlatego wnioski należy wyciągnąć w oparciu o opinię „z terenu” oraz w oparciu o wyniki analizy poniższego filmu demonstracyjnego. Maksymalne opóźnienie przy wskazywaniu na nowego prezentera naliczyłem prawie 8 sekund. Sądząc po filmie, średnie opóźnienie wynosiło 2-3 sekundy.

Inteligentna kamera śledząca HUAWEI VPT300

Funkcja kierowania kamerą za pomocą głosu stała się bardziej dostępna – uniwersalne rozwiązanie SmartCam A12 Voice TrackingNa to rozwiązanie od Huawei natknąłem się przez przypadek. System kosztuje około 9 tys. dolarów. Działa tylko z terminalami Huawei. Twórcy dodali własną „sztuczkę” - układ wideo z dwóch głośników na jednym ekranie, jeśli w pomieszczeniu nie ma nikogo innego. Pod względem właściwości i deklarowanej funkcjonalności jest to bardzo interesująca wersja systemu automatycznego prowadzenia. Ale niestety nie znalazłem absolutnie żadnego materiału demonstracyjnego. Jedynym filmem, który pojawił się na ten temat, była zmontowana recenzja wideo rozwiązania, bez oryginalnego dźwięku, z podkładem muzycznym. W związku z tym nie można było ocenić jakości systemu. Z tego powodu nie będę rozważał tej opcji.
Widzę, że Huawei ma aktywnego bloga na temat Habré – może koledzy będą mogli opublikować jakieś przydatne informacje na temat tego produktu.

Nowość - uniwersalne rozwiązanie Śledzenie głosu SmartCam A12

Funkcja kierowania kamerą za pomocą głosu stała się bardziej dostępna – uniwersalne rozwiązanie SmartCam A12 Voice TrackingSmartCam A12VT - monoblok, w skład którego wchodzą dwie kamery PTZ do śledzenia głośników, dwie wbudowane kamery do analizy ogólnego układu pomieszczenia, a także układ mikrofonów wbudowany w podstawę obudowy - jak widać nie ma tu nieporęcznych i kruche struktury, takie jak struktury przeciwników.
Zanim zacznę opisywać nowy produkt, zestawię cechy i cechy rozwiązań firm Cisco i Polycom, aby móc je porównać SmartCam A12VT z istniejącymi ofertami.

Dyrektor Polycom EagleEye

  • Koszt detaliczny systemu bez terminala - $ 13K
  • Minimalny koszt rozwiązania EagleEye Director + RealPresence Group 500 — $ 19K
  • Średnie opóźnienie przełączania 3 sekundy
  • Wskazówki głosowe + analiza wideo
  • Wysokie wymagania wobec twarzy mówiącego – ust nie da się ukryć
  • Niekompatybilność ze sprzętem stron trzecich

Cisco TelePresence SpeakerTrack 60

  • Koszt detaliczny systemu bez terminala - $ 15,9K
  • Minimalny koszt rozwiązania TelePresence SpeakerTrack 60 + SX80 Codec - $ 30K
  • Średnie opóźnienie przełączania 3 sekundy
  • Wskazówki głosowe + analiza wideo
  • Wymagania dotyczące twarzy mówiącego - nie sprawdzałem, nie znalazłem informacji
  • Niekompatybilność ze sprzętem stron trzecich

Śledzenie głosu SmartCam A12

  • Koszt detaliczny systemu bez terminala - $ 6,2K
  • Minimalny koszt rozwiązania Kamera SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Minimalny koszt rozwiązania Terminal programowy SmartCam A12VT+ - $ 7,7K
  • Średnie opóźnienie przełączania 3 sekundy
  • Wskazówki głosowe + analiza wideo
  • Wymagania dotyczące twarzy głośnika - brak wymagań
  • Zgodność z innymi firmami — HDMI

Jako dwie główne i niezaprzeczalne zalety rozwiązania Śledzenie głosu SmartCam A12 Znajduję:

  1. Wszechstronność połączeń — poprzez złącze HDMI system integruje się zarówno ze sprzętem, jak i oprogramowaniem systemów terminali wideokonferencyjnych
  2. Niski koszt — przy podobnej funkcjonalności A12VT jest wielokrotnie tańszy w budżecie niż propozycje opisane powyżej.

Aby zademonstrować działanie systemu, nagraliśmy recenzję wideo. Zadaniem było nie tyle reklama co funkcjonalność. Film pozbawiony jest zatem patosu filmu promocyjnego Polycom. Miejscem wybranym na prezentację nie było przedstawicielstwo, lecz laboratoryjna sala spotkań naszego partnera, firmy IPMatika.
Moim celem nie było ukrycie wad systemu, ale wręcz przeciwnie, wyeksponowanie wąskich gardeł funkcjonalności, zmuszenie systemu do popełniania błędów.

W mojej ocenie system pomyślnie przeszedł testy. Mówię to z całą pewnością, ponieważ w momencie pisania tego artykułu było to rozwiązanie Śledzenie głosu SmartCam A12 odwiedziło kilkanaście prawdziwych sal konferencyjnych naszych klientów. Awarie automatyki zaobserwowano wyłącznie w warunkach naruszenia zalecanych zasad eksploatacji. W szczególności minimalna odległość od pobliskich uczestników. Jeśli usiądziesz bardzo blisko aparatu, mniej niż metr, układ mikrofonów nie będzie w stanie Cię rozpoznać, a obiektyw nie będzie w stanie Cię wyśledzić.

Funkcja kierowania kamerą za pomocą głosu stała się bardziej dostępna – uniwersalne rozwiązanie SmartCam A12 Voice Tracking

Oprócz odległości istnieje jeszcze jeden wymóg - wysokość kamery.

Funkcja kierowania kamerą za pomocą głosu stała się bardziej dostępna – uniwersalne rozwiązanie SmartCam A12 Voice Tracking

Jeśli kamera zostanie zainstalowana zbyt nisko, mogą wystąpić problemy z pozycjonowaniem głosu. Opcja pod telewizorem niestety nie zadziałała.
Jednak zainstalowanie systemu nad urządzeniem wyświetlającym jest idealnym sposobem działania urządzenia. Półka na kamerę jest dołączona do zestawu; w standardzie obsługiwany jest tylko uchwyt ścienny.

Jak działa śledzenie głosu SmartCam A12

Główne obiektywy PTZ pełnią równorzędną rolę – ich zadaniem jest naprzemienne śledzenie prezenterów i wyświetlanie ogólnego planu. Analiza ogólnego obrazu pomieszczenia i określenie odległości od obiektów odbywa się na podstawie strumieni wideo odbieranych z dwóch kamer zintegrowanych w podstawie systemu. Funkcja ta pozwala skrócić czas reakcji obiektywu przy zmianie głośnika do 1-2 sekund. Kamera potrafi przełączać się między uczestnikami w wygodnym rytmie, nawet jeśli wymieniają krótkie zdania.
Filmowa demonstracja działania systemu w pełni odzwierciedla funkcjonalność SmartCam A12VT. Ale dla tych, którzy nie oglądali wideo, opiszę słowami zasadę działania automatyki:

  1. Sala jest pusta: jeden z obiektywów pokazuje plan ogólny, drugi jest gotowy – czeka na ludzi
  2. Ludzie wchodzą do sali i zajmują miejsca: wolna soczewka odnajduje dwójkę skrajnych uczestników i kadruje obraz wokół nich, odcinając pustą część sali
  3. Kiedy ludzie się poruszają, soczewki na zmianę śledzą wszystkich w pomieszczeniu, utrzymując ich w centrum kadru
  4. Głośnik zaczyna mówić: obiektyw jest aktywny, dostosowany do ogólnego planu. Drugi jest skierowany na głośnik i dopiero wtedy przechodzi w tryb nadawczy
  5. Głośnik się zmienia: obiektyw dostosowany do pierwszego głośnika jest aktywny, a drugi obiektyw opuszcza szerokie ujęcie i dostosowuje się do nowego głośnika
  6. W momencie przełączenia obrazu z pierwszego głośnika na drugi, wolna soczewka natychmiast dopasowuje się do ogólnego planu pomieszczenia
  7. Jeśli wszyscy będą milczeć, darmowy obiektyw bez żadnych opóźnień pokaże gotowy plan ogólny
  8. Jeśli mówca ponownie się zmieni, wolna soczewka wyruszy na jego poszukiwanie

wniosek

Moim zdaniem rozwiązanie to, zaprezentowane w zeszłym roku na ISE i ISR, przybliża zaawansowaną technologię – jeśli nie ludziom, to na pewno biznesowi. Oczywiste jest, że za 400 tysięcy rubli niewiele osób kupi taką „zabawkę” do domu, ale dla biznesu, do korporacyjnych wideokonferencji jest to bardzo niedrogie i wygodne rozwiązanie problemu automatycznego celowania kamerą.
Ze względu na wszechstronność Śledzenie głosu SmartCam A12system może być stosowany jako rozwiązanie od podstaw lub jako rozszerzenie funkcjonalności istniejącej infrastruktury wideokonferencyjnej. Podłączenie przez HDMI to duży krok w stronę użytkownika, w przeciwieństwie do autorskich systemów wyżej opisanych producentów.

Chciałbym podziękować partnerom, którzy pomogli w testowaniu.
firma IPMatika — dla terminala Yealink VC880, sali konferencyjnej i Yakushina Yura.
firma Inteligentne AV — o prawo do pierwszego i wyłącznego przeglądu rozwiązania i udostępnienia systemu Śledzenie głosu SmartCam A12 dla testów.

W ostatnim artykule Projektant sal konferencyjnych online – wybór optymalnego rozwiązania do wideokonferencjijako promocja strony internetowej vc4u.ru и Projektant VKS ogłosiliśmy 10% zniżki od ceny w katalog według słowa kodowego Habr. do końca lata 2019r.

Rabat dotyczy produktów z działów:

Do decyzji Śledzenie głosu SmartCam A12 Oferuję dodatkowe 5% rabatu do już istniejących 10% - łącznie 15% do końca lata 2019.

Czekam na Wasze komentarze i odpowiedzi w ankiecie!

Dziękuję za uwagę.
Z poważaniem,
Cyryl Usikow (Usikoff)
Przewodniczący
Systemy nadzoru wideo i wideokonferencji
[email chroniony]
stss.ru
vc4u.ru

W ankiecie mogą brać udział tylko zarejestrowani użytkownicy. Zaloguj się, Proszę.

Jak przydatne jest śledzenie głosu SmartCam A12?

  • Wreszcie pojawiło się uniwersalne rozwiązanie dla terminali programowych i sprzętowych!

  • Rozwiązanie jest dobre, ale są też inne dostępne opcje (napiszę w komentarzach)

  • System jest słaby, nie dociera do Polycom i Cisco – napiszę w komentarzach, dlaczego warto zapłacić 3 razy więcej!

  • Kto w ogóle potrzebuje automatycznego prowadzenia w sali konferencyjnej?

  • Po co w ogóle kamera PTZ w sali konferencyjnej? — Podłączyłem kamerę internetową i wszystko było w porządku!

Głosowało 8 użytkowników. 5 użytkowników wstrzymało się od głosu.

Źródło: www.habr.com

Dodaj komentarz