Функцията за насочване на камерата чрез глас стана по-достъпна - универсалното решение SmartCam A12 Voice Tracking

Функцията за насочване на камерата чрез глас стана по-достъпна - универсалното решение SmartCam A12 Voice TrackingТемата за проследяване на говорещ участник във видеоконференция набра скорост през последните няколко години. Технологията направи възможно прилагането на сложни алгоритми за обработка на аудио/видео информация в реално време, което накара Polycom преди почти 10 години да представи първото в света масово решение с интелигентно автоматично проследяване на високоговорителите. В продължение на няколко години те успяха да останат единствените собственици на такова решение, но Cisco не трябваше да чака дълго и пусна на пазара своята версия на интелигентна система с две камери, която беше справедлив конкурент на решението на Polycom. В продължение на много години този сегмент от видеоконференциите беше ограничен от възможностите на няколко собственически продукти, но тази статия е посветена на първия универсален решение за гласово насочване на камерата, съвместимо както с хардуерната, така и със софтуерната инфраструктура на видеоконференциите.
Преди да премина към описание на решения и демонстриране на възможности, искам да отбележа важно събитие:
За мен е чест да представя на общността на Хабра нов хъб, посветен на решенията за видеоконференции (VCC). Сега, благодарение на съвместните усилия (мои и НЛО), Видеоконферентна връзка има свой собствен дом в Хабре и каня всички, които участват в тази обширна и актуална тема, да се абонират за нов хъб.

Два сценария за насочване на камерата към високоговорителя

В момента интеграторите на решения за видеоконференции избират за себе си два различни начина за изпълнение на задачата за насочване към презентатора:

  1. Автоматично - Интелигентно
  2. Полуавтоматичен - програмируем

Първият вариант е само решения от Cisco, Polycom и други производители, ще ги разгледаме по-долу. Тук имаме работа с пълна автоматизация на насочване на камерата към говорещия участник във видеоконференцията. Уникалните алгоритми за обработка на аудио/видео сигнали позволяват на камерата самостоятелно да избира желаната позиция.

Вторият вариант са системи за автоматизация, базирани на различни външни контролери за управление, няма да ги разглеждаме подробно, защото Статията е посветена специално на автоматичното проследяване на високоговорителите.
Има доста привърженици на втория сценарий за прилагане на насочване на камерата и има причини за това. Опитните интегратори разбират, че интелигентните решения от Polycom и Cisco изискват идеални работни условия, за да функционира правилно автоматизацията. Но не винаги е възможно да се осигурят такива условия, така че работата на системата понякога се гарантира от следното решение на проблема с насочването на камерата:

1. Всички необходими предварително зададени настройки (позиции на PTZ устройството и коефициент на оптично увеличение) се въвеждат ръчно предварително в паметта на камерата (или понякога в контролера за управление). Като правило това е общ план на заседателната зала и изглед на всеки участник в конференцията в портретен режим.

2. След това на посочените места се инсталират инициаторите за извикване на необходимата предварителна настройка - това са или микрофонни конзоли, или радио бутони, като цяло всяко устройство, което може да предостави на контролера сигнал, който разбира.

3. Контролерът за управление е програмиран по такъв начин, че всеки инициатор има собствена предварително зададена настройка. Общ план на стаята - всички инициатори са изключени.
В резултат на това при използване на конгресна система, например, и контролер за управление, ораторът, преди да започне речта си, активира личната си микрофонна конзола. Системата за управление моментално обработва записаната позиция на камерата.

Този сценарий работи безупречно - системата не се нуждае от извършване на гласова триангулация и видео анализи. Натиснах бутона и предварителната настройка проработи, без забавяне или фалшиви положителни резултати.
Системите за контрол и автоматизация се използват в големи, сложни помещения, където понякога са инсталирани не една, а няколко видеокамери. Е, за малки и средни заседателни зали автоматичните системи са доста подходящи (ако имате бюджет).
Да започнем с бащите основатели.

Директор на Polycom EagleEye

Функцията за насочване на камерата чрез глас стана по-достъпна - универсалното решение SmartCam A12 Voice TrackingТова решение някога създаде сензация в областта на видеоконференциите. Polycom EagleEye Director беше първото решение в областта на интелигентното насочване на камерата. Решението се състои от базов модул EagleEye Director и две камери. Особеността на това първо изпълнение е, че една камера е предназначена само за изглед отблизо на говорителя, а втората - за общ план на залата за срещи. В същото време камерата за общ план може да бъде поставена напълно отделно от основата на друго място в заседателната зала - тя не участва пряко в процеса на автоматично насочване.
Системата работи по следния начин:

  1. Камерата на общата стая е активна - всички мълчат
  2. Говорителят започва да говори - микрофонната система улавя гласа, камерата се придвижва към звука с помощта на патентована технология, която включва гласова триангулация. Общата камера все още е активна
  3. Основната камера едва започва да търси източника на звук, провеждайки видео анализи. Системата идентифицира говорещия чрез връзката око-нос-уста, рамкира снимката на говорещия и показва потока от основната камера
  4. Говорителят се променя. Микрофонният масив разбира, че гласът идва от друго място. Общият план се включва отново.
  5. И след това в кръг, започвайки от точка 2
  6. Ако новият високоговорител е в рамката с предишния, системата прави „гореща“ промяна на позиционирането, без да променя активния поток към общия кадър.

Недостатък според мен е наличието само на една основна камера. Това води до значително забавяне при смяна на високоговорителите. И всеки път, в момента на насочване, системата включва общия план на стаята - по време на оживен разговор това трептене започва да дразни.

Polycom EagleEye Director II

Функцията за насочване на камерата чрез глас стана по-достъпна - универсалното решение SmartCam A12 Voice TrackingТова е втората версия на решението от Polycom, която беше пусната сравнително наскоро. Принципът на работа претърпя промени и стана по-скоро като решение от Cisco. Сега и двете PTZ камери са основните и служат за безпроблемно превключване на канали от един водещ на друг. Общото оформление на заседателната зала вече се заснема от отделна камера, интегрирана в корпуса на базовия модул EagleEye Director II. По някаква причина потокът от тази широкоъгълна камера се показва в допълнителен прозорец в ъгъла на екрана, заемащ 1/9 от основния поток. Принципът на позициониране е същият - гласова триангулация и анализ на видео поток. И тесните места са същите: ако системата не вижда говорещата уста, камерата няма да се насочи. И тази ситуация може да се случи доста често - говорещият се е обърнал, говорещият се е обърнал настрани, говорещият е вентрилоквист, говорещият е покрил устата си с ръка или документ.
И двата рекламни видеоклипа са заснети грамотно - 2-ма души говорят на свой ред и отварят уста, сякаш са на среща с логопед. Но дори и при такива рафинирани условия има много значително забавяне. Но кадрирането е безупречно – удобна портретна снимка.

Cisco TelePresence SpeakerTrack 60

Функцията за насочване на камерата чрез глас стана по-достъпна - универсалното решение SmartCam A12 Voice TrackingЗа да опиша това решение, ще използвам текст от официалната брошура.
SpeakerTrack 60 използва уникален подход с двойна камера за бързо превключване директно между участниците. Едната камера бързо намира близък план на активния презентатор, докато другата търси и показва следващия презентатор. Функцията MultiSpeaker предотвратява ненужното превключване, ако следващият високоговорител вече присъства в текущия кадър.
За съжаление, нямах възможност да тествам SpeakerTrack 60 сам. Следователно изводите трябва да се правят въз основа на мнението „от терена“ и въз основа на резултатите от анализа на демонстрационния видеоклип по-долу. Преброих максимално забавяне от почти 8 секунди при насочване към нов водещ. Средното забавяне беше 2-3 секунди, съдейки по видеото.

HUAWEI Интелигентна проследяваща видеокамера VPT300

Функцията за насочване на камерата чрез глас стана по-достъпна - универсалното решение SmartCam A12 Voice TrackingСлучайно попаднах на това решение от Huawei. Системата струва около $9K. Работи само с терминали на Huawei. Разработчиците добавиха свой собствен „трик“ - видео оформление от два високоговорителя на един екран, ако в стаята няма никой друг. По отношение на характеристиките и декларираната функционалност това е много интересна версия на системата за автоматично насочване. Но, за съжаление, не намерих абсолютно никакъв демонстрационен материал. Единственото видео, което се появи по тази тема, беше редактирано видео ревю на решението, без оригинален звук, с музика. По този начин не беше възможно да се оцени качеството на системата. Поради тази причина няма да обмисля този вариант.
Виждам, че Huawei има активен блог на Habré - може би колегите ще могат да публикуват полезна информация за този продукт.

Ново - универсално решение Гласово проследяване на SmartCam A12

Функцията за насочване на камерата чрез глас стана по-достъпна - универсалното решение SmartCam A12 Voice TrackingSmartCam A12VT - моноблок, включващ две PTZ камери за проследяване на говорители, две вградени камери за анализ на общото оформление на помещението, както и микрофонна решетка, вградена в основата на корпуса - както виждате, няма обемисти и крехки структури като тези на противниците.
Преди да започна да описвам новия продукт, ще събера заедно характеристиките и характеристиките на решенията на Cisco и Polycom, за да мога да сравня SmartCam A12VT със съществуващи оферти.

Директор на Polycom EagleEye

  • Цена на дребно на системата без терминал - $ 13K
  • Минимална цена на решение EagleEye Director + RealPresence Group 500 — $ 19K
  • Средно забавяне на превключването 3 секунди
  • Гласови напътствия + видео анализ
  • Високи изисквания към лицето на оратора - не можете да скриете устата си
  • Несъвместимост с оборудване на трети страни

Cisco TelePresence SpeakerTrack 60

  • Цена на дребно на системата без терминал - $ 15,9K
  • Минимална цена за решение TelePresence SpeakerTrack 60 + SX80 Codec - $ 30K
  • Средно забавяне на превключването 3 секунди
  • Гласови напътствия + видео анализ
  • Изисквания към лицето на говорещия - не проверих, не намерих информация
  • Несъвместимост с оборудване на трети страни

Гласово проследяване на SmartCam A12

  • Цена на дребно на системата без терминал - $ 6,2K
  • Минимална цена на решението SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Минимална цена на решението Софтуерен терминал SmartCam A12VT+ - $ 7,7K
  • Средно забавяне на превключването 3 секунди
  • Гласови напътствия + видео анализ
  • Изисквания към лицето на говорещия - няма изисквания
  • Съвместимост с трети страни - HDMI

Като две основни и безспорни предимства на решението Гласово проследяване на SmartCam A12 Намирам:

  1. Гъвкавост на свързване — чрез HDMI системата се интегрира както с хардуерни, така и със софтуерни терминални системи за видеоконференции
  2. Ниска цена — с подобна функционалност, A12VT е многократно по-достъпен за бюджет от гореописаните предложения.

За да демонстрираме как работи системата, записахме видео преглед. Задачата беше не толкова рекламна, колкото функционална. Следователно видеото е лишено от патоса на рекламно видео на Polycom. Мястото, избрано за презентацията, не беше представителство, а заседателна зала на лаборатория на нашия партньор, фирма IPMatika.
Целта ми не беше да скрия недостатъците на системата, а напротив, да разкрия тесните места на функционалността, да принудя системата да прави грешки.

Според мен системата премина успешно тестовете. Казвам това с увереност, защото към момента на писане на тази статия решението Гласово проследяване на SmartCam A12 посети дузина реални зали за срещи на наши клиенти. Неизправностите на автоматиката се наблюдават изключително в условия на нарушаване на препоръчителните правила за работа. По-специално, минималното разстояние до близките участници. Ако седите много близо до камерата, на по-малко от метър, микрофонната матрица няма да може да ви разпознае и обективът няма да може да ви проследи.

Функцията за насочване на камерата чрез глас стана по-достъпна - универсалното решение SmartCam A12 Voice Tracking

Освен разстоянието има и друго изискване – височината на камерата.

Функцията за насочване на камерата чрез глас стана по-достъпна - универсалното решение SmartCam A12 Voice Tracking

Ако камерата е инсталирана твърде ниско, може да възникнат проблеми с позиционирането на гласа. Опцията под телевизора, за съжаление, не работи.
Но инсталирането на системата над дисплейно устройство е идеален начин за работа на устройството. Рафтът за камерата е включен; само стойката за стена се поддържа като стандарт.

Как работи гласовото проследяване на SmartCam A12

Основните PTZ лещи имат равни роли - тяхната задача е да следят последователно презентаторите и да показват общия план. Анализът на общата картина в помещението и определянето на разстоянието до обектите се извършва чрез видео потоци, получени от две камери, интегрирани в основата на системата. Тази функция ви позволява да намалите времето за реакция на обектива при смяна на високоговорителя до 1-2 секунди. Камерата успява да редува участниците в удобен ритъм, дори и да си разменят кратки изречения.
Видео демонстрация на работата на системата отразява напълно функционалността SmartCam A12VT. Но за тези, които не са гледали видеото, ще опиша с думи принципа на работа на автоматиката:

  1. Стаята е празна: една от лещите показва общия план, втората е готова - чака хора
  2. Хората влизат в стаята и заемат местата си: свободната леща намира двамата крайни участници и рамкира изображението около тях, отрязвайки празната част от стаята
  3. Докато хората се движат, лещите се редуват да проследяват всички в стаята, като ги държат в центъра на кадъра
  4. Говорителят започва да говори: обективът е активен, пригоден към общия план. Вторият е насочен към високоговорителя и едва след това преминава в режим на излъчване
  5. Говорителят се променя: обективът, настроен към първия високоговорител, е активен, а вторият обектив изпуска широкия кадър и се настройва към новия високоговорител
  6. В момента на превключване на картината от първия високоговорител към втория, свободният обектив незабавно се настройва към общия план на стаята
  7. Ако всички мълчат, безплатният обектив ще покаже готов генерален план без забавяне
  8. Ако говорителят се промени отново, безплатният обектив ще тръгне да го търси

Заключение

Според мен това решение, представено на ISE и ISR миналата година, доближава високите технологии – ако не до хората, то до бизнеса със сигурност. Ясно е, че за 400 хиляди рубли малко хора ще купят такава „играчка“ за дома, но за бизнеса, за корпоративни видеоконференции, това е много достъпно и удобно решение на проблема с автоматичното насочване на камера.
Като се има предвид универсалността Гласово проследяване на SmartCam A12, системата може да се използва като решение от нулата или като разширение на функционалността на съществуваща инфраструктура за видеоконференции. Свързването чрез HDMI е голяма стъпка към потребителя, за разлика от собствените системи на гореописаните производители.

Бих искал да благодаря на партньорите, които помогнаха при тестването.
компания IPMatika — за терминал Yealink VC880, заседателна зала и Якушина Юра.
компания Smart-AV — за правото на първи и изключителен преглед на решението и предоставянето на системата Гласово проследяване на SmartCam A12 за тестване.

В последната статия Онлайн дизайнер на зали за срещи - избор на оптимално решение за видеоконферентна връзка, като промоция на уебсайт vc4u.ru и VKS дизайнер ние обявихме 10% отстъпка от цена в указател по кодова дума ХАБР до края на лятото на 2019г.

Отстъпката важи за продукти в следните раздели:

Към решението Гласово проследяване на SmartCam A12 Предлагам допълнителна отстъпка от 5% към вече съществуващите 10% - общо 15% до края на лято 2019г.

Очаквам вашите коментари и отговори в анкетата!

Благодаря ви за вниманието.
С уважение,
Кирил Усиков (Усиков)
Ръководител на
Системи за видеонаблюдение и видеоконференции
[имейл защитен]
stss.ru
vc4u.ru

В анкетата могат да участват само регистрирани потребители. Впиши се, Моля те.

Колко полезно е гласовото проследяване на SmartCam A12?

  • Най-накрая се появи универсално решение за софтуерни и хардуерни терминали!

  • Решението е добро, но има и други налични опции (ще пиша в коментарите)

  • Системата е слаба, не достига до Polycom и Cisco - ще напиша в коментарите защо трябва да платите 3 пъти повече!

  • Кой изобщо се нуждае от автоматично насочване в заседателна зала?

  • Кой изобщо се нуждае от PTZ камера в заседателна зала? — Свързах уеб камерата и всичко беше наред!

8 потребители гласуваха. 5 потребители се въздържаха.

Източник: www.habr.com

Добавяне на нов коментар