Функцијата за насочување на камерата со глас стана подостапна - универзалното решение SmartCam A12 Voice Tracking

Функцијата за насочување на камерата со глас стана подостапна - универзалното решение SmartCam A12 Voice TrackingТемата за следење на учесник што зборува на видео конференција доби на интензитет во текот на изминатите неколку години. Технологијата овозможи да се имплементираат сложени алгоритми за обработка на аудио/видео информации во реално време, што го поттикна Polycom, пред речиси 10 години, да го претстави првото светско мејнстрим решение со интелигентно автоматско следење на звучниците. Неколку години успеваа да останат единствените сопственици на такво решение, но Cisco не мораше долго да чека и на пазарот ја донесе својата верзија на интелигентен систем со две камери, кој беше фер конкурент на решението од Polycom. Долги години, овој сегмент од видеоконференции беше ограничен од можностите на неколку комерцијален производи, но овој напис е посветен на првиот универзална решение за гласовно водење на камерата, компатибилно и со хардверска и со софтверска инфраструктура за видео конференции.
Пред да преминам на опишување решенија и демонстрација на способности, сакам да забележам важен настан:
Чест ми е да се претставам на заедницата Хабра нов центар, посветен на решенија за видеоконференции (VCC). Сега, благодарение на заедничките напори (мој и НЛО), Видео конференција има свој дом на Хабре, и ги поканувам сите вклучени во оваа обемна и актуелна тема да се претплатат нов центар.

Две сценарија за насочување на камерата кон звучникот

Во моментот, интеграторите на решенијата за видео конференции сами избираат два различни начини за спроведување на задачата за таргетирање на презентерот:

  1. Автоматско - интелигентно
  2. Полуавтоматски - програмабилен

Првата опција е само решенија од Cisco, Polycom и други производители; ние ќе ги разгледаме подолу. Овде се работи за целосна автоматизација на насочување на камерата кон учесникот кој зборува на видео конференцијата. Уникатните алгоритми за обработка на аудио/видео сигнали овозможуваат камерата самостојно да ја избере саканата позиција.

Втората опција е системи за автоматизација базирани на различни контролори за надворешна контрола; ние нема да ги разгледаме детално, бидејќи Статијата е посветена конкретно на автоматско следење на звучниците.
Има доста поддржувачи на второто сценарио за спроведување на насочување на камерата, а има и причини за тоа. Искусните интегратори разбираат дека интелигентните решенија од Polycom и Cisco бараат идеални работни услови за правилно функционирање на автоматизацијата. Но, не е секогаш можно да се обезбедат такви услови, така што работата на системот понекогаш е загарантирана со следново решение за проблемот со покажувањето на камерата:

1. Сите потребни претходно поставени поставки (позиции на уредот PTZ и факторот на оптички зум) рачно се внесуваат однапред во меморијата на фотоапаратот (или понекогаш во контролниот контролер). Како по правило, ова е генерален план на просторијата за состаноци и поглед на секој учесник во конференцијата во режим на портрет.

2. Следно, на наведените места се инсталирани иницијаторите за повикување на потребната поставеност - тоа се или конзоли за микрофон или радио копчиња, воопшто, секој уред што може да му обезбеди на контролниот контролер сигнал што го разбира.

3. Контролниот контролер е програмиран на таков начин што секој иницијатор има свој претходно поставен. Генерален план на просторијата - сите иницијатори се исклучени.
Како резултат на тоа, кога користи конгресен систем, на пример, и контролен контролер, говорникот, пред да го започне својот говор, ја активира својата лична конзола за микрофон. Контролниот систем веднаш ја обработува зачуваната позиција на камерата.

Ова сценарио функционира беспрекорно - системот не треба да врши гласовна триаголација и видео аналитика. Го притиснав копчето и претходно поставеното функционираше, без доцнења или лажни позитиви.
Системите за контрола и автоматизација се користат во големи, сложени простории, каде што понекогаш се инсталирани не една, туку неколку видео камери. Па, за мали и средни сали за состаноци, автоматските системи се сосема соодветни (ако имате буџет).
Да почнеме со татковците-основачи.

Директор на Polycom EagleEye

Функцијата за насочување на камерата со глас стана подостапна - универзалното решение SmartCam A12 Voice TrackingОва решение некогаш создаде сензација на полето на видео конференции. Polycom EagleEye Director беше првото решение во областа на интелигентно водење на камерите. Решението се состои од основна единица EagleEye Director и две камери. Особеноста на таа прва имплементација е тоа што една камера е распределена само за поглед одблиску на говорникот, а втората - за генерален план на просторијата за состаноци. Во исто време, камерата со генерален план може да се постави целосно одвоено од основата на друго место во просторијата за состаноци - таа не е директно вклучена во процесот на автоматско водење.
Системот работи на следниов начин:

  1. Општата камера на просторијата е активна - сите молчат
  2. Звучникот почнува да зборува - низата на микрофонот го зема гласот, камерата се движи кон звукот користејќи патентирана технологија која вклучува гласовна триаголност. Општата камера е сè уште активна
  3. Главната камера штотуку почнува да го бара изворот на звук, спроведувајќи видео аналитика. Системот го идентификува звучникот со врската око-нос-уста, ја врамува сликата на звучникот и го прикажува преносот од главната камера
  4. Звучникот се менува. Низата на микрофонот разбира дека гласот доаѓа од друго место. Генералниот план е повторно вклучен.
  5. И потоа во круг, почнувајќи од точка 2
  6. Ако новиот звучник е во рамката со претходниот, системот прави „жешка“ промена на позиционирањето без да го промени активниот проток на општата снимка.

Недостаток, според мене, е присуството на само една главна камера. Ова резултира со значително доцнење при промена на звучниците. И секој пат кога во моментот на покажување, системот го вклучува генералниот план на собата - за време на жив разговор, ова треперење почнува да иритира.

Polycom EagleEye директор II

Функцијата за насочување на камерата со глас стана подостапна - универзалното решение SmartCam A12 Voice TrackingОва е втората верзија на решението од Polycom, кое беше објавено релативно неодамна. Принципот на работа претрпе промени и стана повеќе како решение од Cisco. Сега и двете PTZ камери се главни и служат за беспрекорно менување канали од еден презентер на друг. Општиот распоред на просторијата за состаноци сега е снимен со посебна камера интегрирана во телото на базната единица EagleEye Director II. Поради некоја причина, преносот од оваа широкоаголна камера се прикажува во дополнителен прозорец во аголот на екранот, зафаќајќи 1/9 од главниот тек. Принципот на позиционирање е ист - гласовна триангулација и анализа на видео поток. И тесните грла се исти: ако системот не ја гледа устата што зборува, камерата нема да нишани. И оваа ситуација може да се случи доста често - говорникот се свртел, говорникот се свртел настрана, говорникот е вентрилокст, говорникот ја покрил устата со рака или документ.
Двете промотивни видеа се снимени компетентно - 2 лица зборуваат наизменично, и ја отвораат устата како на состанок со логопед. Но, дури и во такви рафинирани услови има многу значително доцнење. Но, кадрирањето е беспрекорно - удобна снимка на портрет.

Cisco TelePresence SpeakerTrack 60

Функцијата за насочување на камерата со глас стана подостапна - универзалното решение SmartCam A12 Voice TrackingЗа да го опишам ова решение, ќе користам текст од официјалната брошура.
SpeakerTrack 60 користи уникатен пристап со двојна камера за брзо префрлање директно помеѓу учесниците. Едната камера брзо наоѓа одблиску на активниот презентер, додека другата го бара и прикажува следниот презентер. Функцијата MultiSpeaker спречува непотребно префрлување ако следниот звучник е веќе присутен во тековната рамка.
За жал, немав шанса сам да го тестирам SpeakerTrack 60. Затоа, треба да се извлечат заклучоци врз основа на мислењето „од теренот“ и врз основа на резултатите од анализата на видеото за демонстрација подолу. Избројав максимално доцнење од скоро 8 секунди кога покажував кон нов презентер. Просечното доцнење беше 2-3 секунди, судејќи според видеото.

HUAWEI Интелигентна видео камера за следење VPT300

Функцијата за насочување на камерата со глас стана подостапна - универзалното решение SmartCam A12 Voice TrackingСлучајно наидов на ова решение од Huawei. Системот чини околу 9 илјади долари. Работи само со терминали на Huawei. Програмерите додадоа свој „трик“ - распоред на видео од два звучници на еден екран ако нема никој друг во собата. Во однос на карактеристиките и декларираната функционалност, ова е многу интересна верзија на системот за автоматско водење. Но, за жал, не најдов апсолутно никаков демо материјал. Единственото видео што се појави на оваа тема беше монтиран видео преглед на решението, без оригинален звук, поставен на музика. Така, не беше можно да се оцени квалитетот на системот. Поради оваа причина, нема да ја разгледам оваа опција.
Гледам дека Huawei има активен блог на Habré - можеби колегите ќе можат да објават некои корисни информации за овој производ.

Ново - универзално решение Следење глас SmartCam A12

Функцијата за насочување на камерата со глас стана подостапна - универзалното решение SmartCam A12 Voice TrackingSmartCam A12VT - моноблок, вклучувајќи две PTZ камери за следење звучници, две вградени камери за анализа на општиот распоред на просторијата, како и низа микрофони вградени во основата на куќиштето - како што можете да видите, нема гломазни и кревки структури како оние на противниците.
Пред да почнам да го опишувам новиот производ, ќе ги составам карактеристиките и карактеристиките на решенијата од Cisco и Polycom за да можам да споредам SmartCam A12VT со постоечки понуди.

Директор на Polycom EagleEye

  • Трошоци за малопродажба на системот без терминал - $ 13K
  • Минимална цена на решението EagleEye Director + RealPresence Group 500 - $ 19K
  • Просечно доцнење на префрлување 3 секунди
  • Гласовно водство + видео аналитика
  • Високи барања на лицето на говорникот - не можете да ја скриете устата
  • Некомпатибилност со опрема од трета страна

Cisco TelePresence SpeakerTrack 60

  • Трошоци за малопродажба на системот без терминал - $ 15,9K
  • Минимална цена на решението TelePresence SpeakerTrack 60 + SX80 Codec - $ 30K
  • Просечно доцнење на префрлување 3 секунди
  • Гласовно водство + видео аналитика
  • Барања за лицето на говорникот - не провери, не најде информации
  • Некомпатибилност со опрема од трета страна

Следење глас SmartCam A12

  • Трошоци за малопродажба на системот без терминал - $ 6,2K
  • Минимална цена на решението SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Минимална цена на решението Софтверски терминал SmartCam A12VT+ - $ 7,7K
  • Просечно доцнење на префрлување 3 секунди
  • Гласовно водство + видео аналитика
  • Барања за лицето на говорникот - нема барања
  • Компатибилност со трета страна - HDMI

Како две главни и непобитни предности на решението Следење глас SmartCam A12 Јас наоѓам:

  1. Разновидност на поврзување — преку HDMI, системот се интегрира и со хардверски и со софтверски терминални системи за видео конференции
  2. Ниска цена — со слична функционалност, A12VT е многу пати попристапен со буџет од предлозите опишани погоре.

За да покажеме како функционира системот, снимивме видео преглед. Задачата не беше толку рекламна колку функционална. Затоа, видеото е лишено од патосот на промотивното видео на Polycom. Местото кое беше избрано за презентација не беше претставништво, туку лабораториска сала за состаноци на нашиот партнер, компанијата IPMatika.
Целта не ми беше да ги кријам недостатоците на системот, туку, напротив, да ги разоткријат тесните грла на функционалноста, да го принудам системот да греши.

Според мене, системот успешно ги помина тестовите. Ова го кажувам со сигурност бидејќи во моментот на пишување на овој напис, решението Следење глас SmartCam A12 посетија десетина вистински сали за состаноци на нашите клиенти. Неисправностите на автоматизацијата беа забележани исклучиво во услови на прекршување на препорачаните правила за работа. Особено, минималното растојание до блиските учесници. Ако седите многу блиску до камерата, помалку од еден метар, низата на микрофонот нема да може да ве препознае и објективот нема да може да ве следи.

Функцијата за насочување на камерата со глас стана подостапна - универзалното решение SmartCam A12 Voice Tracking

Покрај растојанието, постои уште едно барање - висината на камерата.

Функцијата за насочување на камерата со глас стана подостапна - универзалното решение SmartCam A12 Voice Tracking

Ако камерата е инсталирана премногу ниско, може да се појават проблеми со позиционирањето на гласот. Опцијата под телевизорот, за жал, не функционираше.
Но, инсталирањето на системот над уред за прикажување е идеален начин за работа на уредот. Полицата за камерата е вклучена; само ѕидниот носач е поддржан стандардно.

Како функционира Следење глас SmartCam A12

Главните PTZ леќи имаат еднакви улоги - нивната задача е наизменично да ги следат презентерите и да го прикажуваат целокупниот план. Анализата на целокупната слика во просторијата и одредувањето на растојанието до предметите се врши со помош на видео стримови добиени од две камери интегрирани во основата на системот. Оваа функција ви овозможува да го намалите времето на реакција на објективот при менување на звучникот на 1-2 секунди. Камерата успева наизменично да се менува меѓу учесниците во удобен ритам, дури и ако тие разменуваат кратки реченици.
Видео демонстрација на работата на системот целосно ја одразува функционалноста SmartCam A12VT. Но, за оние кои не го гледале видеото, ќе го опишам со зборови принципот на работа на автоматизацијата:

  1. Собата е празна: една од леќите го покажува генералниот план, втората е подготвена - чека луѓе
  2. Луѓето влегуваат во собата и седнуваат: бесплатната леќа ги наоѓа двајцата екстремни учесници и ја врамува сликата околу нив, отсекувајќи го празниот дел од собата
  3. Додека луѓето се движат, леќите наизменично ги следат сите во собата, држејќи ги во центарот на кадарот
  4. Говорникот почнува да зборува: објективот е активен, приспособен на генералниот план. Вториот е насочен кон звучникот и дури потоа оди во режим на емитување
  5. Звучникот се менува: објективот приспособен на првиот звучник е активен, а вториот објектив ја испушта широката снимка и се прилагодува на новиот звучник
  6. Во моментот на префрлување на сликата од првиот на вториот звучник, слободниот објектив веднаш се прилагодува на генералниот план на просторијата
  7. Ако сите молчат, бесплатната леќа ќе прикаже готов генерален план без никакви одложувања
  8. Ако звучникот повторно се смени, слободната леќа ќе тргне во потрага по него

Заклучок

Според мене, ова решение, претставено на ISE и ISR минатата година, ја доближува високата технологија - ако не до луѓето, тогаш сигурно до бизнисот. Јасно е дека за 400 илјади рубли, малку луѓе ќе купат таква „играчка“ за дома, но за бизнис, за корпоративни видео конференции, ова е многу прифатливо и практично решение за проблемот со автоматско насочување на камерата.
Со оглед на разновидноста Следење глас SmartCam A12, системот може да се користи како решение од почеток, или како продолжување на функционалноста на постоечката инфраструктура за видео конференции. Поврзувањето преку HDMI е голем чекор кон корисникот, за разлика од сопствените системи на горенаведените производители.

Би сакал да им се заблагодарам на партнерите кои помогнаа во тестирањето.
компанија IPMatika — за терминалот Yealink VC880, сала за состаноци и Yakushina Yura.
компанија Smart-AV — за правото на прв и ексклузивен преглед на решението и обезбедувањето на системот Следење глас SmartCam A12 за тестирање.

Во последната статија Дизајнер на онлајн сала за состаноци - избор на оптимално решение за видео конференции, како промоција на веб-страница vc4u.ru и VKS дизајнер објавивме 10% попуст од цена во директориум со коден збор HABR до крајот на летото 2019 година.

Попустот се однесува на производите во следните делови:

До одлуката Следење глас SmartCam A12 Нудам дополнителен попуст од 5% на веќе постоечките 10% - вкупно 15% до крајот на летото 2019 година.

Со нетрпение ги очекувам вашите коментари и одговори во анкетата!

Ви благодариме за вашето внимание.
Со почит,
Кирил Усиков (Усикоф)
Шефот на
Системи за видео надзор и видео конференции
[заштитена по е-пошта]
stss.ru
vc4u.ru

Само регистрирани корисници можат да учествуваат во анкетата. Најави се, вие сте добредојдени.

Колку е корисно следењето глас SmartCam A12?

  • Конечно се појави универзално решение за софтверски и хардверски терминали!

  • Решението е добро, но има и други достапни опции (ќе напишам во коментарите)

  • Системот е слаб, не стигнува до Polycom и Cisco - ќе напишам во коментарите зошто треба да платите 3 пати повеќе!

  • Кому и онака му треба автоматско водство во сала за состаноци?

  • Кому и онака му треба PTZ камера во сала за состаноци? — Ја поврзав веб камерата и беше во ред!

Гласаа 8 корисници. 5 корисници беа воздржани.

Извор: www.habr.com

Додадете коментар