Функцыя навядзення камеры па голасе стала даступней – універсальнае рашэнне SmartCam A12 Voice Tracking

Функцыя навядзення камеры па голасе стала даступней – універсальнае рашэнне SmartCam A12 Voice TrackingТэма адсочвання размаўляючага ўдзельніка відэаканферэнцыі, за апошнія некалькі гадоў, моцна набрала абароты. Тэхналогіі дазволілі рэалізаваць складаныя алгарытмы апрацоўкі аўдыё/відэа-інфармацыі ў рэальным часе, што заахвоціла кампанію Polycom, амаль 10 гадоў таму, прадставіць свету першае масавае рашэнне з інтэлектуальным аўтаматычным адсочваннем дакладчыка. Некалькі гадоў ім атрымоўвалася заставацца адзінымі ўладальнікамі падобнага рашэння, але Cisco не прымусілі сябе доўга чакаць, і вывелі на рынак свой варыянт інтэлектуальнай двухкамернай сістэмы, якая склала сумленную канкурэнцыю рашэнню ад Polycom. Шмат гадоў гэты сегмент ВКС быў абмежаваны магчымасцямі некалькіх. прапрыетарных прадуктаў, але гэты артыкул прысвячаецца першаму універсальнаму рашэнню навядзення камеры па голасе, сумяшчальнаму як з апаратнай, так і з праграмнай інфраструктурай ВКС.
Перш чым перайсці да апісання рашэнняў і дэманстрацыі магчымасцяў, я хачу адзначыць важную падзею:
Я ўдастоены гонару прадставіць хабра-супольнасці новы хаб, прысвечаны рашэнням відэаканферэнцсувязі (ВКС). Цяпер, дзякуючы сумесным намаганням (маім і НЛА), Відэаканферэнцсувязь мае свой дом на Хабры, і я запрашаю ўсіх уцягнутых у гэтую шырокую і актуальную на сённяшні дзень тэму падпісвацца на новы хаб.

Два сцэнары навядзення камеры на дакладчыка

Цяпер інтэгратары рашэнняў ВКС выбіраюць сабе два розных шляхі рэалізацыі задачы навядзення на дакладчыка:

  1. Аўтаматычны - інтэлектуальны
  2. Паўаўтаматычны - праграмуемы

Першы варыянт – гэта як раз рашэнні ад Cisco, Polycom і іншых вытворцаў, іх разгледзім ніжэй. Тут мы маем справу з поўнай аўтаматызацыяй навядзення камеры на размаўлялага ўдзельніка відэаканферэнцыі. Унікальныя алгарытмы апрацоўкі аўдыё/відэа-сігналаў дазваляюць камеры абраць неабходнае становішча самастойна.

Другі варыянт – гэта сістэмы аўтаматызацыі на базе розных вонкавых кантролераў кіравання, іх мы разглядаць падрабязна не будзем, т.к. артыкул прысвячаецца якраз аўтаматычнаму адсочванню дакладчыкаў.
Прыхільнікаў другога сцэнара рэалізацыі навядзення камеры нямала, і таму ёсць прычыны. Бывалыя інтэгратары разумеюць, што інтэлектуальныя рашэнні Polycom і Cisco патрабуюць ідэальных умоў эксплуатацыі для штатнай працы аўтаматыкі. Але такія ўмовы забяспечыць не заўсёды магчыма, таму гарантыяй працы сістэмы часам становіцца наступнае рашэнне задачы навядзення камеры:

1. У памяці камеры (ці часам у кантролер кіравання) загадзя ўручную заносяцца ўсе неабходныя пресеты (становішчы паваротнай прылады і кратнасць аптычнага павелічэння). Як правіла, гэта агульны план перагаворнага пакоя, і выгляд кожнага ўдзельніка канферэнцыі ў партрэтным рэжыме.

2. Далей, у зададзеныя месцы ўсталёўваюцца ініцыятары выкліку неабходнага прасэта - гэта альбо мікрафонныя пульты, альбо радыё-кнопкі, увогуле любая прылада, здольнае падаць кантролеру кіравання зразумелы яму сігнал.

3. Кантролер кіравання праграмуецца такім чынам, што кожнаму ініцыятару адпавядае свой прасэт. Агульны план памяшкання - усе ініцыятары выключаны.
У выніку, пры выкарыстанні кангрэс-сістэмы, напрыклад, і кантролера кіравання, дакладчык перш чым пачаць сваю прамову, актывуе свой персанальны мікрафонны пульт. Сістэма кіравання маментальна адпрацоўвае захаванае становішча камеры.

Гэты сцэнар працуе безадмоўна - сістэме не трэба вырабляць галасавую трыянгуляцыю і відэааналітыку. Націснуў кнопку - спрацаваў прасэт, ніякіх затрымак і ілжывых спрацоўванняў.
Сістэмы кіравання і аўтаматызацыі прымяняюцца ў вялікіх, складаных памяшканнях, дзе часам устаноўлена не адна, а некалькі відэакамер. Ну а для малых і сярэдніх перагаворных пакояў цалкам падыходзяць аўтаматычныя сістэмы (калі ёсць бюджэт).
Пачнём з бацькоў-заснавальнікаў.

Polycom EagleEye Director

Функцыя навядзення камеры па голасе стала даступней – універсальнае рашэнне SmartCam A12 Voice TrackingКалісьці гэтае рашэнне зрабіла сенсацыю ў галіне відэаканферэнцсувязі. Polycom EagleEye Director стаў першым рашэннем у вобласці інтэлектуальнага навядзення камеры. Рашэнне складаецца з базавага блока EagleEye Director і дзвюх камер. Асаблівасцю той першай рэалізацыі з'яўляецца тое, што адна камера адводзіцца толькі на буйны від дакладчыка, а другая - на агульны план перагаворнага пакоя. Пры гэтым, камеру агульнага плана можна размясціць наогул асобна ад базы ў іншым месцы перагаворнага пакоя - яна не ўдзельнічае напрамую ў працэсе аўтаматычнага навядзення.
Працуе сістэма наступным чынам:

  1. Актыўная камера агульнага плана памяшкання - усё маўчаць
  2. Дакладчык пачынае казаць – мікрафонны масіў улоўлівае голас, камера рухаецца ў бок гуку, выкарыстоўваючы запатэнтаваную тэхналогію, якая ўключае трыянгуляцыю голасу. Актыўная ўсё яшчэ камера агульнага плана
  3. Асноўная камера пакуль толькі пачынае шукаць крыніцу гуку, праводзячы відэааналітыку. Сістэма вызначае размаўлялага па звязку вока-нос-рот, кадруе карцінку з дакладчыкам і выводзіць на экран паток з асноўнай камеры.
  4. Дакладчык мяняецца. Мікрафонавы масіў разумее, што голас раздаецца з іншага месца. Зноў уключаецца агульны план.
  5. І далей па крузе, пачынаючы з пункта 2
  6. Калі ж новы дакладчык знаходзіцца ў кадры з папярэднім, сістэма вырабляе змену пазіцыянавання "на гарачую", не змяняючы актыўны паток на агульны план.

Мінусам, на мой погляд, з'яўляецца наяўнасць толькі адной асноўнай камеры. Гэта прыводзіць да істотнай затрымкі пры змене дакладчыка. І кожны раз у момант навядзення сістэма ўключае агульны план памяшкання - пры ажыўленай гутарцы гэта мільганне пачынае раздражняць.

Дырэктар Polycom EagleEye II

Функцыя навядзення камеры па голасе стала даступней – універсальнае рашэнне SmartCam A12 Voice TrackingГэта другая версія рашэння ад Polycom, які ўбачыў свет параўнальна нядаўна. Прынцып працы зведаў змены, і стаў больш быць падобным на рашэнне ад Cisco. Цяпер абедзве PTZ-камеры з'яўляюцца асноўнымі і служаць для бясшвоўнага пераключэння каналаў з аднаго дакладчыка на іншага. За агульны план перагаворнага пакоя зараз адказвае асобная камера, інтэграваная ў корпус базавага блока EagleEye Director II. Струмень з гэтай шырокавугольнай камеры навошта-то адлюстроўваецца ў дадатковым акне ў куце экрана, займаючы 1/9 асноўнага струменя. Прынцып пазіцыянавання той жа - галасавая трыянгуляцыя і аналіз відэаструменю. І вузкія месцы тыя ж: калі сістэма не ўбачыць размаўлялы рот - камера не навядзецца. А такая сітуацыя можа адбыцца вельмі часта - дакладчык адвярнуўся, дакладчык павярнуўся бокам, дакладчык - нутрамоўцаў, дакладчык засланіў рот рукой або дакументам.
Абодва прома-роліка зняты пісьменна — 2 чалавекі, гавораць па чарзе, а рот адкрываюць як на прыёме ў лагапеда. Але нават у такіх рафінаваных умовах назіраецца вельмі істотная затрымка. Але, затое кадраванне бездакорна - камфортны партрэтны план.

Cisco TelePresence SpeakerTrack 60

Функцыя навядзення камеры па голасе стала даступней – універсальнае рашэнне SmartCam A12 Voice TrackingДля апісання гэтага рашэння я скарыстаюся тэкстам з афіцыйнай брашуры.
У SpeakerTrack 60 прымяняецца унікальны падыход з выкарыстаннем двух камер для хуткага прамога пераключэння паміж удзельнікамі. Адна камера хутка знаходзіць буйны план актыўнага дакладчыка, а іншая шукае і адлюстроўвае наступнага дакладчыка. Функцыя MultiSpeaker прадухіляе непатрэбнае пераключэнне, калі наступны дакладчык ужо прысутнічае ў бягучым кадры.
Нажаль, у мяне не было магчымасці пратэставаць SpeakerTrack 60 самастойна. Таму высновы даводзіцца рабіць на думку "з палёў" і па выніках разбору дэманстрацыйнага відэа ніжэй. Налічыў максімальную затрымку амаль 8 секунд пры навядзенні на новага дакладчыка. Сярэдняя затрымка склала 2-3 секунды, мяркуючы па відэа.

HUAWEI Intelligent Tracking Video Camera VPT300

Функцыя навядзення камеры па голасе стала даступней – універсальнае рашэнне SmartCam A12 Voice TrackingНа гэтае рашэнне ад Huawei я натыкнуўся выпадкова. Кошт сістэмы складае каля $9K. Працуе толькі з тэрміналамі Huawei. Распрацоўнікі дадалі сваю «фішку» - кампаноўка на адзін экран відэа ад двух дакладчыкаў, калі ў пакоі больш нікога няма. Па характарыстыках і заяўленым функцыянале - гэта вельмі цікавы варыянт сістэмы аўтаматычнага навядзення. Але, нажаль, я не знайшоў абсалютна ніякага дэманстрацыйнага матэрыялу. Адзіны ролік, які выпаў на гэтую тэму - гэта мантаваны відэа агляд рашэння, без арыгінальнага гуку, пад музыку. Такім чынам, ацаніць якасць працы сістэмы не ўявілася магчымым. Па гэтай прычыне я не буду разглядаць гэты варыянт.
Я бачу, што кампанія Huawei мае дзейны блог на Хабры - можа быць калегі змогуць апублікаваць якую-небудзь карысную інфармацыі па гэтым прадукце.

Навінка - універсальнае рашэнне SmartCam A12 Voice Tracking

Функцыя навядзення камеры па голасе стала даступней – універсальнае рашэнне SmartCam A12 Voice TrackingSmartCam A12VT - манаблок, які ўключае дзве PTZ-камеры для адсочвання дакладчыкаў, дзве ўбудаваныя камеры для аналітыкі агульнага плана памяшкання, а таксама мікрафонавы масіў, убудаваны ў падмурак корпуса – як бачыце няма ніякіх грувасткіх і далікатных канструкцый, як у апанентаў.
Перш чым прыступіць да апісання новага прадукта, я збяру разам характарыстыкі і асаблівасці рашэнняў ад Cisco і Polycom, каб можна было параўнаць SmartCam A12VT з існуючымі прапановамі.

Polycom EagleEye Director

  • Рознічны кошт сістэмы без тэрмінала $ 13K
  • Мінімальны кошт рашэння EagleEye Director + RealPresence Group 500 $ 19K
  • Сярэдняя затрымка на пераключэнне 3 секунды
  • Навядзенне па голасе + відэааналітыка
  • Высокія патрабаванні да твару дакладчыка - нельга хаваць рот
  • Несумяшчальнасць з абсталяваннем іншых вытворцаў

Cisco TelePresence SpeakerTrack 60

  • Рознічны кошт сістэмы без тэрмінала $ 15,9K
  • Мінімальны кошт рашэння TelePresence SpeakerTrack 60 + SX80 Codec $ 30K
  • Сярэдняя затрымка на пераключэнне 3 секунды
  • Навядзенне па голасе + відэааналітыка
  • Патрабаванні да твару дакладчыка - не правяраў, інфармацыі не знайшоў
  • Несумяшчальнасць з абсталяваннем іншых вытворцаў

SmartCam A12 Voice Tracking

  • Рознічны кошт сістэмы без тэрмінала $ 6,2K
  • Мінімальны кошт рашэння SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Мінімальны кошт рашэння SmartCam A12VT+ праграмны тэрмінал - $ 7,7K
  • Сярэдняя затрымка на пераключэнне 3 секунды
  • Навядзенне па голасе + відэааналітыка
  • Патрабаванні да твару дакладчыка - патрабаванняў няма
  • Сумяшчальнасць з абсталяваннем іншых вытворцаў - HDMI

У якасці двух асноўных і бясспрэчных пераваг рашэння SmartCam A12 Voice Tracking я знаходжу:

  1. Універсальнасць падключэння - праз HDMI сістэма інтэгруецца як з апаратнымі, так і з праграмнымі тэрмінальнымі сістэмамі ВКС
  2. нізкі кошт - Пры аналагічным функцыянале, A12VT у разы даступней па бюджэце, чым вышэйапісаныя прапановы.

Для дэманстрацыі працы сістэмы мы запісалі відэа-агляд. Задача стаяла не столькі рэкламная, колькі функцыянальная. Таму ролік пазбаўлены пафасу палікамаўскага прома-відэа. У якасці месца правядзення прэзентацыі быў абраны не прадстаўнічы, а лабараторны перагаворны пакой нашага партнёра — кампаніі АйПіМатыка.
У мяне была мэта не схаваць агрэхі сістэмы, а наадварот - агаліць вузкія месцы функцыяналу, прымусіць сістэму памыліцца.

На мой погляд, сістэма прайшла выпрабаванні паспяхова. Я заяўляю гэта ўпэўнена, таму што на момант напісання гэтага артыкула, рашэнне SmartCam A12 Voice Tracking наведала дзясятак рэальных перагаворных пакояў нашых заказчыкаў. Парушэнне працы аўтаматыкі назіраліся выключна ва ўмовах парушэння рэкамендаваных правіл эксплуатацыі. У прыватнасці - мінімальнай адлегласці да блізкіх удзельнікаў. Калі сядзець зусім блізка да камеры, менш за метр - мікрафонавы масіў не зможа Вас распазнаць, а аб'ектыў адсачыць.

Функцыя навядзення камеры па голасе стала даступней – універсальнае рашэнне SmartCam A12 Voice Tracking

Апроч адлегласці, ёсць яшчэ іншае патрабаванне - вышыня ўсталёўкі камеры.

Функцыя навядзення камеры па голасе стала даступней – універсальнае рашэнне SmartCam A12 Voice Tracking

Калі камеру ўсталяваць занізкае — могуць узнікнуць праблемы з пазіцыянаваннем па голасе. Варыянт пад тэлевізарам, нажаль, не спрацаваў.
А вось мантаж сістэмы над сродкам адлюстравання - ідэальны варыянт працы прылады. Паліца для камеры ідзе ў камплекце, штатна падтрымліваецца толькі насценнае мацаванне.

Прынцып працы SmartCam A12 Voice Tracking

Асноўныя PTZ-аб'ектывы маюць роўныя ролі - іх задача па чарзе адсочваць дакладчыкаў і адлюстроўваць агульны план. Аналітыка агульнай карціны ў пакоі і вызначэнне адлегласці да аб'ектаў вырабляецца з выкарыстаннем відэа патокаў, атрыманых з дзвюх камер, інтэграваных у падставу сістэмы. Гэтая асаблівасць дазваляе скараціць час рэакцыі аб'ектыва, пры змене дакладчыка, да 1-2 секунд. Камера паспявае ў камфортным рытме чаргаваць удзельнікаў, нават калі яны абменьваюцца кароткімі прапановамі.
Відэа-дэманстрацыя працы сістэмы ў поўнай меры адлюстроўвае функцыянальныя магчымасці SmartCam A12VT. Але, для тых хто не глядзеў ролік, я словамі апішу прынцып працы аўтаматыкі:

  1. Пакой пусты: адзін з аб'ектываў паказвае агульны план, другі на гатовы - чакае людзей
  2. Людзі ўваходзяць у пакой і рассаджваюцца: вольны аб'ектыў знаходзіць двух крайніх удзельнікаў і кадруе малюнак па іх, абразаючы пустую частку пакоя.
  3. Пакуль людзі ў руху, аб'ектывы па чарзе адсочваюць усіх у пакоі, захоўваючы іх у цэнтры кадра
  4. Дакладчык пачынае казаць: актыўны аб'ектыў, настроены на агульны план. Другі наводзіцца на размаўлялага, а толькі затым пераходзіць у рэжым трансляцыі.
  5. Дакладчык мяняецца: актыўны аб'ектыў, настроены на першага дакладчыка, а другі аб'ектыў кідае агульны план і настройваецца на новага дакладчыка.
  6. У момант пераключэння карцінкі з першага дакладчыка на другога, вольны аб'ектыў маментальна наладжваецца на агульны план памяшкання.
  7. Калі ўсё змоўкнуць - вольны аб'ектыў пакажа ўжо гатовы агульны план без якіх-небудзь затрымак
  8. Калі ж дакладчык зменіцца зноў - вольны аб'ектыў адправіцца на яго пошукі

Заключэнне

На мой погляд, гэтае рашэнне, прадстаўленае на ISE і ISR летась, робіць высокія тэхналогіі бліжэй - калі не да народа, то да бізнэсу дакладна. Зразумелая справа, што за 400 тысяч рублёў, мала хто купіць дадому такую ​​«цацку», але для бізнэсу, для карпаратыўнай відэаканферэнцсувязі – гэта вельмі даступнае і зручнае рашэнне задачы аўтанавядзення камеры.
Улічваючы ўніверсальнасць SmartCam A12 Voice Tracking, сістэму можна выкарыстоўваць у якасці рашэння з нуля, або ў якасці пашырэння функцыяналу ўжо існуючай інфраструктуры ВКС. Падключэнне па HDMI - гэта вялікі крок у бок карыстальніка, у адрозненне ад прапрыетарных сістэм вышэйапісаных вытворцаў.

Хачу падзякаваць партнёрам, якія аказалі дапамогу ў тэсціраванні.
Кампанію АйПіМатика — за тэрмінал Yealink VC880, перагаворны пакой і Якушына Юру.
Кампанію Смарт-АВ - за права першага і эксклюзіўнага агляду рашэння і прадастаўленне сістэмы SmartCam A12 Voice Tracking на тэсціраванне.

У мінулым артыкуле Анлайн-канструктар перагаворнага пакоя - падбор аптымальнага рашэння ВКС, у якасці прасоўвання сайта vc4u.ru и Канструктара ВКС мы аб'яўлялі аб скідцы 10% ад цаны ў каталогу па кодавым слове HABR да канца лета 2019 года.

Зніжка распаўсюджваецца на тавары ў раздзелах:

На рашэнне SmartCam A12 Voice Tracking прапаную дадатковую зніжку 5% да ўжо наяўных 10% - разам 15% да канца лета 2019 гады.

Чакаю Вашых каментароў і адказаў у апытанні!

Дзякуй за ўвагу.
З павагай,
Кірыл Вусікаў (Usikoff)
Кіраўнік кірунку
Сістэмы відэаназірання і відэаканферэнцсувязі
[электронная пошта абаронена]
stss.ru
vc4u.ru

Толькі зарэгістраваныя карыстачы могуць удзельнічаць у апытанні. Увайдзіце, Калі ласка.

Наколькі карысная сістэма SmartCam A12 Voice Tracking?

  • Нарэшце з'явілася ўніверсальнае рашэнне для праграмных і апаратных тэрміналаў!

  • Рашэнне добрае, але ёсць і іншыя даступныя варыянты (напішу ў каментарах)

  • Слабаватая сістэма, не дацягвае да Polycom і Cisco – напішу ў каментарах чаму варта заплаціць у 3 разы больш!

  • Ды каму наогул патрэбна аўтанавядзенне ў перагаворным пакоі?

  • Ды каму ўвогуле патрэбна PTZ-камера ў перагаворцы? - падлучыў вэбку і нормаў!

Прагаласавалі 8 карыстальнікаў. Устрымаліся 5 карыстальнікаў.

Крыніца: habr.com

Дадаць каментар