ProHoster > блог > адміністраванне > Функцыя навядзення камеры па голасе стала даступней – універсальнае рашэнне SmartCam A12 Voice Tracking
Функцыя навядзення камеры па голасе стала даступней – універсальнае рашэнне SmartCam A12 Voice Tracking
Тэма адсочвання размаўляючага ўдзельніка відэаканферэнцыі, за апошнія некалькі гадоў, моцна набрала абароты. Тэхналогіі дазволілі рэалізаваць складаныя алгарытмы апрацоўкі аўдыё/відэа-інфармацыі ў рэальным часе, што заахвоціла кампанію Polycom, амаль 10 гадоў таму, прадставіць свету першае масавае рашэнне з інтэлектуальным аўтаматычным адсочваннем дакладчыка. Некалькі гадоў ім атрымоўвалася заставацца адзінымі ўладальнікамі падобнага рашэння, але Cisco не прымусілі сябе доўга чакаць, і вывелі на рынак свой варыянт інтэлектуальнай двухкамернай сістэмы, якая склала сумленную канкурэнцыю рашэнню ад Polycom. Шмат гадоў гэты сегмент ВКС быў абмежаваны магчымасцямі некалькіх. прапрыетарных прадуктаў, але гэты артыкул прысвячаецца першаму універсальнаму рашэнню навядзення камеры па голасе, сумяшчальнаму як з апаратнай, так і з праграмнай інфраструктурай ВКС.
Перш чым перайсці да апісання рашэнняў і дэманстрацыі магчымасцяў, я хачу адзначыць важную падзею: Я ўдастоены гонару прадставіць хабра-супольнасці новы хаб, прысвечаны рашэнням відэаканферэнцсувязі (ВКС). Цяпер, дзякуючы сумесным намаганням (маім і НЛА), Відэаканферэнцсувязь мае свой дом на Хабры, і я запрашаю ўсіх уцягнутых у гэтую шырокую і актуальную на сённяшні дзень тэму падпісвацца на новы хаб.
Два сцэнары навядзення камеры на дакладчыка
Цяпер інтэгратары рашэнняў ВКС выбіраюць сабе два розных шляхі рэалізацыі задачы навядзення на дакладчыка:
Аўтаматычны - інтэлектуальны
Паўаўтаматычны - праграмуемы
Першы варыянт – гэта як раз рашэнні ад Cisco, Polycom і іншых вытворцаў, іх разгледзім ніжэй. Тут мы маем справу з поўнай аўтаматызацыяй навядзення камеры на размаўлялага ўдзельніка відэаканферэнцыі. Унікальныя алгарытмы апрацоўкі аўдыё/відэа-сігналаў дазваляюць камеры абраць неабходнае становішча самастойна.
Другі варыянт – гэта сістэмы аўтаматызацыі на базе розных вонкавых кантролераў кіравання, іх мы разглядаць падрабязна не будзем, т.к. артыкул прысвячаецца якраз аўтаматычнаму адсочванню дакладчыкаў.
Прыхільнікаў другога сцэнара рэалізацыі навядзення камеры нямала, і таму ёсць прычыны. Бывалыя інтэгратары разумеюць, што інтэлектуальныя рашэнні Polycom і Cisco патрабуюць ідэальных умоў эксплуатацыі для штатнай працы аўтаматыкі. Але такія ўмовы забяспечыць не заўсёды магчыма, таму гарантыяй працы сістэмы часам становіцца наступнае рашэнне задачы навядзення камеры:
1. У памяці камеры (ці часам у кантролер кіравання) загадзя ўручную заносяцца ўсе неабходныя пресеты (становішчы паваротнай прылады і кратнасць аптычнага павелічэння). Як правіла, гэта агульны план перагаворнага пакоя, і выгляд кожнага ўдзельніка канферэнцыі ў партрэтным рэжыме.
2. Далей, у зададзеныя месцы ўсталёўваюцца ініцыятары выкліку неабходнага прасэта - гэта альбо мікрафонныя пульты, альбо радыё-кнопкі, увогуле любая прылада, здольнае падаць кантролеру кіравання зразумелы яму сігнал.
3. Кантролер кіравання праграмуецца такім чынам, што кожнаму ініцыятару адпавядае свой прасэт. Агульны план памяшкання - усе ініцыятары выключаны.
У выніку, пры выкарыстанні кангрэс-сістэмы, напрыклад, і кантролера кіравання, дакладчык перш чым пачаць сваю прамову, актывуе свой персанальны мікрафонны пульт. Сістэма кіравання маментальна адпрацоўвае захаванае становішча камеры.
Гэты сцэнар працуе безадмоўна - сістэме не трэба вырабляць галасавую трыянгуляцыю і відэааналітыку. Націснуў кнопку - спрацаваў прасэт, ніякіх затрымак і ілжывых спрацоўванняў.
Сістэмы кіравання і аўтаматызацыі прымяняюцца ў вялікіх, складаных памяшканнях, дзе часам устаноўлена не адна, а некалькі відэакамер. Ну а для малых і сярэдніх перагаворных пакояў цалкам падыходзяць аўтаматычныя сістэмы (калі ёсць бюджэт).
Пачнём з бацькоў-заснавальнікаў.
Polycom EagleEye Director
Калісьці гэтае рашэнне зрабіла сенсацыю ў галіне відэаканферэнцсувязі. Polycom EagleEye Director стаў першым рашэннем у вобласці інтэлектуальнага навядзення камеры. Рашэнне складаецца з базавага блока EagleEye Director і дзвюх камер. Асаблівасцю той першай рэалізацыі з'яўляецца тое, што адна камера адводзіцца толькі на буйны від дакладчыка, а другая - на агульны план перагаворнага пакоя. Пры гэтым, камеру агульнага плана можна размясціць наогул асобна ад базы ў іншым месцы перагаворнага пакоя - яна не ўдзельнічае напрамую ў працэсе аўтаматычнага навядзення.
Працуе сістэма наступным чынам:
Актыўная камера агульнага плана памяшкання - усё маўчаць
Дакладчык пачынае казаць – мікрафонны масіў улоўлівае голас, камера рухаецца ў бок гуку, выкарыстоўваючы запатэнтаваную тэхналогію, якая ўключае трыянгуляцыю голасу. Актыўная ўсё яшчэ камера агульнага плана
Асноўная камера пакуль толькі пачынае шукаць крыніцу гуку, праводзячы відэааналітыку. Сістэма вызначае размаўлялага па звязку вока-нос-рот, кадруе карцінку з дакладчыкам і выводзіць на экран паток з асноўнай камеры.
Дакладчык мяняецца. Мікрафонавы масіў разумее, што голас раздаецца з іншага месца. Зноў уключаецца агульны план.
І далей па крузе, пачынаючы з пункта 2
Калі ж новы дакладчык знаходзіцца ў кадры з папярэднім, сістэма вырабляе змену пазіцыянавання "на гарачую", не змяняючы актыўны паток на агульны план.
Мінусам, на мой погляд, з'яўляецца наяўнасць толькі адной асноўнай камеры. Гэта прыводзіць да істотнай затрымкі пры змене дакладчыка. І кожны раз у момант навядзення сістэма ўключае агульны план памяшкання - пры ажыўленай гутарцы гэта мільганне пачынае раздражняць.
Дырэктар Polycom EagleEye II
Гэта другая версія рашэння ад Polycom, які ўбачыў свет параўнальна нядаўна. Прынцып працы зведаў змены, і стаў больш быць падобным на рашэнне ад Cisco. Цяпер абедзве PTZ-камеры з'яўляюцца асноўнымі і служаць для бясшвоўнага пераключэння каналаў з аднаго дакладчыка на іншага. За агульны план перагаворнага пакоя зараз адказвае асобная камера, інтэграваная ў корпус базавага блока EagleEye Director II. Струмень з гэтай шырокавугольнай камеры навошта-то адлюстроўваецца ў дадатковым акне ў куце экрана, займаючы 1/9 асноўнага струменя. Прынцып пазіцыянавання той жа - галасавая трыянгуляцыя і аналіз відэаструменю. І вузкія месцы тыя ж: калі сістэма не ўбачыць размаўлялы рот - камера не навядзецца. А такая сітуацыя можа адбыцца вельмі часта - дакладчык адвярнуўся, дакладчык павярнуўся бокам, дакладчык - нутрамоўцаў, дакладчык засланіў рот рукой або дакументам.
Абодва прома-роліка зняты пісьменна — 2 чалавекі, гавораць па чарзе, а рот адкрываюць як на прыёме ў лагапеда. Але нават у такіх рафінаваных умовах назіраецца вельмі істотная затрымка. Але, затое кадраванне бездакорна - камфортны партрэтны план.
Cisco TelePresence SpeakerTrack 60
Для апісання гэтага рашэння я скарыстаюся тэкстам з афіцыйнай брашуры. У SpeakerTrack 60 прымяняецца унікальны падыход з выкарыстаннем двух камер для хуткага прамога пераключэння паміж удзельнікамі. Адна камера хутка знаходзіць буйны план актыўнага дакладчыка, а іншая шукае і адлюстроўвае наступнага дакладчыка. Функцыя MultiSpeaker прадухіляе непатрэбнае пераключэнне, калі наступны дакладчык ужо прысутнічае ў бягучым кадры.
Нажаль, у мяне не было магчымасці пратэставаць SpeakerTrack 60 самастойна. Таму высновы даводзіцца рабіць на думку "з палёў" і па выніках разбору дэманстрацыйнага відэа ніжэй. Налічыў максімальную затрымку амаль 8 секунд пры навядзенні на новага дакладчыка. Сярэдняя затрымка склала 2-3 секунды, мяркуючы па відэа.
HUAWEI Intelligent Tracking Video Camera VPT300
На гэтае рашэнне ад Huawei я натыкнуўся выпадкова. Кошт сістэмы складае каля $9K. Працуе толькі з тэрміналамі Huawei. Распрацоўнікі дадалі сваю «фішку» - кампаноўка на адзін экран відэа ад двух дакладчыкаў, калі ў пакоі больш нікога няма. Па характарыстыках і заяўленым функцыянале - гэта вельмі цікавы варыянт сістэмы аўтаматычнага навядзення. Але, нажаль, я не знайшоў абсалютна ніякага дэманстрацыйнага матэрыялу. Адзіны ролік, які выпаў на гэтую тэму - гэта мантаваны відэа агляд рашэння, без арыгінальнага гуку, пад музыку. Такім чынам, ацаніць якасць працы сістэмы не ўявілася магчымым. Па гэтай прычыне я не буду разглядаць гэты варыянт.
Я бачу, што кампанія Huawei мае дзейны блог на Хабры - можа быць калегі змогуць апублікаваць якую-небудзь карысную інфармацыі па гэтым прадукце.
SmartCam A12VT - манаблок, які ўключае дзве PTZ-камеры для адсочвання дакладчыкаў, дзве ўбудаваныя камеры для аналітыкі агульнага плана памяшкання, а таксама мікрафонавы масіў, убудаваны ў падмурак корпуса – як бачыце няма ніякіх грувасткіх і далікатных канструкцый, як у апанентаў.
Перш чым прыступіць да апісання новага прадукта, я збяру разам характарыстыкі і асаблівасці рашэнняў ад Cisco і Polycom, каб можна было параўнаць SmartCam A12VT з існуючымі прапановамі.
Polycom EagleEye Director
Рознічны кошт сістэмы без тэрмінала $ 13K
Мінімальны кошт рашэння EagleEye Director + RealPresence Group 500 $ 19K
Сярэдняя затрымка на пераключэнне 3 секунды
Навядзенне па голасе + відэааналітыка
Высокія патрабаванні да твару дакладчыка - нельга хаваць рот
Несумяшчальнасць з абсталяваннем іншых вытворцаў
Cisco TelePresence SpeakerTrack 60
Рознічны кошт сістэмы без тэрмінала $ 15,9K
Мінімальны кошт рашэння TelePresence SpeakerTrack 60 + SX80 Codec $ 30K
Сярэдняя затрымка на пераключэнне 3 секунды
Навядзенне па голасе + відэааналітыка
Патрабаванні да твару дакладчыка - не правяраў, інфармацыі не знайшоў
Патрабаванні да твару дакладчыка - патрабаванняў няма
Сумяшчальнасць з абсталяваннем іншых вытворцаў - HDMI
У якасці двух асноўных і бясспрэчных пераваг рашэння SmartCam A12 Voice Tracking я знаходжу:
Універсальнасць падключэння - праз HDMI сістэма інтэгруецца як з апаратнымі, так і з праграмнымі тэрмінальнымі сістэмамі ВКС
нізкі кошт - Пры аналагічным функцыянале, A12VT у разы даступней па бюджэце, чым вышэйапісаныя прапановы.
Для дэманстрацыі працы сістэмы мы запісалі відэа-агляд. Задача стаяла не столькі рэкламная, колькі функцыянальная. Таму ролік пазбаўлены пафасу палікамаўскага прома-відэа. У якасці месца правядзення прэзентацыі быў абраны не прадстаўнічы, а лабараторны перагаворны пакой нашага партнёра — кампаніі АйПіМатыка.
У мяне была мэта не схаваць агрэхі сістэмы, а наадварот - агаліць вузкія месцы функцыяналу, прымусіць сістэму памыліцца.
На мой погляд, сістэма прайшла выпрабаванні паспяхова. Я заяўляю гэта ўпэўнена, таму што на момант напісання гэтага артыкула, рашэнне SmartCam A12 Voice Tracking наведала дзясятак рэальных перагаворных пакояў нашых заказчыкаў. Парушэнне працы аўтаматыкі назіраліся выключна ва ўмовах парушэння рэкамендаваных правіл эксплуатацыі. У прыватнасці - мінімальнай адлегласці да блізкіх удзельнікаў. Калі сядзець зусім блізка да камеры, менш за метр - мікрафонавы масіў не зможа Вас распазнаць, а аб'ектыў адсачыць.
Апроч адлегласці, ёсць яшчэ іншае патрабаванне - вышыня ўсталёўкі камеры.
Калі камеру ўсталяваць занізкае — могуць узнікнуць праблемы з пазіцыянаваннем па голасе. Варыянт пад тэлевізарам, нажаль, не спрацаваў.
А вось мантаж сістэмы над сродкам адлюстравання - ідэальны варыянт працы прылады. Паліца для камеры ідзе ў камплекце, штатна падтрымліваецца толькі насценнае мацаванне.
Прынцып працы SmartCam A12 Voice Tracking
Асноўныя PTZ-аб'ектывы маюць роўныя ролі - іх задача па чарзе адсочваць дакладчыкаў і адлюстроўваць агульны план. Аналітыка агульнай карціны ў пакоі і вызначэнне адлегласці да аб'ектаў вырабляецца з выкарыстаннем відэа патокаў, атрыманых з дзвюх камер, інтэграваных у падставу сістэмы. Гэтая асаблівасць дазваляе скараціць час рэакцыі аб'ектыва, пры змене дакладчыка, да 1-2 секунд. Камера паспявае ў камфортным рытме чаргаваць удзельнікаў, нават калі яны абменьваюцца кароткімі прапановамі.
Відэа-дэманстрацыя працы сістэмы ў поўнай меры адлюстроўвае функцыянальныя магчымасці SmartCam A12VT. Але, для тых хто не глядзеў ролік, я словамі апішу прынцып працы аўтаматыкі:
Пакой пусты: адзін з аб'ектываў паказвае агульны план, другі на гатовы - чакае людзей
Людзі ўваходзяць у пакой і рассаджваюцца: вольны аб'ектыў знаходзіць двух крайніх удзельнікаў і кадруе малюнак па іх, абразаючы пустую частку пакоя.
Пакуль людзі ў руху, аб'ектывы па чарзе адсочваюць усіх у пакоі, захоўваючы іх у цэнтры кадра
Дакладчык пачынае казаць: актыўны аб'ектыў, настроены на агульны план. Другі наводзіцца на размаўлялага, а толькі затым пераходзіць у рэжым трансляцыі.
Дакладчык мяняецца: актыўны аб'ектыў, настроены на першага дакладчыка, а другі аб'ектыў кідае агульны план і настройваецца на новага дакладчыка.
У момант пераключэння карцінкі з першага дакладчыка на другога, вольны аб'ектыў маментальна наладжваецца на агульны план памяшкання.
Калі ўсё змоўкнуць - вольны аб'ектыў пакажа ўжо гатовы агульны план без якіх-небудзь затрымак
Калі ж дакладчык зменіцца зноў - вольны аб'ектыў адправіцца на яго пошукі
Заключэнне
На мой погляд, гэтае рашэнне, прадстаўленае на ISE і ISR летась, робіць высокія тэхналогіі бліжэй - калі не да народа, то да бізнэсу дакладна. Зразумелая справа, што за 400 тысяч рублёў, мала хто купіць дадому такую «цацку», але для бізнэсу, для карпаратыўнай відэаканферэнцсувязі – гэта вельмі даступнае і зручнае рашэнне задачы аўтанавядзення камеры.
Улічваючы ўніверсальнасць SmartCam A12 Voice Tracking, сістэму можна выкарыстоўваць у якасці рашэння з нуля, або ў якасці пашырэння функцыяналу ўжо існуючай інфраструктуры ВКС. Падключэнне па HDMI - гэта вялікі крок у бок карыстальніка, у адрозненне ад прапрыетарных сістэм вышэйапісаных вытворцаў.
Хачу падзякаваць партнёрам, якія аказалі дапамогу ў тэсціраванні.
Кампанію АйПіМатика — за тэрмінал Yealink VC880, перагаворны пакой і Якушына Юру.
Кампанію Смарт-АВ - за права першага і эксклюзіўнага агляду рашэння і прадастаўленне сістэмы SmartCam A12 Voice Tracking на тэсціраванне.