透過語音定位相機的功能變得更加容易 - 通用解決方案 SmartCam A12 語音跟踪

透過語音定位相機的功能變得更加容易 - 通用解決方案 SmartCam A12 語音跟踪在過去的幾年裡,追蹤視訊會議中發言的參與者的話題越來越受歡迎。 技術使即時處理音訊/視訊資訊的複雜演算法成為可能,這促使 Polycom 在大約 10 年前推出了世界上第一個具有智慧自動發言者追蹤功能的主流解決方案。 多年來,他們一直是此類解決方案的唯一擁有者,但思科並沒有等待太久,而是將他們的智慧雙鏡頭系統版本推向市場,這是 Polycom 解決方案的公平競爭者。 多年來,視訊會議的這一領域受到多個公司能力的限制。 所有權 產品,但本文致力於第一個 普遍的 透過語音引導攝影機的解決方案,與視訊會議的硬體和軟體基礎設施相容。
在繼續描述解決方案和演示功能之前,我想指出一個重要事件:
我很榮幸向 Habra 社群介紹 新樞紐,致力於視訊會議解決方案(VCC)。 現在,在(我和UFO)的共同努力下, 視訊會議 在哈布雷有自己的家,我邀請所有參與這個廣泛且當前主題的人訂閱 新樞紐.

將攝影機對準演講者的兩個場景

目前,視訊會議解決方案的整合商為自己選擇了兩種不同的方式來實現針對演示者的任務:

  1. 自動-智能
  2. 半自動 - 可編程

第一個選擇是來自 Cisco、Polycom 和其他製造商的解決方案;我們將在下面考慮它們。 在這裡,我們正在處理將攝影機指向視訊會議中發言的參與者的完全自動化。 處理音訊/視訊訊號的獨特演算法允許攝影機獨立選擇所需的位置。

第二個選擇是基於各種外部控制控制器的自動化系統;我們不會詳細考慮它們,因為本文專門討論說話者的自動追蹤。
對於實現攝影機指向的第二種方案有相當多的支持者,這是有原因的。 經驗豐富的整合商明白,Polycom 和 Cisco 的智慧解決方案需要理想的操作條件才能使自動化正常運作。 但並非總是能夠提供這樣的條件,因此系統的運作有時可以透過以下解決相機指向問題的方案來保證:

1. 所有必要的預設(PTZ 設備的位置和光學變焦係數)均提前手動輸入到攝影機的記憶體中(有時也輸入到控制控制器中)。 通常,這是會議室的整體平面圖,以及每個會議參與者的縱向視圖。

2. 接下來,將呼叫所需預設的啟動器安裝在指定位置 - 這些啟動器可以是麥克風控制台或單選按鈕,一般來說,可以為控制控制器提供其理解的信號的任何設備。

3. 控制控制器的程式設計方式使得每個啟動器都有自己的預設。 房間的總體規劃 - 所有啟動器均已關閉。
因此,當使用例如會議系統和控制控制器時,演講者在開始演講之前啟動他的個人麥克風控制台。 控制系統立即處理已儲存的攝影機位置。

此場景完美運作 - 系統不需要執行語音三角測量和視訊分析。 我按下按鈕,預設就起作用了,沒有延遲或誤報。
控制和自動化系統用於大型、複雜的房間,有時安裝的不是一台而是幾台攝影機。 那麼,對於中小型會議室,自動系統是相當合適的(如果你有預算的話)。
讓我們從創始人開始。

寶利通 EagleEye 總監

透過語音定位相機的功能變得更加容易 - 通用解決方案 SmartCam A12 語音跟踪該解決方案一度轟動視訊會議領域。 Polycom EagleEye Director 是智慧攝影機引導領域的第一個解決方案。 該解決方案由 EagleEye Director 基本單元和兩個攝影機組成。 第一個實現的特點是,一個攝影機僅分配給演講者的特寫視圖,第二個攝影機分配給會議室的總體規劃。 同時,總平面攝影機可以與底座完全分開放置在會議室的另一個地方——它不直接參與自動引導過程。
該系統的工作原理如下:

  1. 普通房間攝影機處於活動狀態 - 每個人都保持沉默
  2. 講者開始講話 - 麥克風陣列拾取聲音,攝影機使用包括語音三角測量在內的專利技術向聲音移動。 一般相機仍處於活動狀態
  3. 主相機剛開始尋找聲音來源,進行視訊分析。 系統透過眼鼻口連接識別說話人,對說話者進行取景並顯示主攝影機的碼流
  4. 說話者變了。 麥克風陣列知道聲音來​​自另一個地方。 整體計劃再次開啟。
  5. 然後從點2開始繞一圈
  6. 如果新的發言者與前一個發言者位於畫面中,系統會進行「熱」定位更改,而不會更改一般鏡頭的活動流程。

在我看來,缺點是只有一個主相機。 這會導致更換揚聲器時出現明顯的延遲。 每次在指向的瞬間,系統都會打開房間的總體規劃 - 在熱烈的談話中,這種閃爍開始令人惱火。

Polycom EagleEye Director II

透過語音定位相機的功能變得更加容易 - 通用解決方案 SmartCam A12 語音跟踪這是 Polycom 解決方案的第二個版本,最近發布。 操作原理發生了變化,變得更像是思科的解決方案。 現在,兩台 PTZ 攝影機都是主要攝影機,用於將頻道從一位演示者無縫切換到另一位演示者。 會議室的整體佈局現在由整合到 EagleEye Director II 基本單元主體中的單獨攝影機擷取。 由於某種原因,來自該廣角相機的視訊串流顯示在螢幕一角的附加視窗中,佔據了主視訊串流的 1/9。 定位的原理是一樣的-語音三角測量和視訊串流分析。 而且瓶頸是相同的:如果系統看不到說話的嘴,相機就不會瞄準。 而這種情況經常會發生——說話者轉身走開、說話者側身、說話者是口技表演者、說話者用手或文件摀住了嘴。
兩部宣傳片都拍得非常到位——兩個人輪流說話,張開嘴就像在預約語言治療師一樣。 但即使在如此精細的條件下,也會出現非常明顯的延遲。 但取景無可挑剔——一張舒適的肖像照。

思科網真SpeakerTrack 60

透過語音定位相機的功能變得更加容易 - 通用解決方案 SmartCam A12 語音跟踪為了描述這個解決方案,我將使用官方手冊中的文字。
SpeakerTrack 60 採用獨特的雙鏡頭方法在參與者之間直接快速切換。 一個攝影機快速找到當前演示者的特寫鏡頭,而另一個攝影機則搜尋並顯示下一個演示者。 如果當前影格中已存在下一個發言者,則多重發言者功能可防止不必要的切換。
不幸的是,我沒有機會親自測試SpeakerTrack 60。 因此,必須根據“現場”意見以及下面演示視頻的分析結果得出結論。 我算了一下,當我指著新的演示者時,最多延遲了近 8 秒。 從影片來看,平均延遲為 2-3 秒。

華為智慧追蹤攝影機VPT300

透過語音定位相機的功能變得更加容易 - 通用解決方案 SmartCam A12 語音跟踪我偶然發現了華為的這個解決方案。 該系統的成本約為 9 美元。 僅適用於華為終端。 開發人員添加了自己的「技巧」——如果房間裡沒有其他人,則在一個螢幕上使用兩個揚聲器進行視訊佈局。 就特性和聲明的功能而言,這是一個非常有趣的自動導航系統版本。 但不幸的是,我完全沒有找到演示材料。 關於此主題的唯一影片是對解決方案的編輯影片評論,沒有原始聲音,配有音樂。 因此,無法評估系統的品質。 因此,我不會考慮這個選項。
我看到華為有一個關於 Habré 的活躍部落格 - 也許同事能夠發布一些有關該產品的有用資訊。

新的通用解決方案 SmartCam A12 語音追蹤

透過語音定位相機的功能變得更加容易 - 通用解決方案 SmartCam A12 語音跟踪智慧型相機A12VT - 一個整體,包括兩個用於跟踪揚聲器的 PTZ 攝像頭、兩個用於分析房間總體佈局的內置攝像頭,以及內置在機箱底部的麥克風陣列 - 如您所見,沒有笨重和像對手那樣脆弱的結構。
在開始描述新產品之前,我將整理 Cisco 和 Polycom 解決方案的特性和功能,以便我可以進行比較 智慧型相機A12VT 與現有優惠。

寶利通 EagleEye 總監

  • 不含終端的系統零售成本 - $ 13K
  • EagleEye Director + RealPresence Group 500 解決方案的最低成本 — $ 19K
  • 平均切換延遲3秒
  • 語音指導+視訊分析
  • 對說話者的臉型要求很高——你無法隱藏你的嘴
  • 與第三方設備不相容

思科網真SpeakerTrack 60

  • 不含終端的系統零售成本 - $ 15,9K
  • TelePresence SpeakerTrack 60 + SX80 編解碼器解決方案的最低成本 - $ 30K
  • 平均切換延遲3秒
  • 語音指導+視訊分析
  • 對說話者臉型的要求——沒查,沒查到資料
  • 與第三方設備不相容

SmartCam A12 語音追蹤

該解決方案有兩個不可否認的主要優勢 SmartCam A12 語音追蹤 我發現:

  1. 連接多功能性 — 透過HDMI,系統與硬體和軟體視訊會議終端系統集成
  2. 低成本 - 具有類似的功能,A12VT 在預算上比上述建議便宜許多倍。

為了演示該系統的工作原理,我們錄製了一段影片評論。 這項任務與其說是廣告,不如說是功能性的。 因此,該影片沒有寶利通宣傳影片的悲情色彩。 演示會選擇的地點不是代表處,而是我們的合作夥伴IPMatika公司的實驗室會議室。
我的目標不是隱藏系統的缺陷,而是相反,暴露功能的瓶頸,迫使系統犯錯。

在我看來,系統成功地通過了測試。 我充滿信心地這麼說,因為在撰寫本文時,解決方案 SmartCam A12 語音追蹤 參觀了客戶的十幾間真實會議室。 僅在違反建議的操作規則的情況下才會觀察到自動化故障。 特別是與附近參與者的最短距離。 如果你坐得離相機很近,不到一米,麥克風陣列將無法辨識你,鏡頭也將無法追蹤你。

透過語音定位相機的功能變得更加容易 - 通用解決方案 SmartCam A12 語音跟踪

除了距離之外,還有一個要求——攝影機的高度。

透過語音定位相機的功能變得更加容易 - 通用解決方案 SmartCam A12 語音跟踪

如果攝影機安裝得太低,可能會出現語音定位問題。 不幸的是,電視下方的選項不起作用。
但將系統安裝在顯示設備上方是設備運作的理想方式。 隨附相機架;標準僅支援壁掛式安裝。

SmartCam A12 語音追蹤的工作原理

主PTZ鏡頭的作用是平等的——它們的任務是交替跟踪演示者並顯示總體方案。 使用從整合到系統底座的兩個攝影機接收的視訊串流來分析房間內的整體影像並確定到物體的距離。 此功能可讓您將更換揚聲器時鏡頭的反應時間縮短至 1-2 秒。 攝影機設法以舒適的節奏在參與者之間交替,即使他們交換簡短的句子。
系統操作影片演示,充分體現功能 智慧型相機A12VT。 但是,對於那些沒有看過影片的人,我將用文字描述自動化的操作原理:

  1. 房間是空的:其中一個鏡頭顯示總體規劃,第二個鏡頭已準備好 - 等待人們
  2. 人們進入房間並就座:自由鏡頭找到兩個極端的參與者並將圖像框在他們周圍,切斷房間的空白部分
  3. 當人們移動時,鏡頭會輪流追蹤房間裡的每個人,將他們保持在畫面中央
  4. 講者開始講話:鏡頭活躍,調整到總體規劃。 第二個針對揚聲器,然後才進入廣播模式
  5. 揚聲器發生變化:調整到第一個揚聲器的鏡頭處於活動狀態,第二個鏡頭下降廣角鏡頭並調整到新的揚聲器
  6. 在將畫面從第一個揚聲器切換到第二個揚聲器的那一刻,自由鏡頭立即調整到房間的總體規劃
  7. 如果大家都沉默,免費鏡頭會毫不拖延地展現出現成的整體方案
  8. 如果說話者再次改變,自由鏡頭就會去找他

結論

在我看來,去年在 ISE 和 ISR 上提出的這個解決方案讓高科技更加貼近——即使不是與人民,也肯定與企業更接近。 顯然,400萬盧布的價格,很少有人會買這樣一個「玩具」用於家庭,但對於商務、企業視訊會議來說,這是一個非常實惠且方便的解決攝影機自動瞄準問題的方案。
鑑於多功能性 SmartCam A12 語音追蹤,該系統可以用作從頭開始的解決方案,或作為現有視訊會議基礎設施功能的擴展。 與上述製造商的專有系統相比,透過 HDMI 連線是向使用者邁出的一大步。

感謝協助測試的小夥伴。
公司 IP馬蒂卡 — 適用於 Yealink VC880 終端機、會議室和 Yakushina Yura。
公司 智慧AV — 對解決方案和系統提供首次和獨家審查的權利 SmartCam A12 語音追蹤 供測試用。

在上一篇文章中 線上會議室設計師—選擇最佳視訊會議解決方案,作為網站推廣 vc4u.ru и VKS設計師 我們宣布 10% 折扣 從價格 目錄 透過碼字 哈伯 直到 2019 年夏末。

折扣適用於以下部分的產品:

至決定 SmartCam A12 語音追蹤 我在現有 5% 的基礎上再提供 10% 的折扣 - 到 15 年夏末總計 2019%。

我期待您在調查中提出意見和答案!

感謝您的關注。
真誠的,
基里爾·烏西科夫(烏斯科夫)
的頭
視訊監控和視訊會議系統
[電子郵件保護]
stss.ru
vc4u.ru

只有註冊用戶才能參與調查。 登入, 請。

SmartCam A12 語音追蹤有多有用?

  • 終於出現了軟硬體終端通用的解決方案!

  • 解決方案很好,但還有其他可用的選項(我會在評論中寫)

  • 系統很弱,無法到達 Polycom 和 Cisco - 我會在評論中寫下為什麼你應該多付 3 倍的錢!

  • 到底誰需要在會議室進行自動引導?

  • 誰在會議室需要 PTZ 攝影機? — 我連接了網路攝影機,一切正常!

8 位用戶投票。 5 名用戶棄權。

來源: www.habr.com

添加評論