通过语音定位摄像头的功能变得更加容易 - 通用解决方案 SmartCam A12 语音跟踪

通过语音定位摄像头的功能变得更加容易 - 通用解决方案 SmartCam A12 语音跟踪在过去的几年里,跟踪视频会议中发言的参与者的话题越来越受欢迎。 技术使实时处理音频/视频信息的复杂算法成为可能,这促使 Polycom 在大约 10 年前推出了世界上第一个具有智能自动发言者跟踪功能的主流解决方案。 多年来,他们一直是此类解决方案的唯一拥有者,但思科并没有等待太久,而是将他们的智能双摄像头系统版本推向市场,这是 Polycom 解决方案的公平竞争者。 多年来,视频会议的这一领域受到多个公司能力的限制。 所有权 产品,但本文致力于第一个 普遍 语音引导摄像头解决方案,兼容视频会议的硬件和软件基础设施。
在继续描述解决方案和演示功能之前,我想指出一个重要事件:
我很荣幸向 Habra 社区介绍 新枢纽,致力于视频会议解决方案(VCC)。 现在,在(我和UFO)的共同努力下, 视频会议 在哈布雷有自己的家,我邀请所有参与这个广泛且当前主题的人订阅 新枢纽.

将摄像头对准演讲者的两种场景

目前,视频会议解决方案的集成商为自己选择了两种不同的方式来实现针对演示者的任务:

  1. 自动-智能
  2. 半自动 - 可编程

第一个选择是来自 Cisco、Polycom 和其他制造商的解决方案;我们将在下面考虑它们。 在这里,我们正在处理将摄像机指向视频会议中发言的参与者的完全自动化。 处理音频/视频信号的独特算法允许摄像机独立选择所需的位置。

第二种选择是基于各种外部控制控制器的自动化系统;我们不会详细考虑它们,因为本文专门讨论说话者的自动跟踪。
对于实现摄像头指向的第二种方案有相当多的支持者,这是有原因的。 经验丰富的集成商明白,Polycom 和 Cisco 的智能解决方案需要理想的操作条件才能使自动化正常运行。 但并不总是能够提供这样的条件,因此系统的运行有时可以通过以下相机指向问题的解决方案来保证:

1. 所有必要的预设(PTZ 设备的位置和光学变焦系数)均提前手动输入到摄像机的内存中(有时也输入到控制控制器中)。 通常,这是会议室的总体平面图,以及每个会议参与者的纵向视图。

2. 接下来,将调用所需预设的启动器安装在指定位置 - 这些启动器可以是麦克风控制台或单选按钮,一般来说,可以为控制控制器提供其理解的信号的任何设备。

3. 控制控制器的编程方式使得每个启动器都有自己的预设。 房间的总体规划 - 所有启动器均已关闭。
因此,当使用例如会议系统和控制控制器时,演讲者在开始演讲之前激活他的个人麦克风控制台。 控制系统立即处理保存的摄像机位置。

此场景完美运行 - 系统不需要执行语音三角测量和视频分析。 我按下按钮,预设就起作用了,没有延迟或误报。
控制和自动化系统用于大型、复杂的房间,有时安装的不是一台而是几台摄像机。 那么,对于中小型会议室,自动系统是相当合适的(如果你有预算的话)。
让我们从创始人开始吧。

宝利通 EagleEye 总监

通过语音定位摄像头的功能变得更加容易 - 通用解决方案 SmartCam A12 语音跟踪该解决方案一度轰动视频会议领域。 Polycom EagleEye Director 是智能摄像机引导领域的第一个解决方案。 该解决方案由 EagleEye Director 基本单元和两个摄像头组成。 第一个实现的特点是,一个摄像头仅分配给演讲者的特写视图,第二个摄像头分配给会议室的总体规划。 同时,总平面摄像机可以与底座完全分开放置在会议室的另一个地方——它不直接参与自动引导过程。
该系统的工作原理如下:

  1. 普通房间摄像头处于活动状态 - 每个人都保持沉默
  2. 发言者开始讲话 - 麦克风阵列拾取声音,摄像机使用包括语音三角测量在内的专利技术向声音移动。 一般相机仍处于活动状态
  3. 主摄像头刚刚开始寻找声源,进行视频分析。 系统通过眼鼻口连接识别说话人,对说话人进行取景并显示主摄像头的码流
  4. 说话人变了。 麦克风阵列知道声音来自另一个地方。 总体计划再次开启。
  5. 然后从点2开始绕一圈
  6. 如果新的发言者与前一个发言者位于画面中,系统会进行“热”定位更改,而不会更改一般镜头的活动流程。

在我看来,缺点是只有一个主摄像头。 这会导致更换扬声器时出现明显的延迟。 每次在指向的瞬间,系统都会打开房间的总体规划 - 在热烈的谈话中,这种闪烁开始令人恼火。

宝利通 EagleEye Director II

通过语音定位摄像头的功能变得更加容易 - 通用解决方案 SmartCam A12 语音跟踪这是 Polycom 解决方案的第二个版本,最近发布。 操作原理发生了变化,变得更像是思科的解决方案。 现在,两个 PTZ 摄像机都是主要摄像机,用于将频道从一位演示者无缝切换到另一位演示者。 会议室的总体布局现在由集成到 EagleEye Director II 基本单元主体中的单独摄像头捕获。 由于某种原因,来自该广角摄像头的视频流显示在屏幕一角的附加窗口中,占据了主视频流的 1/9。 定位的原理是一样的——语音三角测量和视频流分析。 而且瓶颈是相同的:如果系统看不到说话的嘴,相机就不会瞄准。 而这种情况经常会发生——说话者转身走开、说话者侧身、说话者是口技表演者、说话者用手或文件捂住了嘴。
两部宣传片都拍摄得非常到位——两个人轮流说话,张开嘴就像在预约语言治疗师一样。 但即使在如此精细的条件下,也会出现非常明显的延迟。 但取景无可挑剔——一张舒适的肖像照。

思科网真SpeakerTrack 60

通过语音定位摄像头的功能变得更加容易 - 通用解决方案 SmartCam A12 语音跟踪为了描述这个解决方案,我将使用官方手册中的文字。
SpeakerTrack 60 采用独特的双摄像头方法在参与者之间直接快速切换。 一个摄像头快速找到当前演示者的特写镜头,而另一个摄像头则搜索并显示下一个演示者。 如果当前帧中已存在下一个发言者,则多发言者功能可防止不必要的切换。
不幸的是,我没有机会亲自测试SpeakerTrack 60。 因此,必须根据“现场”的意见以及下面演示视频的分析结果得出结论。 我算了一下,当我指着新的演示者时,最多延迟了近 8 秒。 从视频来看,平均延迟为 2-3 秒。

华为智能跟踪摄像机VPT300

通过语音定位摄像头的功能变得更加容易 - 通用解决方案 SmartCam A12 语音跟踪我偶然发现了华为的这个解决方案。 该系统的成本约为 9 美元。 仅适用于华为终端。 开发人员添加了他们自己的“技巧”——如果房间里没有其他人,则在一个屏幕上使用两个扬声器进行视频布局。 就特性和声明的功能而言,这是一个非常有趣的自动导航系统版本。 但不幸的是,我完全没有找到演示材料。 关于此主题的唯一视频是对解决方案的编辑视频评论,没有原始声音,配有音乐。 因此,无法评估系统的质量。 因此,我不会考虑这个选项。
我看到华为有一个关于 Habré 的活跃博客 - 也许同事能够发布一些有关该产品的有用信息。

新的通用解决方案 SmartCam A12 语音追踪

通过语音定位摄像头的功能变得更加容易 - 通用解决方案 SmartCam A12 语音跟踪智能相机A12VT - 一个整体,包括两个用于跟踪扬声器的 PTZ 摄像头、两个用于分析房间总体布局的内置摄像头,以及内置于机箱底部的麦克风阵列 - 如您所见,没有笨重和像对手那样脆弱的结构。
在开始描述新产品之前,我将整理一下 Cisco 和 Polycom 解决方案的特性和功能,以便我可以进行比较 智能相机A12VT 与现有优惠。

宝利通 EagleEye 总监

  • 不含终端的系统零售成本 - $ 13K
  • EagleEye Director + RealPresence Group 500 解决方案的最低成本 — $ 19K
  • 平均切换延迟3秒
  • 语音指导+视频分析
  • 对说话者的脸型要求很高——你无法隐藏你的嘴
  • 与第三方设备不兼容

思科网真SpeakerTrack 60

  • 不含终端的系统零售成本 - $ 15,9K
  • TelePresence SpeakerTrack 60 + SX80 编解码器解决方案的最低成本 - $ 30K
  • 平均切换延迟3秒
  • 语音指导+视频分析
  • 对说话人脸型的要求——没查,没查到资料
  • 与第三方设备不兼容

SmartCam A12 语音追踪

该解决方案有两个不可否认的主要优势 SmartCam A12 语音追踪 我发现:

  1. 连接多功能性 — 通过HDMI,系统与硬件和软件视频会议终端系统集成
  2. 成本低 — 具有类似的功能,A12VT 在预算上比上述建议便宜很多倍。

为了演示该系统的工作原理,我们录制了一段视频评论。 这项任务与其说是广告,不如说是功能性的。 因此,该视频没有宝利通宣传视频的悲情色彩。 演示会选择的地点不是代表处,而是我们的合作伙伴IPMatika公司的实验室会议室。
我的目标不是隐藏系统的缺陷,而是相反,暴露功能的瓶颈,迫使系统犯错误。

在我看来,系统成功地通过了测试。 我充满信心地这么说,因为在撰写本文时,解决方案 SmartCam A12 语音追踪 参观了客户的十几间真实会议室。 仅在违反建议的操作规则的情况下才会观察到自动化故障。 特别是与附近参与者的最短距离。 如果你坐得离摄像头很近,不到一米,麦克风阵列将无法识别你,镜头也将无法跟踪你。

通过语音定位摄像头的功能变得更加容易 - 通用解决方案 SmartCam A12 语音跟踪

除了距离之外,还有一个要求——摄像头的高度。

通过语音定位摄像头的功能变得更加容易 - 通用解决方案 SmartCam A12 语音跟踪

如果摄像头安装得太低,可能会出现语音定位问题。 不幸的是,电视下方的选项不起作用。
但将系统安装在显示设备上方是设备运行的理想方式。 随附相机架;标准仅支持壁挂式安装。

SmartCam A12 语音跟踪的工作原理

主PTZ镜头的作用是平等的——它们的任务是交替跟踪演示者并显示总体方案。 使用从集成到系统底座的两个摄像机接收的视频流来分析房间内的整体图像并确定到物体的距离。 此功能可以让您将更换扬声器时镜头的反应时间缩短至 1-2 秒。 摄像机设法以舒适的节奏在参与者之间交替,即使他们交换简短的句子。
系统操作视频演示,充分体现功能 智能相机A12VT。 但是,对于那些没有看过视频的人,我将用文字描述自动化的操作原理:

  1. 房间是空的:其中一个镜头显示总体规划,第二个镜头已准备好 - 等待人们
  2. 人们进入房间并就座:自由镜头找到两个极端的参与者并将图像框在他们周围,切断房间的空白部分
  3. 当人们移动时,镜头会轮流跟踪房间里的每个人,将他们保持在画面中央
  4. 演讲者开始讲话:镜头活跃,调整到总体规划。 第二个针对扬声器,然后才进入广播模式
  5. 扬声器发生变化:调整到第一个扬声器的镜头处于活动状态,第二个镜头下降广角镜头并调整到新的扬声器
  6. 在将画面从第一个扬声器切换到第二个扬声器的那一刻,自由镜头立即调整到房间的总体规划
  7. 如果大家都沉默,免费镜头会毫不拖延地展现出现成的总体方案
  8. 如果说话者再次改变,自由镜头就会去寻找他

结论

在我看来,去年在 ISE 和 ISR 上提出的这个解决方案让高科技更加贴近——即使不是与人民,也肯定与企业更接近。 显然,400万卢布的价格,很少有人会买这样一个“玩具”用于家庭,但对于商务、企业视频会议来说,这是一个非常实惠且方便的解决摄像头自动瞄准问题的方案。
鉴于多功能性 SmartCam A12 语音追踪,该系统可以用作从头开始的解决方案,或作为现有视频会议基础设施功能的扩展。 与上述制造商的专有系统相比,通过 HDMI 连接是向用户迈出的一大步。

感谢协助测试的小伙伴。
公司 IP马蒂卡 — 适用于 Yealink VC880 终端、会议室和 Yakushina Yura。
公司 智能AV — 对解决方案和系统提供进行首次和独家审查的权利 SmartCam A12 语音追踪 供测试用。

在上一篇文章中 在线会议室设计师——选择最佳视频会议解决方案,作为网站推广 vc4u.ru и VKS设计师 我们宣布 10% 折扣 从价格 目录 通过码字 哈勃 直到2019年夏天结束。

折扣适用于以下部分的产品:

至决定 SmartCam A12 语音追踪 我在现有 5% 的基础上再提供 10% 的折扣 - 到 15 年夏末总计 2019%。

我期待您在调查中提出意见和答案!

感谢您的关注。
真挚地,
基里尔·乌西科夫(乌斯科夫)
的头
视频监控和视频会议系统
[电子邮件保护]
stss.ru
vc4u.ru

只有注册用户才能参与调查。 登录拜托

SmartCam A12 语音跟踪有多有用?

  • 终于出现了软硬件终端通用的解决方案!

  • 解决方案很好,但还有其他可用的选项(我会在评论中写)

  • 系统很弱,无法到达 Polycom 和 Cisco - 我会在评论中写下为什么你应该多付 3 倍的钱!

  • 到底谁需要在会议室中进行自动引导?

  • 谁在会议室需要 PTZ 摄像机? — 我连接了网络摄像头,一切正常!

8 位用户投票。 5 名用户弃权。

来源: habr.com

添加评论