أصبحت وظيفة استهداف الكاميرا عن طريق الصوت أكثر سهولة - الحل العالمي SmartCam A12 Voice Tracking

أصبحت وظيفة استهداف الكاميرا عن طريق الصوت أكثر سهولة - الحل العالمي SmartCam A12 Voice Trackingاكتسب موضوع تتبع أحد المشاركين المتحدثين في مؤتمر عبر الفيديو زخمًا خلال السنوات القليلة الماضية. أتاحت التكنولوجيا تنفيذ خوارزميات معقدة لمعالجة معلومات الصوت/الفيديو في الوقت الفعلي، الأمر الذي دفع شركة Polycom، منذ ما يقرب من 10 سنوات، إلى تقديم أول حل رئيسي في العالم مع التتبع التلقائي الذكي لمكبرات الصوت. لعدة سنوات، تمكنوا من البقاء المالكين الوحيدين لمثل هذا الحل، لكن سيسكو لم تضطر إلى الانتظار طويلا وجلبت إلى السوق نسختها من نظام ذكي ثنائي الكاميرا، والذي كان منافسا عادلا للحل من بوليكوم. لسنوات عديدة، كان هذا الجزء من مؤتمرات الفيديو محدودًا بقدرات العديد من الأشخاص امتلاكي المنتجات، ولكن هذه المقالة مخصصة للأول عالمي حل لتوجيه الكاميرا عن طريق الصوت، متوافق مع البنية التحتية للأجهزة والبرامج لعقد مؤتمرات الفيديو.
قبل الانتقال إلى وصف الحلول وإظهار القدرات، أريد أن أشير إلى حدث مهم:
يشرفني أن أقدم لمجتمع الهبرة محور جديد، مخصص لحلول مؤتمرات الفيديو (VCC). الآن، وبفضل الجهود المشتركة (جهودي وجسم غامض)، مؤتمرات الفيديو لها موطنها الخاص في حبري، وأنا أدعو جميع المشاركين في هذا الموضوع الشامل والحالي للاشتراك فيه محور جديد.

سيناريوهان لتوجيه الكاميرا نحو مكبر الصوت

في الوقت الحالي، يختار القائمون على تكامل حلول مؤتمرات الفيديو لأنفسهم طريقتين مختلفتين لتنفيذ مهمة استهداف مقدم العرض:

  1. أوتوماتيكي - ذكي
  2. شبه تلقائي - قابل للبرمجة

الخيار الأول هو مجرد حلول من Cisco وPolycom وشركات مصنعة أخرى، وسننظر فيها أدناه. نحن هنا نتعامل مع الأتمتة الكاملة لتوجيه الكاميرا نحو المشارك المتحدث في مؤتمر الفيديو. تتيح الخوارزميات الفريدة لمعالجة إشارات الصوت/الفيديو للكاميرا تحديد الموضع المطلوب بشكل مستقل.

الخيار الثاني هو أنظمة التشغيل الآلي التي تعتمد على وحدات تحكم خارجية مختلفة، ولن نفكر فيها بالتفصيل، لأنها المقالة مخصصة خصيصًا للتتبع التلقائي للمتحدثين.
هناك عدد غير قليل من المؤيدين للسيناريو الثاني لتنفيذ توجيه الكاميرا، وهناك أسباب لذلك. يدرك خبراء التكامل ذوي الخبرة أن الحلول الذكية من Polycom وCisco تتطلب ظروف تشغيل مثالية حتى تعمل الأتمتة بشكل صحيح. ولكن ليس من الممكن دائمًا توفير مثل هذه الشروط، لذلك يتم ضمان تشغيل النظام في بعض الأحيان من خلال الحل التالي لمشكلة توجيه الكاميرا:

1. يتم إدخال كافة الإعدادات المسبقة الضرورية (مواضع جهاز PTZ وعامل التكبير البصري) يدويًا مسبقًا في ذاكرة الكاميرا (أو في بعض الأحيان إلى وحدة التحكم). كقاعدة عامة، هذا هو المخطط العام لغرفة الاجتماعات، وعرض لكل مشارك في المؤتمر في الوضع الرأسي.

2. بعد ذلك، يتم تثبيت البادئين لاستدعاء الإعداد المسبق المطلوب في الأماكن المحددة - إما وحدات تحكم الميكروفون أو أزرار الراديو، بشكل عام، أي جهاز يمكنه تزويد وحدة التحكم بالإشارة التي يفهمها.

3. تمت برمجة وحدة التحكم بحيث يكون لكل بادئ إعداد مسبق خاص به. المخطط العام للغرفة - يتم إيقاف جميع المبادرين.
ونتيجة لذلك، عند استخدام نظام المؤتمرات، على سبيل المثال، ووحدة التحكم، يقوم المتحدث، قبل بدء حديثه، بتنشيط وحدة التحكم في الميكروفون الشخصية الخاصة به. يقوم نظام التحكم بمعالجة موضع الكاميرا المحفوظة على الفور.

يعمل هذا السيناريو بشكل لا تشوبه شائبة - لا يحتاج النظام إلى إجراء تثليث الصوت وتحليلات الفيديو. لقد ضغطت على الزر وعمل الإعداد المسبق، دون أي تأخير أو نتائج إيجابية كاذبة.
تُستخدم أنظمة التحكم والأتمتة في غرف كبيرة ومعقدة، حيث لا يتم في بعض الأحيان تركيب كاميرات فيديو واحدة، بل عدة كاميرات فيديو. حسنًا، بالنسبة لقاعات الاجتماعات الصغيرة والمتوسطة الحجم، تعد الأنظمة الأوتوماتيكية مناسبة تمامًا (إذا كانت لديك الميزانية).
لنبدأ بالآباء المؤسسين.

مدير شركة بوليكوم إيجل آي

أصبحت وظيفة استهداف الكاميرا عن طريق الصوت أكثر سهولة - الحل العالمي SmartCam A12 Voice Trackingلقد أحدث هذا الحل ضجة كبيرة في مجال مؤتمرات الفيديو. كان Polycom EagleEye Director هو الحل الأول في مجال التوجيه الذكي للكاميرا. يتكون الحل من وحدة قاعدة EagleEye Director وكاميرتين. خصوصية هذا التنفيذ الأول هو أن كاميرا واحدة مخصصة فقط لرؤية قريبة للمتحدث، والثانية - للمخطط العام لغرفة الاجتماعات. وفي الوقت نفسه، يمكن وضع كاميرا المخطط العام بشكل منفصل تمامًا عن القاعدة في مكان آخر في غرفة الاجتماعات - ولا تشارك بشكل مباشر في عملية التوجيه التلقائي.
ويعمل هذا النظام على النحو التالي:

  1. كاميرا الغرفة العامة نشطة والجميع صامتون
  2. يبدأ مكبر الصوت في التحدث - تلتقط مجموعة الميكروفون الصوت، وتتحرك الكاميرا نحو الصوت باستخدام تقنية حاصلة على براءة اختراع تتضمن تثليث الصوت. الكاميرا العامة لا تزال نشطة
  3. بدأت الكاميرا الرئيسية للتو في البحث عن مصدر الصوت وإجراء تحليلات الفيديو. يتعرف النظام على مكبر الصوت من خلال اتصال العين والأنف والفم، ويضع إطارًا لصورة مكبر الصوت ويعرض البث من الكاميرا الرئيسية
  4. يتغير المتحدث. تفهم مجموعة الميكروفون أن الصوت يأتي من مكان آخر. تم تشغيل الخطة العامة مرة أخرى.
  5. ثم في دائرة، بدءًا من النقطة 2
  6. إذا كان مكبر الصوت الجديد في الإطار مع مكبر الصوت السابق، يقوم النظام بإجراء تغيير موضعي "ساخن" دون تغيير التدفق النشط إلى اللقطة العامة.

الجانب السلبي في رأيي هو وجود كاميرا رئيسية واحدة فقط. وينتج عن هذا تأخير كبير عند تغيير مكبرات الصوت. وفي كل مرة في وقت الإشارة، يقوم النظام بتشغيل المخطط العام للغرفة - أثناء محادثة حية، يبدأ هذا الخفقان في التهيج.

مدير بوليكوم إيجل آي II

أصبحت وظيفة استهداف الكاميرا عن طريق الصوت أكثر سهولة - الحل العالمي SmartCam A12 Voice Trackingهذا هو الإصدار الثاني من الحل من شركة Polycom، والذي تم إصداره مؤخرًا نسبيًا. لقد خضع مبدأ التشغيل للتغييرات وأصبح أشبه بحل من Cisco. الآن أصبحت كلتا كاميرتي PTZ هما الكاميرتان الرئيسيتان وتعملان على تبديل القنوات بسلاسة من مقدم إلى آخر. يتم الآن التقاط التصميم العام لغرفة الاجتماعات بواسطة كاميرا منفصلة مدمجة في هيكل الوحدة الأساسية EagleEye Director II. لسبب ما، يتم عرض الدفق من هذه الكاميرا ذات الزاوية الواسعة في نافذة إضافية في زاوية الشاشة، تشغل 1/9 من الدفق الرئيسي. مبدأ تحديد المواقع هو نفسه - التثليث الصوتي وتحليل دفق الفيديو. والاختناقات هي نفسها: إذا لم يتمكن النظام من رؤية الفم الناطق، فلن تقوم الكاميرا بالتصويب. ويمكن أن يحدث هذا الموقف في كثير من الأحيان - لقد استدار المتحدث بعيدًا، وانقلب المتحدث جانبًا، وكان المتحدث متكلمًا من بطنه، وقد غطى المتحدث فمه بيده أو بوثيقة.
تم تصوير مقطعي الفيديو الترويجيين بكفاءة - يتحدث شخصان بالتناوب ويفتحان أفواههما كما لو كانا في موعد مع معالج النطق. ولكن حتى في مثل هذه الظروف المكررة هناك تأخير كبير للغاية. لكن الإطار لا تشوبه شائبة - لقطة شخصية مريحة.

مكبر صوت سيسكو TelePresence Track 60

أصبحت وظيفة استهداف الكاميرا عن طريق الصوت أكثر سهولة - الحل العالمي SmartCam A12 Voice Trackingلوصف هذا الحل، سأستخدم نصًا من الكتيب الرسمي.
يتبع مكبر الصوت 60 أسلوبًا فريدًا للكاميرا المزدوجة للتبديل السريع بين المشاركين مباشرةً. تعثر إحدى الكاميرات بسرعة على عرض قريب للمقدم النشط، بينما تبحث الكاميرا الأخرى عن المقدم التالي وتعرضه. تمنع ميزة MultiSpeaker التبديل غير الضروري إذا كان مكبر الصوت التالي موجودًا بالفعل في الإطار الحالي.
لسوء الحظ، لم تتح لي الفرصة لاختبار مكبر الصوت 60 بنفسي. لذلك، يجب استخلاص الاستنتاجات بناءً على الرأي "من الميدان" وبناءً على نتائج تحليل الفيديو التوضيحي أدناه. لقد أحصيت تأخيرًا أقصى قدره 8 ثوانٍ تقريبًا عند الإشارة إلى مقدم عرض جديد. وكان متوسط ​​التأخير 2-3 ثواني، حسب الفيديو.

كاميرا فيديو للتتبع الذكي من هواوي VPT300

أصبحت وظيفة استهداف الكاميرا عن طريق الصوت أكثر سهولة - الحل العالمي SmartCam A12 Voice Trackingلقد عثرت على هذا الحل من شركة Huawei عن طريق الصدفة. يكلف النظام حوالي 9 آلاف دولار. يعمل فقط مع محطات هواوي. أضاف المطورون "الخدعة" الخاصة بهم - تخطيط فيديو من مكبري صوت على شاشة واحدة، إذا لم يكن هناك أي شخص آخر في الغرفة. من حيث الخصائص والوظائف المعلنة، فهذه نسخة مثيرة جدًا للاهتمام من نظام التوجيه التلقائي. لكن لسوء الحظ، لم أجد أي مادة تجريبية على الإطلاق. الفيديو الوحيد الذي ظهر حول هذا الموضوع كان عبارة عن مراجعة فيديو معدلة للحل، بدون صوت أصلي، مع ضبط الموسيقى. وبالتالي، لم يكن من الممكن تقييم جودة النظام. ولهذا السبب، لن أفكر في هذا الخيار.
أرى أن لدى Huawei مدونة نشطة على حبري - ربما سيتمكن الزملاء من نشر بعض المعلومات المفيدة حول هذا المنتج.

جديد - حل عالمي SmartCam A12 تتبع الصوت

أصبحت وظيفة استهداف الكاميرا عن طريق الصوت أكثر سهولة - الحل العالمي SmartCam A12 Voice Trackingسمارت كام A12VT - قطعة واحدة، تتضمن كاميرتين PTZ لتتبع مكبرات الصوت، وكاميرتين مدمجتين لتحليل التصميم العام للغرفة، بالإضافة إلى مجموعة ميكروفون مدمجة في قاعدة العلبة - كما ترون، لا توجد كتل ضخمة و الهياكل الهشة مثل تلك الخاصة بالمعارضين.
قبل أن أبدأ في وصف المنتج الجديد، سأقوم بتجميع خصائص ومميزات الحلول من Cisco وPolycom حتى أتمكن من المقارنة سمارت كام A12VT مع العروض الموجودة.

مدير شركة بوليكوم إيجل آي

  • تكلفة التجزئة للنظام بدون محطة - $ 13K
  • الحد الأدنى لتكلفة حل EagleEye Director + RealPresence Group 500 - $ 19K
  • متوسط ​​تأخير التبديل 3 ثواني
  • التوجيه الصوتي + تحليلات الفيديو
  • متطلبات عالية على وجه المتحدث - لا يمكنك إخفاء فمك
  • عدم التوافق مع معدات الطرف الثالث

مكبر صوت سيسكو TelePresence Track 60

  • تكلفة التجزئة للنظام بدون محطة - $ 15,9K
  • الحد الأدنى لتكلفة حل TelePresence مكبر الصوت 60 + SX80 Codec - $ 30K
  • متوسط ​​تأخير التبديل 3 ثواني
  • التوجيه الصوتي + تحليلات الفيديو
  • متطلبات وجه المتحدث - لم يتم التحقق منها ولم يتم العثور على معلومات
  • عدم التوافق مع معدات الطرف الثالث

SmartCam A12 تتبع الصوت

  • تكلفة التجزئة للنظام بدون محطة - $ 6,2K
  • الحد الأدنى من تكلفة الحل سمارت كام A12VT + يالينك VC880 - $ 10.8K
  • الحد الأدنى من تكلفة الحل محطة برنامج SmartCam A12VT+ - $ 7,7K
  • متوسط ​​تأخير التبديل 3 ثواني
  • التوجيه الصوتي + تحليلات الفيديو
  • متطلبات وجه المتحدث - لا توجد متطلبات
  • توافق مع الطرف الثالث - HDMI

باعتبارهما ميزتين رئيسيتين لا يمكن إنكارهما للحل SmartCam A12 تتبع الصوت وجدت:

  1. تعدد استخدامات الاتصال - عبر HDMI، يتكامل النظام مع كل من الأجهزة والبرامج الطرفية لعقد مؤتمرات الفيديو
  2. منخفضة التكلفة — مع وظائف مماثلة، يعتبر A12VT أقل تكلفة بكثير من حيث الميزانية مقارنة بالمقترحات الموضحة أعلاه.

لتوضيح كيفية عمل النظام، قمنا بتسجيل مراجعة بالفيديو. لم تكن المهمة إعلانية بقدر ما كانت وظيفية. ولذلك، فإن الفيديو يخلو من الشفقة الموجودة في الفيديو الترويجي لشركة Polycom. لم يكن المكان الذي تم اختياره للعرض هو مكتب تمثيلي، بل غرفة اجتماعات مختبرية لشريكتنا، شركة IPMatika.
لم يكن هدفي إخفاء عيوب النظام، بل على العكس من ذلك، الكشف عن اختناقات الوظيفة، وإجبار النظام على ارتكاب الأخطاء.

في رأيي أن النظام اجتاز الاختبارات بنجاح. أقول هذا بكل ثقة لأنه في وقت كتابة هذا المقال كان الحل SmartCam A12 تتبع الصوت قمنا بزيارة عشرات من غرف الاجتماعات الحقيقية لعملائنا. وقد لوحظت أعطال في الأتمتة حصريًا في ظروف انتهاك قواعد التشغيل الموصى بها. على وجه الخصوص، الحد الأدنى للمسافة للمشاركين القريبين. إذا جلست بالقرب من الكاميرا، على بعد أقل من متر، فلن تتمكن مجموعة الميكروفون من التعرف عليك ولن تتمكن العدسة من تتبعك.

أصبحت وظيفة استهداف الكاميرا عن طريق الصوت أكثر سهولة - الحل العالمي SmartCam A12 Voice Tracking

بالإضافة إلى المسافة، هناك شرط آخر - ارتفاع الكاميرا.

أصبحت وظيفة استهداف الكاميرا عن طريق الصوت أكثر سهولة - الحل العالمي SmartCam A12 Voice Tracking

إذا تم تركيب الكاميرا على مستوى منخفض جدًا، فقد تحدث مشكلات في تحديد موضع الصوت. الخيار تحت التلفزيون، لسوء الحظ، لم ينجح.
لكن تثبيت النظام فوق جهاز العرض يعد طريقة مثالية لتشغيل الجهاز. يتم تضمين رف الكاميرا، ويتم دعم حامل الحائط فقط بشكل قياسي.

كيف يعمل التتبع الصوتي SmartCam A12

تتمتع عدسات PTZ الرئيسية بأدوار متساوية - وتتمثل مهمتها في تتبع مقدمي العرض بالتناوب وعرض الخطة الشاملة. يتم إجراء تحليلات الصورة العامة في الغرفة وتحديد المسافة إلى الأشياء باستخدام تدفقات الفيديو المستلمة من كاميرتين مدمجتين في قاعدة النظام. تتيح لك هذه الميزة تقليل وقت رد فعل العدسة عند تغيير مكبر الصوت إلى 1-2 ثانية. وتتمكن الكاميرا من التناوب بين المشاركين بإيقاع مريح، حتى لو تبادلوا جملاً قصيرة.
يعكس عرض الفيديو لتشغيل النظام الوظيفة بشكل كامل سمارت كام A12VT. لكن بالنسبة لأولئك الذين لم يشاهدوا الفيديو، سأصف بالكلمات مبدأ تشغيل الأتمتة:

  1. الغرفة فارغة: إحدى العدسات تظهر المخطط العام والثانية جاهزة - في انتظار الناس
  2. يدخل الأشخاص إلى الغرفة ويأخذون مقاعدهم: تعثر العدسة الحرة على المشاركين المتطرفين وتؤطر الصورة من حولهم، وتقطع الجزء الفارغ من الغرفة
  3. أثناء تحرك الأشخاص، تتناوب العدسات لتتبع كل شخص في الغرفة، وإبقائهم في وسط الإطار
  4. يبدأ المتحدث في التحدث: العدسة نشطة، ومُعدلة وفقًا للمخطط العام. والثاني يستهدف السماعة، وعندها فقط يدخل في وضع البث
  5. يتغير مكبر الصوت: العدسة التي تم ضبطها على مكبر الصوت الأول نشطة، والعدسة الثانية تسقط اللقطة الواسعة وتتكيف مع مكبر الصوت الجديد
  6. في لحظة تبديل الصورة من السماعة الأولى إلى الثانية، يتم ضبط العدسة الحرة على الفور على المخطط العام للغرفة
  7. إذا صمت الجميع، ستعرض العدسة الحرة مخططًا عامًا جاهزًا دون أي تأخير
  8. إذا تغير مكبر الصوت مرة أخرى، فسوف تذهب العدسة الحرة للبحث عنه

اختتام

في رأيي، هذا الحل، الذي تم تقديمه في ISE وISR العام الماضي، يجعل التكنولوجيا العالية أقرب - إن لم يكن من الناس، فمن المؤكد أنه من الأعمال التجارية. من الواضح أنه مقابل 400 ألف روبل، سيشتري عدد قليل من الناس مثل هذه "اللعبة" للمنزل، ولكن بالنسبة للأعمال التجارية ومؤتمرات الفيديو للشركات، يعد هذا حلاً مناسبًا وبأسعار معقولة جدًا لمشكلة التصويب التلقائي للكاميرا.
نظرا للتنوع SmartCam A12 تتبع الصوتيمكن استخدام النظام كحل من الصفر، أو كامتداد لوظيفة البنية التحتية الحالية لمؤتمرات الفيديو. يعد الاتصال عبر HDMI خطوة كبيرة نحو المستخدم، على عكس الأنظمة الخاصة بالمصنعين الموصوفين أعلاه.

أود أن أشكر الشركاء الذين ساعدوا في الاختبار.
شركة IPmatika — لمحطة Yealink VC880 وغرفة الاجتماعات وYakushina Yura.
شركة الذكية-AV — لحق المراجعة الأولى والحصرية للحل وتوفير النظام SmartCam A12 تتبع الصوت للاختبار.

في المقال الأخير مصمم غرف الاجتماعات عبر الإنترنت - اختيار الحل الأمثل لعقد مؤتمرات الفيديو، كترويج لموقع الويب vc4u.ru и مصمم VKS أعلنا خصم 10% من السعر في دليل عن طريق كلمة الكود حبر حتى نهاية صيف 2019.

ينطبق الخصم على المنتجات في الأقسام التالية:

الى القرار SmartCam A12 تتبع الصوت أقدم خصمًا إضافيًا بنسبة 5% إلى الـ 10% الموجودة بالفعل - بإجمالي 15% حتى نهاية صيف 2019.

وإنني أتطلع إلى تعليقاتكم وإجاباتكم في الاستطلاع!

شكرا لكم على اهتمامكم.
مع خالص التقدير،
كيريل أوسيكوف (أوسيكوف)
رئيس ل
أنظمة المراقبة بالفيديو ومؤتمرات الفيديو
[البريد الإلكتروني محمي]
stss.ru
vc4u.ru

يمكن للمستخدمين المسجلين فقط المشاركة في الاستطلاع. تسجيل الدخول، من فضلك.

ما مدى فائدة تتبع الصوت SmartCam A12؟

  • أخيرًا، ظهر حل عالمي لمحطات البرامج والأجهزة!

  • الحل جيد ولكن هناك خيارات أخرى متاحة (سأكتبها في التعليقات)

  • النظام ضعيف ولا يصل إلى Polycom وCisco - سأكتب في التعليقات لماذا يجب أن تدفع 3 مرات أكثر!

  • من الذي يحتاج إلى التوجيه التلقائي في غرفة الاجتماعات على أية حال؟

  • من يحتاج إلى كاميرا PTZ في غرفة الاجتماعات على أية حال؟ - لقد قمت بتوصيل كاميرا الويب وكان الأمر جيدًا!

صوت 8 مستخدمين. امتنع 5 مستخدما عن التصويت.

المصدر: www.habr.com

إضافة تعليق