หัวข้อการติดตามผู้เข้าร่วมการพูดในการประชุมทางวิดีโอได้รับแรงผลักดันในช่วงไม่กี่ปีที่ผ่านมา เทคโนโลยีทำให้สามารถใช้อัลกอริธึมที่ซับซ้อนสำหรับการประมวลผลข้อมูลเสียง/วิดีโอแบบเรียลไทม์ได้ ซึ่งทำให้ Polycom เมื่อเกือบ 10 ปีที่แล้วแนะนำโซลูชันกระแสหลักตัวแรกของโลกที่มีการติดตามลำโพงอัตโนมัติอัจฉริยะ เป็นเวลาหลายปีที่พวกเขายังคงเป็นเจ้าของโซลูชันดังกล่าวเพียงคนเดียว แต่ Cisco ก็ไม่ต้องรอนานและนำระบบกล้องสองตัวอัจฉริยะในเวอร์ชันของตนออกสู่ตลาด ซึ่งเป็นคู่แข่งที่ยุติธรรมสำหรับโซลูชันจาก Polycom หลายปีที่ผ่านมา การประชุมทางวิดีโอในส่วนนี้ถูกจำกัดด้วยความสามารถของหลายๆ คน กรรมสิทธิ์ ผลิตภัณฑ์ แต่บทความนี้มีไว้สำหรับบทความแรกเท่านั้น สากล โซลูชันสำหรับการแนะนำกล้องด้วยเสียง เข้ากันได้กับทั้งฮาร์ดแวร์และซอฟต์แวร์โครงสร้างพื้นฐานของการประชุมทางวิดีโอ
ก่อนที่จะอธิบายโซลูชันและสาธิตความสามารถ ฉันต้องการทราบเหตุการณ์สำคัญ:
ฉันรู้สึกเป็นเกียรติที่ได้นำเสนอต่อชุมชนฮาบรา
สองสถานการณ์สำหรับการเล็งกล้องไปที่ลำโพง
ในขณะนี้ ผู้บูรณาการโซลูชันการประชุมทางวิดีโอเลือกด้วยตนเองสองวิธีในการกำหนดเป้าหมายผู้นำเสนอ:
- อัตโนมัติ - อัจฉริยะ
- กึ่งอัตโนมัติ - ตั้งโปรแกรมได้
ตัวเลือกแรกเป็นเพียงโซลูชันจาก Cisco, Polycom และผู้ผลิตรายอื่น เราจะพิจารณาด้านล่าง ที่นี่ เรากำลังจัดการกับระบบอัตโนมัติเต็มรูปแบบในการเล็งกล้องไปที่ผู้เข้าร่วมที่กำลังพูดในการประชุมทางวิดีโอ อัลกอริธึมเฉพาะสำหรับการประมวลผลสัญญาณเสียง/วิดีโอช่วยให้กล้องสามารถเลือกตำแหน่งที่ต้องการได้อย่างอิสระ
ตัวเลือกที่สองคือระบบอัตโนมัติที่ใช้ตัวควบคุมภายนอกต่างๆ เราจะไม่พิจารณาอย่างละเอียดเพราะ บทความนี้มีเนื้อหาเกี่ยวกับการติดตามผู้พูดโดยอัตโนมัติโดยเฉพาะ
มีผู้สนับสนุนจำนวนไม่น้อยในสถานการณ์ที่สองในการใช้การชี้กล้อง และมีเหตุผลในเรื่องนี้ ผู้ประกอบระบบที่มีประสบการณ์เข้าใจว่าโซลูชันอัจฉริยะจาก Polycom และ Cisco ต้องการสภาวะการทำงานที่เหมาะสมที่สุดเพื่อให้ระบบอัตโนมัติทำงานได้อย่างถูกต้อง แต่ไม่สามารถระบุเงื่อนไขดังกล่าวได้เสมอไป ดังนั้นบางครั้งการทำงานของระบบจึงรับประกันได้ด้วยวิธีแก้ปัญหาการชี้ตำแหน่งกล้องต่อไปนี้:
1. การตั้งค่าล่วงหน้าที่จำเป็นทั้งหมด (ตำแหน่งของอุปกรณ์ PTZ และปัจจัยการซูมด้วยเลนส์) จะถูกป้อนล่วงหน้าด้วยตนเองลงในหน่วยความจำของกล้อง (หรือบางครั้งลงในตัวควบคุมควบคุม) ตามกฎแล้ว นี่เป็นแผนทั่วไปของห้องประชุม และมุมมองของผู้เข้าร่วมการประชุมแต่ละคนในโหมดแนวตั้ง
2. ถัดไปตัวเริ่มต้นสำหรับการเรียกค่าที่ตั้งไว้ล่วงหน้าที่ต้องการจะถูกติดตั้งในตำแหน่งที่ระบุ - โดยทั่วไปคือคอนโซลไมโครโฟนหรือปุ่มตัวเลือกโดยทั่วไปคืออุปกรณ์ใด ๆ ที่สามารถให้สัญญาณที่เข้าใจกับตัวควบคุมควบคุมได้
3. ตัวควบคุมควบคุมได้รับการตั้งโปรแกรมในลักษณะที่ตัวเริ่มต้นแต่ละตัวมีการตั้งค่าล่วงหน้าของตัวเอง แผนทั่วไปของห้อง - ผู้ริเริ่มทั้งหมดถูกปิด
ด้วยเหตุนี้ เมื่อใช้ระบบรัฐสภาและตัวควบคุมควบคุม ผู้พูดจะเปิดใช้งานคอนโซลไมโครโฟนส่วนตัวก่อนเริ่มการพูด ระบบควบคุมจะประมวลผลตำแหน่งกล้องที่บันทึกไว้ทันที
สถานการณ์นี้ทำงานได้อย่างไร้ที่ติ - ระบบไม่จำเป็นต้องทำการวิเคราะห์เสียงและการวิเคราะห์วิดีโอ ฉันกดปุ่มและค่าที่ตั้งล่วงหน้าทำงานได้ ไม่มีความล่าช้าหรือผลบวกลวง
ระบบควบคุมและระบบอัตโนมัติใช้ในห้องขนาดใหญ่และซับซ้อน ซึ่งบางครั้งก็ไม่มีการติดตั้งกล้องวิดีโอเพียงตัวเดียว แต่มีกล้องวิดีโอหลายตัว สำหรับห้องประชุมขนาดเล็กและขนาดกลาง ระบบอัตโนมัติค่อนข้างเหมาะสม (ถ้าคุณมีงบ)
เริ่มจากบรรพบุรุษผู้ก่อตั้งกันก่อน
ผู้อำนวยการโพลีคอม EagleEye
โซลูชันนี้เคยสร้างความฮือฮาในด้านการประชุมทางวิดีโอ Polycom EagleEye Director เป็นโซลูชันแรกในด้านการนำทางกล้องอัจฉริยะ โซลูชันประกอบด้วยยูนิตฐาน EagleEye Director และกล้องสองตัว ลักษณะเฉพาะของการใช้งานครั้งแรกคือกล้องตัวหนึ่งได้รับการจัดสรรให้กับผู้บรรยายในระยะใกล้เท่านั้น และตัวที่สอง - สำหรับแผนทั่วไปของห้องประชุม ในเวลาเดียวกัน กล้องวางแผนทั่วไปสามารถแยกออกจากฐานในตำแหน่งอื่นในห้องประชุมได้โดยสิ้นเชิง โดยจะไม่เกี่ยวข้องโดยตรงกับกระบวนการแนะนำอัตโนมัติ
ระบบทำงานดังนี้:
- กล้องห้องทั่วไปเปิดใช้งานอยู่ - ทุกคนเงียบ
- ผู้พูดเริ่มพูด - อาร์เรย์ไมโครโฟนจะจับเสียง จากนั้นกล้องจะเคลื่อนไปทางเสียงโดยใช้เทคโนโลยีที่จดสิทธิบัตรแล้ว ซึ่งรวมถึงการวิเคราะห์เสียงสามเหลี่ยมด้วย กล้องทั่วไปยังใช้งานได้อยู่
- กล้องหลักเพิ่งเริ่มมองหาแหล่งกำเนิดเสียงเพื่อทำการวิเคราะห์วิดีโอ ระบบระบุผู้พูดด้วยการเชื่อมต่อตา-จมูก-ปาก จัดเฟรมรูปภาพของผู้พูด และแสดงสตรีมจากกล้องหลัก
- ผู้พูดเปลี่ยนไป อาร์เรย์ไมโครโฟนเข้าใจว่าเสียงนั้นมาจากที่อื่น แผนทั่วไปถูกเปิดอีกครั้ง
- แล้วเป็นวงกลมเริ่มจากจุดที่ 2
- หากลำโพงใหม่อยู่ในเฟรมเดียวกับลำโพงตัวก่อนหน้า ระบบจะทำการเปลี่ยนตำแหน่ง "ด่วน" โดยไม่เปลี่ยนกระแสเสียงที่ใช้งานไปเป็นเสียงทั่วไป
ในความคิดของฉันข้อเสียคือการมีกล้องหลักเพียงตัวเดียว ส่งผลให้เกิดความล่าช้าอย่างมากเมื่อเปลี่ยนลำโพง และทุกครั้งที่ชี้ระบบจะเปิดแผนทั่วไปของห้อง - ในระหว่างการสนทนาที่มีชีวิตชีวาการกะพริบนี้เริ่มระคายเคือง
ผู้อำนวยการ Polycom EagleEye II
นี่เป็นเวอร์ชันที่สองของโซลูชันจาก Polycom ซึ่งเปิดตัวค่อนข้างเร็ว ๆ นี้ หลักการทำงานมีการเปลี่ยนแปลงและกลายเป็นเหมือนโซลูชันจาก Cisco มากขึ้น ตอนนี้กล้อง PTZ ทั้งสองตัวเป็นกล้องหลักและทำหน้าที่สลับช่องสัญญาณจากผู้นำเสนอคนหนึ่งไปยังอีกคนหนึ่งได้อย่างราบรื่น ขณะนี้เค้าโครงทั่วไปของห้องประชุมได้รับการบันทึกด้วยกล้องแยกต่างหากที่รวมอยู่ในตัวหน่วยฐาน EagleEye Director II ด้วยเหตุผลบางประการ สตรีมจากกล้องมุมกว้างนี้จะแสดงในหน้าต่างเพิ่มเติมตรงมุมของหน้าจอ ซึ่งกินพื้นที่ 1/9 ของสตรีมหลัก หลักการวางตำแหน่งจะเหมือนกัน - การวิเคราะห์เสียงสามเหลี่ยมและสตรีมวิดีโอ และคอขวดเหมือนกัน คือ ถ้าระบบไม่เห็นปากพูด กล้องก็จะไม่เล็ง และสถานการณ์นี้สามารถเกิดขึ้นได้ค่อนข้างบ่อย - ผู้พูดหันหลังกลับ ผู้พูดหันไปด้านข้าง ผู้พูดเป็นนักพากย์เสียง ผู้พูดปิดปากด้วยมือหรือเอกสาร
วิดีโอโปรโมตทั้งสองถูกถ่ายอย่างมีความสามารถ - มีคน 2 คนพูดตามลำดับและอ้าปากราวกับนัดกับนักบำบัดการพูด แต่ถึงแม้จะอยู่ในสภาพที่ประณีตเช่นนี้ก็ยังเกิดความล่าช้าอย่างมาก แต่การวางเฟรมนั้นไร้ที่ติ - เป็นภาพบุคคลที่สะดวกสบาย
Cisco TelePresence SpeakerTrack 60
เพื่ออธิบายวิธีแก้ปัญหานี้ ฉันจะใช้ข้อความจากโบรชัวร์อย่างเป็นทางการ
SpeakerTrack 60 ใช้แนวทางกล้องคู่อันเป็นเอกลักษณ์เพื่อสลับระหว่างผู้เข้าร่วมโดยตรงอย่างรวดเร็ว กล้องตัวหนึ่งค้นหาภาพระยะใกล้ของผู้นำเสนอที่ใช้งานอยู่อย่างรวดเร็ว ในขณะที่อีกตัวค้นหาและแสดงผู้นำเสนอคนถัดไป คุณสมบัติ MultiSpeaker ป้องกันการสลับโดยไม่จำเป็น หากมีลำโพงตัวถัดไปอยู่ในเฟรมปัจจุบันแล้ว
น่าเสียดายที่ฉันไม่มีโอกาสทดสอบ SpeakerTrack 60 ด้วยตัวเอง จึงต้องสรุปตามความเห็น “จากภาคสนาม” และจากผลการวิเคราะห์จากวิดีโอสาธิตด้านล่างนี้ ฉันนับความล่าช้าสูงสุดเกือบ 8 วินาทีเมื่อชี้ไปที่ผู้นำเสนอคนใหม่ ความล่าช้าโดยเฉลี่ยอยู่ที่ 2-3 วินาที โดยตัดสินจากวิดีโอ
กล้องวิดีโอติดตามอัจฉริยะของ HUAWEI VPT300
ฉันเจอวิธีแก้ปัญหานี้จาก Huawei โดยบังเอิญ ระบบนี้มีราคาประมาณ 9 เหรียญสหรัฐ ใช้งานได้กับเทอร์มินัลของ Huawei เท่านั้น นักพัฒนาได้เพิ่ม "เคล็ดลับ" ของตัวเอง - เลย์เอาต์วิดีโอจากลำโพงสองตัวบนหน้าจอเดียวหากไม่มีใครอยู่ในห้อง ในแง่ของคุณสมบัติและฟังก์ชั่นที่ประกาศ นี่เป็นระบบนำทางอัตโนมัติรุ่นที่น่าสนใจมาก แต่น่าเสียดายที่ฉันไม่พบเนื้อหาสาธิตเลย วิดีโอเดียวที่ปรากฏในหัวข้อนี้คือวิดีโอทบทวนวิธีแก้ปัญหาที่ไม่มีเสียงต้นฉบับและตั้งเป็นเพลง ดังนั้นจึงไม่สามารถประเมินคุณภาพของระบบได้ ด้วยเหตุนี้ ฉันจะไม่พิจารณาตัวเลือกนี้
ฉันเห็นว่า Huawei มีบล็อกเกี่ยวกับHabré - บางทีเพื่อนร่วมงานอาจจะเผยแพร่ข้อมูลที่เป็นประโยชน์เกี่ยวกับผลิตภัณฑ์นี้ได้
ใหม่ - โซลูชันสากล การติดตามด้วยเสียง SmartCam A12
ก่อนที่ฉันจะเริ่มอธิบายผลิตภัณฑ์ใหม่ ฉันจะรวบรวมคุณลักษณะและคุณสมบัติของโซลูชันจาก Cisco และ Polycom เพื่อเปรียบเทียบ
ผู้อำนวยการโพลีคอม EagleEye
- ต้นทุนการขายปลีกระบบไม่มีเทอร์มินัล - $ 13K
- ต้นทุนขั้นต่ำของโซลูชัน EagleEye Director + RealPresence Group 500 — $ 19K
- ความล่าช้าในการสลับเฉลี่ย 3 วินาที
- คำแนะนำด้วยเสียง + การวิเคราะห์วิดีโอ
- มีความต้องการสูงบนใบหน้าของผู้พูด - คุณไม่สามารถซ่อนปากของคุณได้
- ความเข้ากันไม่ได้กับอุปกรณ์ของบุคคลที่สาม
Cisco TelePresence SpeakerTrack 60
- ต้นทุนการขายปลีกระบบไม่มีเทอร์มินัล - $ 15,9K
- ต้นทุนขั้นต่ำของโซลูชัน TelePresence SpeakerTrack 60 + SX80 Codec - $ 30K
- ความล่าช้าในการสลับเฉลี่ย 3 วินาที
- คำแนะนำด้วยเสียง + การวิเคราะห์วิดีโอ
- ข้อกำหนดด้านหน้าตาของผู้พูด - ไม่ได้ตรวจสอบ ไม่พบข้อมูล
- ความเข้ากันไม่ได้กับอุปกรณ์ของบุคคลที่สาม
การติดตามด้วยเสียง SmartCam A12
- ต้นทุนการขายปลีกระบบไม่มีเทอร์มินัล - $ 6,2K
- ต้นทุนโซลูชันขั้นต่ำ
SmartCam A12VT + Yealink VC880 - $ 10.8K - ต้นทุนโซลูชันขั้นต่ำ
เทอร์มินัลซอฟต์แวร์ SmartCam A12VT+ - $ 7,7K - ความล่าช้าในการสลับเฉลี่ย 3 วินาที
- คำแนะนำด้วยเสียง + การวิเคราะห์วิดีโอ
- ข้อกำหนดสำหรับหน้าตาของผู้พูด - ไม่มีข้อกำหนด
- ความเข้ากันได้ของบุคคลที่สาม - HDMI
ข้อได้เปรียบหลักสองประการที่ปฏิเสธไม่ได้ของการแก้ปัญหา การติดตามด้วยเสียง SmartCam A12 ฉันหา:
- ความคล่องตัวในการเชื่อมต่อ — ผ่าน HDMI ระบบจะทำงานร่วมกับระบบเทอร์มินัลการประชุมทางวิดีโอทั้งฮาร์ดแวร์และซอฟต์แวร์
- ต้นทุนต่ำ - ด้วยฟังก์ชันการทำงานที่คล้ายกัน A12VT จึงมีราคาประหยัดกว่าข้อเสนอที่อธิบายไว้ข้างต้นหลายเท่า
เพื่อสาธิตวิธีการทำงานของระบบ เราได้บันทึกวิดีโอรีวิว งานนี้ไม่ได้มีการโฆษณามากนักเท่าที่ใช้งานได้ ดังนั้นวิดีโอนี้จึงปราศจากสิ่งที่น่าสมเพชเหมือนวิดีโอส่งเสริมการขายของ Polycom สถานที่ที่ได้รับเลือกสำหรับการนำเสนอไม่ใช่สำนักงานตัวแทน แต่เป็นห้องประชุมห้องปฏิบัติการของบริษัท IPMatika ซึ่งเป็นพันธมิตรของเรา
เป้าหมายของฉันไม่ใช่การซ่อนข้อบกพร่องของระบบ แต่ในทางกลับกัน เพื่อเปิดเผยปัญหาคอขวดของฟังก์ชันการทำงาน เพื่อบังคับให้ระบบทำผิดพลาด
ในความเห็นของฉัน ระบบผ่านการทดสอบเรียบร้อยแล้ว ฉันพูดแบบนี้อย่างมั่นใจเพราะในขณะที่เขียนบทความนี้วิธีแก้ไข
นอกจากระยะทางแล้ว ยังมีข้อกำหนดอีกประการหนึ่งคือความสูงของกล้อง
หากติดตั้งกล้องต่ำเกินไป อาจเกิดปัญหากับการวางตำแหน่งด้วยเสียง น่าเสียดายที่ตัวเลือกใต้ทีวีใช้งานไม่ได้
แต่การติดตั้งระบบเหนืออุปกรณ์แสดงผลเป็นวิธีที่เหมาะสมที่สุดสำหรับอุปกรณ์ในการทำงาน มีชั้นวางกล้องให้มาด้วย โดยรองรับเฉพาะตัวยึดติดผนังเป็นอุปกรณ์มาตรฐาน
การติดตามด้วยเสียงของ SmartCam A12 ทำงานอย่างไร
เลนส์ PTZ หลักมีบทบาทเท่าเทียมกัน - หน้าที่ของพวกเขาคือติดตามผู้นำเสนอและแสดงแผนโดยรวมสลับกัน การวิเคราะห์ภาพรวมในห้องและการกำหนดระยะห่างจากวัตถุจะดำเนินการโดยใช้วิดีโอสตรีมที่ได้รับจากกล้องสองตัวที่รวมอยู่ในฐานของระบบ คุณสมบัตินี้ช่วยให้คุณลดเวลาตอบสนองของเลนส์เมื่อเปลี่ยนลำโพงเป็น 1-2 วินาที กล้องสามารถสลับระหว่างผู้เข้าร่วมด้วยจังหวะที่สบายๆ แม้ว่าพวกเขาจะแลกเปลี่ยนประโยคสั้นๆ ก็ตาม
วิดีโอสาธิตการทำงานของระบบสะท้อนถึงฟังก์ชันการทำงานอย่างครบถ้วน
- ห้องว่างเปล่า: เลนส์ตัวหนึ่งแสดงแผนผังทั่วไป เลนส์ตัวที่สองพร้อม - กำลังรอผู้คน
- ผู้คนเข้าไปในห้องแล้วนั่งลง: เลนส์ฟรีจะค้นหาผู้เข้าร่วมที่รุนแรงสองคนและจัดเฟรมภาพไว้รอบตัวพวกเขา โดยตัดพื้นที่ว่างของห้องออก
- ในขณะที่ผู้คนกำลังเคลื่อนไหว เลนส์จะผลัดกันติดตามทุกคนในห้อง โดยทำให้พวกเขาอยู่ตรงกลางเฟรม
- ผู้พูดเริ่มพูด: เลนส์ทำงานอยู่ ปรับให้เข้ากับแผนทั่วไป อันที่สองมุ่งเป้าไปที่ผู้พูดและจากนั้นจะเข้าสู่โหมดออกอากาศเท่านั้น
- ลำโพงเปลี่ยนไป: เลนส์ที่ปรับเป็นลำโพงตัวแรกทำงานอยู่ และเลนส์ตัวที่สองจะปล่อยภาพมุมกว้างและปรับให้เข้ากับลำโพงตัวใหม่
- ในขณะที่เปลี่ยนภาพจากลำโพงตัวแรกไปเป็นตัวที่สอง เลนส์อิสระจะถูกปรับให้เข้ากับแผนผังทั่วไปของห้องทันที
- หากทุกคนเงียบ เลนส์ฟรีจะแสดงแผนทั่วไปที่เตรียมไว้โดยไม่ชักช้า
- หากผู้พูดเปลี่ยนอีกครั้ง เลนส์ฟรีก็จะออกตามหาเขา
ข้อสรุป
ในความคิดของฉัน โซลูชันนี้ซึ่งนำเสนอที่ ISE และ ISR เมื่อปีที่แล้ว นำเทคโนโลยีชั้นสูงเข้ามาใกล้ยิ่งขึ้น - หากไม่ใช่กับผู้คน ก็จะนำพาไปสู่ธุรกิจอย่างแน่นอน เห็นได้ชัดว่าสำหรับ 400 รูเบิลมีเพียงไม่กี่คนที่จะซื้อ "ของเล่น" ดังกล่าวสำหรับบ้าน แต่สำหรับธุรกิจสำหรับการประชุมทางวิดีโอขององค์กรนี่เป็นวิธีแก้ปัญหาการเล็งกล้องอัตโนมัติที่ราคาไม่แพงและสะดวกมาก
ให้ความเก่งกาจ
ฉันขอขอบคุณพันธมิตรที่ช่วยในการทดสอบ
บริษัท
บริษัท
ในบทความที่แล้ว
ส่วนลดใช้กับผลิตภัณฑ์ในส่วนต่อไปนี้:
เพื่อประกอบการตัดสินใจ
ฉันหวังว่าจะแสดงความคิดเห็นและคำตอบของคุณในแบบสำรวจ!
ขอบคุณสำหรับความสนใจของคุณ
ขอแสดงความนับถือ
คิริลล์ อูซิคอฟ (
เป็นหัวหน้าของ
ระบบกล้องวงจรปิดและการประชุมทางวิดีโอ
[ป้องกันอีเมล]
เฉพาะผู้ใช้ที่ลงทะเบียนเท่านั้นที่สามารถเข้าร่วมในการสำรวจได้
การติดตามด้วยเสียง SmartCam A12 มีประโยชน์อย่างไร
-
ในที่สุด โซลูชันสากลสำหรับเทอร์มินัลซอฟต์แวร์และฮาร์ดแวร์ก็ปรากฏขึ้น!
-
วิธีแก้ปัญหานั้นดี แต่มีตัวเลือกอื่นให้เลือก (ฉันจะเขียนในความคิดเห็น)
-
ระบบอ่อนแอ ไปไม่ถึง Polycom และ Cisco - ฉันจะเขียนความคิดเห็นว่าทำไมคุณควรจ่ายเพิ่มอีก 3 เท่า!
-
ใครต้องการการนำทางอัตโนมัติในห้องประชุมบ้าง
-
ใครต้องการกล้อง PTZ ในห้องประชุมล่ะ? — ฉันเชื่อมต่อเว็บแคมแล้ว และมันก็ใช้ได้!
ผู้ใช้ 8 คนโหวต ผู้ใช้ 5 รายงดออกเสียง
ที่มา: will.com