Chức năng nhắm mục tiêu camera bằng giọng nói đã trở nên dễ tiếp cận hơn - giải pháp phổ quát Theo dõi giọng nói SmartCam A12

Chức năng nhắm mục tiêu camera bằng giọng nói đã trở nên dễ tiếp cận hơn - giải pháp phổ quát Theo dõi giọng nói SmartCam A12Chủ đề theo dõi người tham gia phát biểu trong hội nghị truyền hình đã phát triển mạnh mẽ trong vài năm qua. Công nghệ đã giúp triển khai các thuật toán phức tạp để xử lý thông tin âm thanh/video theo thời gian thực, điều này đã thúc đẩy Polycom, gần 10 năm trước, giới thiệu giải pháp chủ đạo đầu tiên trên thế giới với tính năng theo dõi loa tự động thông minh. Trong vài năm, họ vẫn là chủ sở hữu duy nhất của giải pháp như vậy, nhưng Cisco không phải đợi lâu và đưa ra thị trường phiên bản hệ thống hai camera thông minh của họ, một đối thủ cạnh tranh công bằng với giải pháp của Polycom. Trong nhiều năm, phân khúc hội nghị truyền hình này bị hạn chế bởi khả năng của một số độc quyền sản phẩm, nhưng bài viết này được dành riêng cho sản phẩm đầu tiên phổ cập giải pháp camera hướng dẫn bằng giọng nói, tương thích với cả hạ tầng phần cứng và phần mềm cho hội nghị truyền hình.
Trước khi chuyển sang mô tả các giải pháp và thể hiện năng lực, tôi muốn lưu ý một sự kiện quan trọng:
Tôi rất vinh dự được giới thiệu với cộng đồng Habra trung tâm mới, dành riêng cho giải pháp hội nghị truyền hình (VCC). Bây giờ, nhờ những nỗ lực chung (của tôi và UFO), Hội nghị truyền hình có nhà riêng ở Habré và tôi mời tất cả mọi người tham gia vào chủ đề sâu rộng và cập nhật này đăng ký theo dõi trung tâm mới.

Hai tình huống hướng camera vào người nói

Hiện tại, các nhà tích hợp giải pháp hội nghị truyền hình lựa chọn cho mình hai cách khác nhau để thực hiện nhiệm vụ hướng tới người thuyết trình:

  1. Tự động - Thông minh
  2. Bán tự động - lập trình

Lựa chọn đầu tiên chỉ là các giải pháp của Cisco, Polycom và các nhà sản xuất khác, chúng ta sẽ xem xét chúng dưới đây. Ở đây chúng ta đang giải quyết vấn đề tự động hóa hoàn toàn việc hướng camera vào người tham gia phát biểu trong hội nghị truyền hình. Các thuật toán độc đáo để xử lý tín hiệu âm thanh/video cho phép camera chọn vị trí mong muốn một cách độc lập.

Tùy chọn thứ hai là các hệ thống tự động hóa dựa trên các bộ điều khiển điều khiển bên ngoài khác nhau; chúng tôi sẽ không xem xét chúng một cách chi tiết, bởi vì Bài viết được dành riêng cho việc theo dõi tự động của người nói.
Có khá nhiều người ủng hộ kịch bản thứ hai là triển khai tính năng trỏ camera và có nhiều lý do cho điều này. Các nhà tích hợp có kinh nghiệm hiểu rằng các giải pháp thông minh từ Polycom và Cisco yêu cầu các điều kiện vận hành lý tưởng để tự động hóa hoạt động bình thường. Nhưng không phải lúc nào cũng có thể cung cấp các điều kiện như vậy nên hoạt động của hệ thống đôi khi được đảm bảo bằng giải pháp sau cho vấn đề trỏ camera:

1. Tất cả các cài đặt trước cần thiết (vị trí của thiết bị PTZ và hệ số zoom quang) đều được nhập trước theo cách thủ công vào bộ nhớ của máy ảnh (hoặc đôi khi vào bộ điều khiển điều khiển). Theo quy định, đây là sơ đồ chung của phòng họp và là hình ảnh của từng người tham gia hội nghị ở chế độ dọc.

2. Tiếp theo, các bộ khởi tạo để gọi giá trị đặt trước cần thiết được cài đặt ở những nơi đã chỉ định - đây là bảng điều khiển micrô hoặc nút radio, nói chung, bất kỳ thiết bị nào có thể cung cấp cho bộ điều khiển điều khiển một tín hiệu mà nó hiểu được.

3. Bộ điều khiển điều khiển được lập trình theo cách mà mỗi bộ khởi động có cài đặt sẵn riêng. Sơ đồ chung của căn phòng - tất cả các thiết bị khởi động đều bị tắt.
Do đó, chẳng hạn như khi sử dụng hệ thống hội nghị và bộ điều khiển điều khiển, người phát biểu, trước khi bắt đầu bài phát biểu, sẽ kích hoạt bảng điều khiển micrô cá nhân của mình. Hệ thống điều khiển xử lý ngay lập tức vị trí camera đã lưu.

Kịch bản này hoạt động hoàn hảo - hệ thống không cần thực hiện phân tích tam giác giọng nói và phân tích video. Tôi nhấn nút và cài đặt trước đã hoạt động, không có độ trễ hoặc thông báo sai.
Hệ thống điều khiển và tự động hóa được sử dụng trong các phòng lớn, phức tạp, nơi đôi khi không phải một mà là một số máy quay video được lắp đặt. Chà, đối với những phòng họp vừa và nhỏ, hệ thống tự động khá phù hợp (nếu bạn có đủ ngân sách).
Hãy bắt đầu với những người sáng lập.

Giám đốc Polycom EagleEye

Chức năng nhắm mục tiêu camera bằng giọng nói đã trở nên dễ tiếp cận hơn - giải pháp phổ quát Theo dõi giọng nói SmartCam A12Giải pháp này từng tạo nên cơn sốt trong lĩnh vực hội nghị truyền hình. Polycom EagleEye Director là giải pháp đầu tiên trong lĩnh vực hướng dẫn camera thông minh. Giải pháp bao gồm bộ đế EagleEye Director và hai camera. Điểm đặc biệt của cách triển khai đầu tiên đó là một camera chỉ được phân bổ cho chế độ xem cận cảnh của diễn giả và camera thứ hai - cho sơ đồ chung của phòng họp. Đồng thời, camera mặt bằng chung có thể được đặt tách biệt hoàn toàn với đế ở một vị trí khác trong phòng họp - nó không tham gia trực tiếp vào quá trình hướng dẫn tự động.
Hệ thống hoạt động như sau:

  1. Camera phòng chung đang hoạt động - mọi người im lặng
  2. Người nói bắt đầu phát biểu - dãy micrô thu nhận giọng nói, camera di chuyển về phía âm thanh bằng công nghệ đã được cấp bằng sáng chế bao gồm tam giác giọng nói. Camera chung vẫn hoạt động
  3. Camera chính mới bắt đầu tìm kiếm nguồn âm thanh, tiến hành phân tích video. Hệ thống nhận dạng người nói bằng kết nối mắt-mũi-miệng, đóng khung hình ảnh người nói và hiển thị luồng từ camera chính.
  4. Người nói thay đổi. Mảng micro hiểu rằng giọng nói đang đến từ một nơi khác. Kế hoạch chung được bật lại.
  5. Và sau đó đi theo vòng tròn, bắt đầu từ điểm 2
  6. Nếu người nói mới ở trong khung hình với người nói trước đó, hệ thống sẽ thực hiện thay đổi vị trí “nóng” mà không thay đổi luồng hoạt động đối với cảnh quay chung.

Theo tôi, nhược điểm là chỉ có một camera chính. Điều này dẫn đến độ trễ đáng kể khi thay đổi loa. Và mỗi khi chỉ điểm, hệ thống sẽ bật sơ đồ chung của căn phòng - trong một cuộc trò chuyện sôi nổi, sự nhấp nháy này bắt đầu gây khó chịu.

Giám đốc Polycom EagleEye II

Chức năng nhắm mục tiêu camera bằng giọng nói đã trở nên dễ tiếp cận hơn - giải pháp phổ quát Theo dõi giọng nói SmartCam A12Đây là phiên bản thứ hai của giải pháp Polycom, được phát hành tương đối gần đây. Nguyên lý hoạt động đã trải qua những thay đổi và ngày càng trở nên giống một giải pháp của Cisco hơn. Giờ đây, cả hai camera PTZ đều là camera chính và dùng để chuyển kênh liền mạch từ người thuyết trình này sang người thuyết trình khác. Bố cục chung của phòng họp giờ đây được ghi lại bằng một camera riêng biệt được tích hợp vào thân của thiết bị cơ sở EagleEye Director II. Vì lý do nào đó, luồng phát từ camera góc rộng này được hiển thị ở một cửa sổ phụ ở góc màn hình, chiếm 1/9 luồng chính. Nguyên tắc định vị giống nhau - phân tích tam giác giọng nói và phân tích luồng video. Và điểm nghẽn cũng giống nhau: nếu hệ thống không nhìn thấy miệng đang nói, camera sẽ không nhắm mục tiêu. Và tình huống này có thể xảy ra khá thường xuyên - người nói quay đi, người nói quay sang một bên, người nói nói tiếng bụng, người nói lấy tay hoặc tài liệu che miệng.
Cả hai video quảng cáo đều được quay một cách thành thạo - 2 người lần lượt nói và mở miệng như thể đang hẹn gặp bác sĩ trị liệu ngôn ngữ. Nhưng ngay cả trong những điều kiện tinh vi như vậy vẫn có độ trễ rất đáng kể. Nhưng khung hình thì hoàn hảo - một bức ảnh chân dung thoải mái.

Loa Cisco TelePresenceTrack 60

Chức năng nhắm mục tiêu camera bằng giọng nói đã trở nên dễ tiếp cận hơn - giải pháp phổ quát Theo dõi giọng nói SmartCam A12Để mô tả giải pháp này, tôi sẽ sử dụng văn bản từ tài liệu quảng cáo chính thức.
LoaTrack 60 sử dụng phương pháp camera kép độc đáo để nhanh chóng chuyển đổi trực tiếp giữa những người tham gia. Một camera nhanh chóng tìm thấy cận cảnh của người thuyết trình đang hoạt động, trong khi camera còn lại tìm kiếm và hiển thị người thuyết trình tiếp theo. Tính năng MultiSpeaker ngăn chặn việc chuyển đổi không cần thiết nếu loa tiếp theo đã có trong khung hình hiện tại.
Thật không may, tôi không có cơ hội tự mình kiểm tra LoaTrack 60. Vì vậy, kết luận phải được đưa ra dựa trên ý kiến ​​“từ hiện trường” và dựa trên kết quả phân tích video trình diễn dưới đây. Tôi đếm độ trễ tối đa là gần 8 giây khi chỉ vào người thuyết trình mới. Độ trễ trung bình là 2-3 giây, tùy theo video.

Camera Video Theo Dõi Thông Minh Huawei VPT300

Chức năng nhắm mục tiêu camera bằng giọng nói đã trở nên dễ tiếp cận hơn - giải pháp phổ quát Theo dõi giọng nói SmartCam A12Tôi tình cờ biết được giải pháp này từ Huawei. Hệ thống này có giá khoảng 9 nghìn USD. Chỉ hoạt động với thiết bị đầu cuối Huawei. Các nhà phát triển đã thêm "thủ thuật" của riêng họ - bố cục video từ hai loa trên một màn hình nếu không có ai khác trong phòng. Xét về đặc điểm và chức năng được công bố thì đây là phiên bản rất thú vị của hệ thống dẫn đường tự động. Nhưng thật không may, tôi hoàn toàn không tìm thấy tài liệu demo nào. Video duy nhất xuất hiện về chủ đề này là video đánh giá đã chỉnh sửa về giải pháp, không có âm thanh gốc, được đặt thành nhạc. Vì vậy, không thể đánh giá được chất lượng của hệ thống. Vì lý do này, tôi sẽ không xem xét lựa chọn này.
Tôi thấy Huawei có một blog hoạt động trên Habré - có thể các đồng nghiệp sẽ đăng một số thông tin hữu ích về sản phẩm này.

Giải pháp mới - phổ quát Theo dõi giọng nói SmartCam A12

Chức năng nhắm mục tiêu camera bằng giọng nói đã trở nên dễ tiếp cận hơn - giải pháp phổ quát Theo dõi giọng nói SmartCam A12SmartCam A12VT - một khối đơn, bao gồm hai camera PTZ để theo dõi loa, hai camera tích hợp để phân tích bố cục chung của căn phòng, cũng như một dãy micrô được tích hợp ở đế hộp - như bạn có thể thấy, không có sự cồng kềnh và những cấu trúc mỏng manh như của đối thủ.
Trước khi bắt đầu mô tả sản phẩm mới, tôi sẽ tổng hợp các đặc điểm và tính năng của các giải pháp của Cisco và Polycom để có thể so sánh SmartCam A12VT với những ưu đãi hiện có.

Giám đốc Polycom EagleEye

  • Chi phí bán lẻ của hệ thống không có thiết bị đầu cuối - $ 13K
  • Chi phí tối thiểu của giải pháp EagleEye Director + RealPresence Group 500 — $ 19K
  • Độ trễ chuyển đổi trung bình 3 giây
  • Hướng dẫn bằng giọng nói + phân tích video
  • Yêu cầu cao trên khuôn mặt của người nói - bạn không thể giấu được miệng
  • Không tương thích với thiết bị của bên thứ ba

Loa Cisco TelePresenceTrack 60

  • Chi phí bán lẻ của hệ thống không có thiết bị đầu cuối - $ 15,9K
  • Chi phí tối thiểu của giải pháp TelePresence LoaTrack 60 + SX80 Codec - $ 30K
  • Độ trễ chuyển đổi trung bình 3 giây
  • Hướng dẫn bằng giọng nói + phân tích video
  • Yêu cầu về khuôn mặt người nói - không kiểm tra, không tìm thấy thông tin
  • Không tương thích với thiết bị của bên thứ ba

Theo dõi giọng nói SmartCam A12

  • Chi phí bán lẻ của hệ thống không có thiết bị đầu cuối - $ 6,2K
  • Chi phí giải pháp tối thiểu SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Chi phí giải pháp tối thiểu Thiết bị đầu cuối phần mềm SmartCam A12VT+ - $ 7,7K
  • Độ trễ chuyển đổi trung bình 3 giây
  • Hướng dẫn bằng giọng nói + phân tích video
  • Yêu cầu về mặt loa - không yêu cầu
  • Khả năng tương thích của bên thứ ba - HDMI

Là hai ưu điểm chính và không thể phủ nhận của giải pháp Theo dõi giọng nói SmartCam A12 Tôi tìm thấy:

  1. Kết nối linh hoạt — thông qua HDMI, hệ thống tích hợp với cả hệ thống đầu cuối hội nghị truyền hình phần cứng và phần mềm
  2. Chi phí thấp — với chức năng tương tự, A12VT có giá cả phải chăng hơn nhiều lần so với các đề xuất được mô tả ở trên.

Để chứng minh cách hệ thống hoạt động, chúng tôi đã quay video đánh giá. Nhiệm vụ không phải là quảng cáo nhiều mà là chức năng. Vì vậy, video này không có những yếu tố gây bệnh như một video quảng cáo của Polycom. Địa điểm được chọn để thuyết trình không phải là văn phòng đại diện mà là phòng họp trong phòng thí nghiệm của đối tác của chúng tôi, công ty IPMatika.
Mục tiêu của tôi không phải là che giấu những khuyết điểm của hệ thống mà ngược lại, vạch trần những điểm nghẽn trong chức năng, buộc hệ thống mắc lỗi.

Theo tôi, hệ thống đã vượt qua các bài kiểm tra thành công. Tôi tự tin nói điều này vì tại thời điểm viết bài này, giải pháp Theo dõi giọng nói SmartCam A12 đã đến thăm hàng chục phòng họp thực tế của khách hàng. Các trục trặc của tự động hóa chỉ được quan sát thấy trong điều kiện vi phạm các quy tắc vận hành được khuyến nghị. Đặc biệt là khoảng cách tối thiểu với những người tham gia ở gần. Nếu bạn ngồi rất gần camera, chưa đến một mét, dãy micro sẽ không thể nhận ra bạn và ống kính sẽ không thể theo dõi bạn.

Chức năng nhắm mục tiêu camera bằng giọng nói đã trở nên dễ tiếp cận hơn - giải pháp phổ quát Theo dõi giọng nói SmartCam A12

Ngoài khoảng cách, còn có một yêu cầu khác - chiều cao của camera.

Chức năng nhắm mục tiêu camera bằng giọng nói đã trở nên dễ tiếp cận hơn - giải pháp phổ quát Theo dõi giọng nói SmartCam A12

Nếu camera được lắp đặt quá thấp, vấn đề về định vị giọng nói có thể xảy ra. Thật không may, tùy chọn dưới TV không hoạt động.
Nhưng việc lắp đặt hệ thống phía trên thiết bị hiển thị là cách lý tưởng để thiết bị hoạt động. Giá đỡ máy ảnh được bao gồm; chỉ có giá treo tường được hỗ trợ theo tiêu chuẩn.

Cách thức hoạt động của tính năng Theo dõi giọng nói SmartCam A12

Các ống kính PTZ chính có vai trò ngang nhau - nhiệm vụ của chúng là luân phiên theo dõi những người thuyết trình và hiển thị kế hoạch tổng thể. Việc phân tích hình ảnh tổng thể trong phòng và xác định khoảng cách đến các vật thể được thực hiện bằng cách sử dụng các luồng video nhận được từ hai camera được tích hợp vào đế của hệ thống. Tính năng này cho phép bạn giảm thời gian phản ứng của ống kính khi thay đổi loa xuống còn 1-2 giây. Máy ảnh có thể luân phiên giữa những người tham gia với nhịp điệu thoải mái, ngay cả khi họ trao đổi những câu ngắn.
Video trình diễn hoạt động của hệ thống phản ánh đầy đủ chức năng SmartCam A12VT. Tuy nhiên, đối với những ai chưa xem video, tôi sẽ mô tả bằng lời về nguyên lý hoạt động của tự động hóa:

  1. Căn phòng trống: một trong các ống kính hiển thị mặt bằng chung, ống kính thứ hai đã sẵn sàng - đang chờ mọi người
  2. Mọi người vào phòng và ngồi vào chỗ: ống kính tự do tìm thấy hai người tham gia cực đoan và đóng khung hình ảnh xung quanh họ, cắt bỏ phần trống của căn phòng
  3. Trong khi mọi người đang di chuyển, các ống kính sẽ lần lượt theo dõi mọi người trong phòng, giữ họ ở giữa khung hình
  4. Người nói bắt đầu nói: ống kính đang hoạt động, điều chỉnh theo kế hoạch chung. Cái thứ hai nhắm vào người nói và chỉ sau đó mới chuyển sang chế độ phát sóng
  5. Loa thay đổi: ống kính điều chỉnh cho loa đầu tiên đang hoạt động và ống kính thứ hai giảm góc quay rộng và điều chỉnh cho phù hợp với loa mới
  6. Tại thời điểm chuyển hình ảnh từ loa thứ nhất sang loa thứ hai, ống kính tự do sẽ ngay lập tức được điều chỉnh theo sơ đồ chung của căn phòng
  7. Nếu mọi người im lặng, ống kính miễn phí sẽ hiển thị một kế hoạch chung được làm sẵn mà không có bất kỳ sự chậm trễ nào
  8. Nếu người nói lại thay đổi, ống kính tự do sẽ tìm kiếm anh ta

Kết luận

Theo tôi, giải pháp này, được trình bày tại ISE và ISR năm ngoái, đã đưa công nghệ cao đến gần hơn - nếu không phải với người dân thì chắc chắn là với doanh nghiệp. Rõ ràng là với 400 nghìn rúp, sẽ ít người mua một “đồ chơi” như vậy cho gia đình, nhưng đối với doanh nghiệp, cho hội nghị truyền hình của công ty, đây là một giải pháp rất hợp lý và tiện lợi cho vấn đề camera tự động nhắm mục tiêu.
Với tính linh hoạt Theo dõi giọng nói SmartCam A12, hệ thống có thể được sử dụng như một giải pháp từ đầu hoặc như một phần mở rộng chức năng của cơ sở hạ tầng hội nghị truyền hình hiện có. Kết nối qua HDMI là một bước tiến lớn đối với người dùng, trái ngược với hệ thống độc quyền của các nhà sản xuất nêu trên.

Tôi xin cảm ơn các đối tác đã hỗ trợ thử nghiệm.
công ty IPMatika — dành cho thiết bị đầu cuối Yealink VC880, phòng họp và Yakushina Yura.
công ty AV thông minh — để có quyền xem xét đầu tiên và độc quyền về giải pháp và việc cung cấp hệ thống Theo dõi giọng nói SmartCam A12 để thử nghiệm.

Trong bài viết cuối cùng Thiết kế phòng họp trực tuyến - lựa chọn giải pháp hội nghị truyền hình tối ưu, như quảng cáo trang web vc4u.ru и Nhà thiết kế VKS chúng tôi đã công bố giảm giá 10% từ giá trong danh mục bằng từ mã HABR cho đến hết hè 2019.

Chương trình giảm giá áp dụng cho các sản phẩm thuộc các mục sau:

Đến quyết định Theo dõi giọng nói SmartCam A12 Tôi cung cấp giảm giá thêm 5% cho 10% hiện có - tổng cộng là 15% cho đến cuối mùa hè năm 2019.

Tôi rất mong nhận được ý kiến ​​và câu trả lời của bạn trong cuộc khảo sát!

Cảm ơn bạn đã quan tâm của bạn.
Trân trọng,
Kirill Usikov (Usikoff)
Đứng đầu
Hệ thống giám sát video và hội nghị truyền hình
[email được bảo vệ]
stss.ru
vc4u.ru

Chỉ những người dùng đã đăng ký mới có thể tham gia khảo sát. Đăng nhập, xin vui lòng.

Theo dõi giọng nói SmartCam A12 hữu ích như thế nào?

  • Cuối cùng, một giải pháp phổ quát cho thiết bị đầu cuối phần mềm và phần cứng đã xuất hiện!

  • Giải pháp này tốt, nhưng có những lựa chọn khả dụng khác (tôi sẽ viết trong phần bình luận)

  • Hệ thống yếu, không đến được Polycom và Cisco - Tôi sẽ ghi vào phần bình luận lý do tại sao bạn phải trả gấp 3 lần!

  • Ai cần hướng dẫn tự động trong phòng họp?

  • Ai cần camera PTZ trong phòng họp? - Tôi đã kết nối webcam và nó vẫn ổn!

8 người dùng bình chọn. 5 người dùng bỏ phiếu trắng.

Nguồn: www.habr.com

Thêm một lời nhận xét