Fungsi penargetan kamera dengan suara menjadi lebih mudah diakses - solusi universal Pelacakan Suara SmartCam A12

Fungsi penargetan kamera dengan suara menjadi lebih mudah diakses - solusi universal Pelacakan Suara SmartCam A12Topik pelacakan peserta konferensi video telah mendapatkan momentum selama beberapa tahun terakhir. Teknologi telah memungkinkan penerapan algoritme kompleks untuk memproses informasi audio/video secara real time, yang mendorong Polycom, hampir 10 tahun lalu, memperkenalkan solusi mainstream pertama di dunia dengan pelacakan speaker otomatis yang cerdas. Selama beberapa tahun mereka berhasil tetap menjadi satu-satunya pemilik solusi semacam itu, tetapi Cisco tidak perlu menunggu lama dan meluncurkan versi sistem dua kamera cerdas mereka ke pasar, yang merupakan pesaing yang adil terhadap solusi dari Polycom. Selama bertahun-tahun, segmen konferensi video ini dibatasi oleh kemampuan beberapa orang hak milik produk, tapi artikel ini didedikasikan untuk yang pertama universal solusi untuk panduan kamera melalui suara, kompatibel dengan infrastruktur perangkat keras dan perangkat lunak konferensi video.
Sebelum melanjutkan untuk menjelaskan solusi dan mendemonstrasikan kemampuan, saya ingin mencatat sebuah peristiwa penting:
Saya merasa terhormat untuk mempersembahkannya kepada komunitas Habra pusat baru, didedikasikan untuk solusi konferensi video (VCC). Sekarang, berkat upaya bersama (ranjau dan UFO), Konferensi video memiliki rumahnya sendiri di Habré, dan saya mengundang semua orang yang terlibat dalam topik yang luas dan terkini ini untuk berlangganan pusat baru.

Dua skenario untuk mengarahkan kamera ke speaker

Saat ini, integrator solusi konferensi video memilih sendiri dua cara berbeda untuk melaksanakan tugas menargetkan presenter:

  1. Otomatis - Cerdas
  2. Semi-otomatis - dapat diprogram

Opsi pertama hanyalah solusi dari Cisco, Polycom, dan produsen lain, kami akan mempertimbangkannya di bawah. Di sini kita berhadapan dengan otomatisasi penuh dalam mengarahkan kamera ke peserta yang berbicara dalam konferensi video. Algoritme unik untuk memproses sinyal audio/video memungkinkan kamera memilih posisi yang diinginkan secara mandiri.

Opsi kedua adalah sistem otomasi berdasarkan berbagai pengontrol kontrol eksternal, kami tidak akan mempertimbangkannya secara rinci, karena Artikel ini dikhususkan untuk pelacakan otomatis speaker.
Ada cukup banyak pendukung skenario kedua untuk menerapkan penunjukan kamera, dan ada alasannya. Integrator berpengalaman memahami bahwa solusi cerdas dari Polycom dan Cisco memerlukan kondisi pengoperasian yang ideal agar otomatisasi dapat berfungsi dengan baik. Namun tidak selalu mungkin untuk memberikan kondisi seperti itu, sehingga pengoperasian sistem terkadang dijamin dengan solusi berikut untuk masalah penunjukan kamera:

1. Semua preset yang diperlukan (posisi perangkat PTZ dan faktor zoom optik) dimasukkan secara manual terlebih dahulu ke dalam memori kamera (atau terkadang ke pengontrol kontrol). Biasanya, ini adalah rencana umum ruang rapat, dan pemandangan setiap peserta konferensi dalam mode potret.

2. Selanjutnya, inisiator untuk memanggil preset yang diperlukan dipasang di tempat yang ditentukan - ini adalah konsol mikrofon atau tombol radio, secara umum, perangkat apa pun yang dapat memberikan sinyal yang dapat dimengerti oleh pengontrol kontrol.

3. Pengontrol kontrol diprogram sedemikian rupa sehingga setiap inisiator memiliki presetnya sendiri. Rencana umum ruangan - semua inisiator dimatikan.
Akibatnya, ketika menggunakan sistem kongres, misalnya, dan pengontrol kontrol, pembicara, sebelum memulai pidatonya, mengaktifkan konsol mikrofon pribadinya. Sistem kontrol langsung memproses posisi kamera yang disimpan.

Skenario ini bekerja dengan sempurna - sistem tidak perlu melakukan triangulasi suara dan analisis video. Saya menekan tombol dan preset berfungsi, tidak ada penundaan atau kesalahan positif.
Sistem kontrol dan otomasi digunakan di ruangan besar dan kompleks, di mana terkadang tidak hanya satu, tetapi beberapa kamera video dipasang. Nah, untuk ruang rapat berukuran kecil dan menengah, sistem otomatis cukup cocok (bila Anda punya budget).
Mari kita mulai dengan para founding fathers.

Direktur Polycom EagleEye

Fungsi penargetan kamera dengan suara menjadi lebih mudah diakses - solusi universal Pelacakan Suara SmartCam A12Solusi ini pernah menimbulkan sensasi di bidang konferensi video. Polycom EagleEye Director adalah solusi pertama di bidang panduan kamera cerdas. Solusinya terdiri dari unit dasar EagleEye Director dan dua kamera. Keunikan dari implementasi pertama tersebut adalah bahwa satu kamera dialokasikan hanya untuk pandangan dekat pembicara, dan yang kedua - untuk rencana umum ruang pertemuan. Pada saat yang sama, kamera rencana umum dapat ditempatkan sepenuhnya terpisah dari pangkalan di tempat lain di ruang pertemuan - kamera ini tidak terlibat langsung dalam proses panduan otomatis.
Sistem bekerja sebagai berikut:

  1. Kamera ruangan umum aktif - semua orang diam
  2. Pembicara mulai berbicara - rangkaian mikrofon menangkap suara, kamera bergerak ke arah suara menggunakan teknologi yang dipatenkan yang mencakup triangulasi suara. Kamera umum masih aktif
  3. Kamera utama baru mulai mencari sumber suara, melakukan analisis video. Sistem mengidentifikasi pembicara melalui koneksi mata-hidung-mulut, membingkai gambar pembicara dan menampilkan aliran dari kamera utama
  4. Pembicaranya berubah. Rangkaian mikrofon memahami bahwa suara tersebut berasal dari tempat lain. Paket umum diaktifkan kembali.
  5. Dan kemudian membentuk lingkaran, dimulai dari titik 2
  6. Jika speaker baru berada dalam frame dengan speaker sebelumnya, sistem membuat perubahan posisi “panas” tanpa mengubah aliran aktif ke pengambilan gambar umum.

Kekurangannya menurut saya adalah hadirnya satu kamera utama saja. Hal ini mengakibatkan penundaan yang signifikan saat mengganti speaker. Dan setiap kali pada saat penunjukan, sistem menyalakan rencana umum ruangan - selama percakapan yang hidup, kedipan ini mulai mengganggu.

Direktur Polycom EagleEye II

Fungsi penargetan kamera dengan suara menjadi lebih mudah diakses - solusi universal Pelacakan Suara SmartCam A12Ini adalah solusi versi kedua dari Polycom, yang dirilis relatif baru. Prinsip pengoperasiannya telah mengalami perubahan dan menjadi lebih mirip solusi dari Cisco. Kini kedua kamera PTZ menjadi yang utama dan berfungsi untuk berpindah saluran dengan mulus dari satu presenter ke presenter lainnya. Tata letak umum ruang pertemuan kini ditangkap oleh kamera terpisah yang terintegrasi ke dalam tubuh unit dasar EagleEye Director II. Entah kenapa, aliran dari kamera sudut lebar ini ditampilkan di jendela tambahan di sudut layar, menempati 1/9 aliran utama. Prinsip pemosisiannya sama - triangulasi suara dan analisis aliran video. Dan hambatannya sama: jika sistem tidak melihat mulut yang berbicara, kamera tidak akan membidik. Dan situasi ini dapat terjadi cukup sering - pembicara berpaling, pembicara menoleh ke samping, pembicara adalah ahli bicara perut, pembicara menutup mulutnya dengan tangan atau dokumen.
Kedua video promosi tersebut diambil dengan kompeten - 2 orang berbicara secara bergantian, dan membuka mulut seolah-olah sedang membuat janji dengan ahli terapi wicara. Namun bahkan dalam kondisi yang begitu halus, terdapat penundaan yang sangat signifikan. Namun pembingkaiannya sempurna - bidikan potret yang nyaman.

Cisco TelePresence SpeakerTrack 60

Fungsi penargetan kamera dengan suara menjadi lebih mudah diakses - solusi universal Pelacakan Suara SmartCam A12Untuk menjelaskan solusi ini, saya akan menggunakan teks dari brosur resmi.
SpeakerTrack 60 menggunakan pendekatan kamera ganda yang unik untuk beralih langsung antar peserta dengan cepat. Satu kamera dengan cepat menemukan close-up presenter aktif, sementara kamera lainnya mencari dan menampilkan presenter berikutnya. Fitur MultiSpeaker mencegah peralihan yang tidak perlu jika speaker berikutnya sudah ada dalam frame saat ini.
Sayangnya, saya tidak sempat menguji sendiri SpeakerTrack 60. Oleh karena itu, kesimpulan harus diambil berdasarkan pendapat “dari lapangan” dan berdasarkan hasil analisis video demonstrasi di bawah ini. Saya menghitung penundaan maksimum hampir 8 detik ketika menunjuk presenter baru. Penundaan rata-rata adalah 2-3 detik, dilihat dari videonya.

Kamera Video Pelacakan Cerdas Huawei VPT300

Fungsi penargetan kamera dengan suara menjadi lebih mudah diakses - solusi universal Pelacakan Suara SmartCam A12Saya menemukan solusi ini dari Huawei secara tidak sengaja. Sistem ini berharga sekitar $9K. Hanya berfungsi dengan terminal Huawei. Pengembang menambahkan "trik" mereka sendiri - tata letak video dari dua speaker di satu layar jika tidak ada orang lain di ruangan itu. Dalam hal karakteristik dan fungsionalitas yang dinyatakan, ini adalah versi yang sangat menarik dari sistem panduan otomatis. Namun sayangnya, saya sama sekali tidak menemukan materi demo. Satu-satunya video yang muncul tentang topik ini adalah ulasan video yang diedit tentang solusinya, tanpa suara asli, disetel ke musik. Oleh karena itu, tidak mungkin untuk mengevaluasi kualitas sistem. Karena alasan ini, saya tidak akan mempertimbangkan opsi ini.
Saya melihat Huawei memiliki blog aktif di Habré - mungkin rekan-rekan dapat mempublikasikan beberapa informasi berguna tentang produk ini.

Baru - solusi universal Pelacakan Suara SmartCam A12

Fungsi penargetan kamera dengan suara menjadi lebih mudah diakses - solusi universal Pelacakan Suara SmartCam A12SmartCam A12VT - monoblok, termasuk dua kamera PTZ untuk melacak speaker, dua kamera internal untuk menganalisis tata letak umum ruangan, serta rangkaian mikrofon yang terpasang di dasar casing - seperti yang Anda lihat, tidak ada yang besar dan struktur rapuh seperti milik lawan.
Sebelum saya mulai menjelaskan produk baru, saya akan mengumpulkan karakteristik dan fitur solusi dari Cisco dan Polycom sehingga saya dapat membandingkannya SmartCam A12VT dengan penawaran yang ada.

Direktur Polycom EagleEye

  • Biaya eceran sistem tanpa terminal - $ 13K
  • Biaya minimum solusi EagleEye Director + RealPresence Group 500 — $ 19K
  • Penundaan peralihan rata-rata 3 detik
  • Panduan suara + analisis video
  • Tuntutan tinggi pada wajah pembicara - Anda tidak bisa menyembunyikan mulut Anda
  • Ketidakcocokan dengan peralatan pihak ketiga

Cisco TelePresence SpeakerTrack 60

  • Biaya eceran sistem tanpa terminal - $ 15,9K
  • Biaya minimum solusi TelePresence SpeakerTrack 60 + SX80 Codec - $ 30K
  • Penundaan peralihan rata-rata 3 detik
  • Panduan suara + analisis video
  • Persyaratan untuk wajah pembicara - tidak memeriksa, tidak menemukan informasi
  • Ketidakcocokan dengan peralatan pihak ketiga

Pelacakan Suara SmartCam A12

Sebagai dua keuntungan utama dan tak terbantahkan dari solusi ini Pelacakan Suara SmartCam A12 Saya menemukan:

  1. Fleksibilitas konektivitas — melalui HDMI, sistem terintegrasi dengan sistem terminal konferensi video perangkat keras dan perangkat lunak
  2. Biaya rendah — dengan fungsi serupa, A12VT jauh lebih terjangkau dalam hal anggaran dibandingkan proposal yang dijelaskan di atas.

Untuk mendemonstrasikan cara kerja sistem, kami merekam ulasan video. Tugasnya bukanlah periklanan melainkan fungsional. Oleh karena itu, video tersebut tidak memiliki kesan menyedihkan seperti video promosi Polycom. Tempat yang dipilih untuk presentasi bukanlah kantor perwakilan, melainkan ruang pertemuan laboratorium partner kami, perusahaan IPMatika.
Tujuan saya bukan untuk menyembunyikan kekurangan sistem, tetapi sebaliknya, untuk mengungkap hambatan fungsionalitas, untuk memaksa sistem melakukan kesalahan.

Menurut pendapat saya, sistem berhasil lulus pengujian. Saya mengatakan ini dengan percaya diri karena pada saat menulis artikel ini, solusinya Pelacakan Suara SmartCam A12 mengunjungi selusin ruang pertemuan nyata pelanggan kami. Kerusakan otomatisasi diamati secara eksklusif dalam kondisi pelanggaran aturan pengoperasian yang direkomendasikan. Khususnya, jarak minimum ke peserta terdekat. Jika Anda duduk sangat dekat dengan kamera, kurang dari satu meter, rangkaian mikrofon tidak akan dapat mengenali Anda dan lensa tidak akan dapat melacak Anda.

Fungsi penargetan kamera dengan suara menjadi lebih mudah diakses - solusi universal Pelacakan Suara SmartCam A12

Selain jarak, ada persyaratan lain – ketinggian kamera.

Fungsi penargetan kamera dengan suara menjadi lebih mudah diakses - solusi universal Pelacakan Suara SmartCam A12

Jika kamera dipasang terlalu rendah, masalah dengan penentuan posisi suara dapat terjadi. Sayangnya, opsi di bawah TV tidak berfungsi.
Namun memasang sistem di atas perangkat tampilan adalah cara ideal agar perangkat dapat beroperasi. Rak kamera disertakan; hanya dudukan dinding yang didukung sebagai standar.

Cara kerja Pelacakan Suara SmartCam A12

Lensa PTZ utama memiliki peran yang sama - tugasnya adalah melacak presenter secara bergantian dan menampilkan rencana keseluruhan. Analisis gambaran keseluruhan dalam ruangan dan penentuan jarak ke objek dilakukan dengan menggunakan aliran video yang diterima dari dua kamera yang terintegrasi ke dalam dasar sistem. Fitur ini memungkinkan Anda mengurangi waktu reaksi lensa saat mengganti speaker menjadi 1-2 detik. Kamera berhasil bergantian antar peserta dengan ritme yang nyaman, meskipun mereka bertukar kalimat pendek.
Demonstrasi video pengoperasian sistem sepenuhnya mencerminkan fungsionalitasnya SmartCam A12VT. Namun bagi yang belum menonton videonya, saya akan menjelaskan dengan kata-kata prinsip pengoperasian otomatisasi:

  1. Ruangan itu kosong: salah satu lensa menunjukkan rencana umum, yang kedua siap - menunggu orang
  2. Orang-orang memasuki ruangan dan mengambil tempat duduk mereka: lensa bebas menemukan dua peserta ekstrem dan membingkai gambar di sekitar mereka, memotong bagian kosong ruangan
  3. Saat orang bergerak, lensa secara bergiliran melacak semua orang di ruangan, menjaga mereka tetap berada di tengah bingkai
  4. Pembicara mulai berbicara: lensa aktif, disesuaikan dengan rencana umum. Yang kedua ditujukan ke speaker, dan baru kemudian masuk ke mode siaran
  5. Speaker berubah: lensa yang disesuaikan dengan speaker pertama aktif, dan lensa kedua menghilangkan bidikan lebar dan menyesuaikan dengan speaker baru
  6. Pada saat peralihan gambar dari speaker pertama ke speaker kedua, lensa bebas langsung disesuaikan dengan denah ruangan secara umum
  7. Jika semua orang diam, lensa gratis akan menampilkan rencana umum yang sudah jadi tanpa penundaan
  8. Jika pengeras suara berganti lagi, lensa bebas akan mencarinya

Kesimpulan

Menurut pendapat saya, solusi ini, yang dipresentasikan di ISE dan ISR tahun lalu, membawa teknologi tinggi lebih dekat - jika bukan kepada masyarakat, maka tentunya dengan bisnis. Jelas bahwa hanya sedikit orang yang akan membeli "mainan" seperti itu untuk rumah dengan harga 400 ribu rubel, tetapi untuk bisnis, untuk konferensi video perusahaan, ini adalah solusi yang sangat terjangkau dan nyaman untuk masalah membidik kamera secara otomatis.
Mengingat fleksibilitasnya Pelacakan Suara SmartCam A12, sistem ini dapat digunakan sebagai solusi dari awal, atau sebagai perluasan fungsi infrastruktur konferensi video yang sudah ada. Menghubungkan melalui HDMI merupakan langkah besar bagi pengguna, berbeda dengan sistem milik pabrikan yang dijelaskan di atas.

Saya mengucapkan terima kasih kepada mitra yang membantu dalam pengujian.
perusahaan IPMatika — untuk terminal Yealink VC880, ruang pertemuan dan Yakushina Yura.
perusahaan Cerdas-AV — untuk hak peninjauan pertama dan eksklusif atas solusi dan penyediaan sistem Pelacakan Suara SmartCam A12 untuk pengujian.

Dalam artikel terakhir Perancang ruang pertemuan online - pemilihan solusi konferensi video yang optimal, sebagai promosi situs web vc4u.ru и Perancang VKS kami mengumumkan diskon 10 dari harga masuk direktori dengan kode kata HABR hingga akhir musim panas 2019.

Diskon berlaku untuk produk di bagian berikut:

Untuk keputusan Pelacakan Suara SmartCam A12 Saya menawarkan diskon tambahan 5% dari 10% yang sudah ada - total 15% hingga akhir musim panas 2019.

Saya menantikan komentar dan jawaban Anda dalam survei ini!

Terima kasih atas perhatian Anda.
Hormat kami,
Kirill Usikov (Usikoff)
Kepala
Sistem pengawasan video dan konferensi video
[email dilindungi]
stss.ru
vc4u.ru

Hanya pengguna terdaftar yang dapat berpartisipasi dalam survei. Masuk, silakan.

Seberapa bergunakah Pelacakan Suara SmartCam A12?

  • Akhirnya, solusi universal untuk terminal perangkat lunak dan perangkat keras telah muncul!

  • Solusinya bagus, tetapi ada opsi lain yang tersedia (saya akan menulis di komentar)

  • Sistemnya lemah, tidak menjangkau Polycom dan Cisco - Saya akan menulis di komentar mengapa Anda harus membayar 3 kali lebih banyak!

  • Lagi pula, siapa yang membutuhkan panduan otomatis di ruang rapat?

  • Lagi pula, siapa yang butuh kamera PTZ di ruang rapat? — Saya menghubungkan webcam dan semuanya baik-baik saja!

8 pengguna memilih. 5 pengguna abstain.

Sumber: www.habr.com

Tambah komentar