Funkcija ciljanja kamere glasom postala je dostupnija - univerzalno rješenje SmartCam A12 Voice Tracking

Funkcija ciljanja kamere glasom postala je dostupnija - univerzalno rješenje SmartCam A12 Voice TrackingTema praćenja sudionika koji govore u videokonferenciji dobila je zamah u posljednjih nekoliko godina. Tehnologija je omogućila implementaciju složenih algoritama za obradu audio/video informacija u stvarnom vremenu, što je potaknulo Polycom, prije gotovo 10 godina, da predstavi prvo mainstream rješenje na svijetu s inteligentnim automatskim praćenjem govornika. Nekoliko godina uspijevali su ostati jedini vlasnici ovakvog rješenja, no Cisco nije dugo čekao i na tržište je iznio svoju verziju inteligentnog sustava s dvije kamere, koji je bio poštena konkurencija rješenju iz Polycoma. Dugi niz godina ovaj segment videokonferencije bio je ograničen mogućnostima nekoliko vlasnički proizvoda, ali ovaj je članak posvećen prvom univerzalni rješenje za glasovno navođenje kamerom, kompatibilno s hardverskom i softverskom infrastrukturom videokonferencije.
Prije nego što prijeđem na opisivanje rješenja i demonstraciju mogućnosti, želim napomenuti važan događaj:
Čast mi je predstaviti zajednicu Habra novo čvorište, posvećen videokonferencijskim rješenjima (VCC). Sada, zahvaljujući zajedničkim naporima (mojim i NLO), Video konferencija ima svoj vlastiti dom na Habréu i pozivam sve uključene u ovu opsežnu i aktualnu temu da se pretplate na novo čvorište.

Dva scenarija za usmjeravanje kamere prema govorniku

U ovom trenutku integratori rješenja za videokonferencije biraju za sebe dva različita načina za provedbu zadatka ciljanja izlagača:

  1. Automatski - Inteligentan
  2. Poluautomatski - programabilan

Prva opcija su samo rješenja Cisco, Polycom i drugih proizvođača; razmotrit ćemo ih u nastavku. Ovdje se radi o potpunoj automatizaciji usmjeravanja kamere prema sudioniku video konferencije koji govori. Jedinstveni algoritmi za obradu audio/video signala omogućuju kameri da samostalno odabere željenu poziciju.

Druga opcija su sustavi automatizacije koji se temelje na raznim vanjskim kontrolnim kontrolerima; nećemo ih detaljno razmatrati, jer Članak je posebno posvećen automatskom praćenju govornika.
Ima dosta pristaša drugog scenarija implementacije usmjeravanja kamera i za to postoje razlozi. Iskusni integratori razumiju da inteligentna rješenja iz Polycoma i Cisca zahtijevaju idealne radne uvjete za ispravno funkcioniranje automatizacije. Ali nije uvijek moguće osigurati takve uvjete, pa je rad sustava ponekad zajamčen sljedećim rješenjem problema usmjeravanja kamere:

1. Sve potrebne unaprijed postavljene postavke (pozicije PTZ uređaja i faktor optičkog zumiranja) unaprijed se ručno unose u memoriju kamere (ili ponekad u kontrolni kontroler). U pravilu, ovo je opći plan sobe za sastanke i pogled na svakog sudionika konferencije u portretnom načinu.

2. Dalje, inicijatori za pozivanje tražene postavke instalirani su na određenim mjestima - to su ili mikrofonske konzole ili radio gumbi, općenito, bilo koji uređaj koji može pružiti upravljačkom kontroleru signal koji razumije.

3. Upravljački kontroler je programiran na takav način da svaki inicijator ima vlastitu unaprijed postavljenu postavku. Opći plan sobe - svi inicijatori su isključeni.
Kao rezultat toga, pri korištenju npr. kongresnog sustava i upravljačke jedinice, govornik, prije nego što započne svoj govor, aktivira svoju osobnu mikrofonsku konzolu. Kontrolni sustav trenutačno obrađuje spremljenu poziciju kamere.

Ovaj scenarij funkcionira besprijekorno – sustav ne treba provoditi glasovnu triangulaciju i video analitiku. Pritisnuo sam gumb i unaprijed postavljeno je radilo, bez kašnjenja ili lažnih pozitivnih rezultata.
Sustavi upravljanja i automatizacije koriste se u velikim, složenim prostorijama, gdje ponekad nije instalirana jedna, već nekoliko video kamera. Pa, za male i srednje sobe za sastanke, automatski sustavi su sasvim prikladni (ako imate proračun).
Počnimo s očevima utemeljiteljima.

Polycom EagleEye direktor

Funkcija ciljanja kamere glasom postala je dostupnija - univerzalno rješenje SmartCam A12 Voice TrackingOvo je rješenje svojedobno izazvalo senzaciju u području video konferencija. Polycom EagleEye Director bio je prvo rješenje u području inteligentnog navođenja kamerom. Rješenje se sastoji od EagleEye Director bazne jedinice i dvije kamere. Posebnost te prve implementacije je da je jedna kamera namijenjena samo krupnom planu govornika, a druga - općem planu sobe za sastanke. Istodobno, kamera općeg plana može se postaviti potpuno odvojeno od baze na drugom mjestu u sobi za sastanke - nije izravno uključena u proces automatskog navođenja.
Sustav radi na sljedeći način:

  1. Kamera opće sobe je aktivna - svi šute
  2. Govornik počinje govoriti - niz mikrofona hvata glas, kamera se kreće prema zvuku pomoću patentirane tehnologije koja uključuje glasovnu triangulaciju. Opća kamera je još uvijek aktivna
  3. Glavna kamera tek počinje tražiti izvor zvuka, provodeći video analitiku. Sustav identificira govornika pomoću veze oko-nos-usta, kadrira sliku govornika i prikazuje stream s glavne kamere
  4. Govornik se mijenja. Mikrofonski niz razumije da glas dolazi s drugog mjesta. Opći plan se ponovno uključuje.
  5. A zatim u krug, počevši od točke 2
  6. Ako je novi zvučnik u kadru s prethodnim, sustav čini "vruću" promjenu pozicioniranja bez promjene aktivnog toka na opću snimku.

Nedostatak je, po mom mišljenju, prisutnost samo jedne glavne kamere. To rezultira značajnim kašnjenjem pri promjeni zvučnika. I svaki put u trenutku pokazivanja, sustav uključuje opći plan sobe - tijekom živahnog razgovora ovo treperenje počinje iritirati.

Polycom EagleEye Direktor II

Funkcija ciljanja kamere glasom postala je dostupnija - univerzalno rješenje SmartCam A12 Voice TrackingOvo je druga verzija rješenja tvrtke Polycom, koja je objavljena relativno nedavno. Načelo rada je doživjelo promjene i postalo je više poput rješenja iz Cisca. Sada su obje PTZ kamere glavne i služe za besprijekorno prebacivanje kanala s jednog voditelja na drugog. Opći izgled sobe za sastanke sada je snimljen zasebnom kamerom integriranom u tijelo osnovne jedinice EagleEye Director II. Iz nekog razloga, tok s ove širokokutne kamere prikazuje se u dodatnom prozoru u kutu zaslona, ​​zauzimajući 1/9 glavnog toka. Princip pozicioniranja je isti - glasovna triangulacija i analiza video streama. A uska grla su ista: ako sustav ne vidi usta koja govore, kamera neće ciljati. A ova situacija se može dogoditi vrlo često - govornik se okrenuo, govornik se okrenuo na stranu, govornik je trbuhozborac, govornik je pokrio usta rukom ili dokumentom.
Oba promotivna videa snimljena su kompetentno - 2 osobe govore naizmjence i otvaraju usta kao da su na pregledu kod logopeda. Ali čak iu takvim rafiniranim uvjetima postoji vrlo značajno kašnjenje. Ali kadriranje je besprijekorno - ugodna portretna snimka.

Cisco TelePresence SpeakerTrack 60

Funkcija ciljanja kamere glasom postala je dostupnija - univerzalno rješenje SmartCam A12 Voice TrackingZa opis ovog rješenja poslužit ću se tekstom iz službene brošure.
SpeakerTrack 60 koristi jedinstveni pristup dvije kamere za brzo prebacivanje izravno između sudionika. Jedna kamera brzo pronalazi krupni plan aktivnog prezentera, dok druga traži i prikazuje sljedećeg prezentera. Značajka MultiSpeaker sprječava nepotrebno prebacivanje ako je sljedeći zvučnik već prisutan u trenutnom okviru.
Nažalost, SpeakerTrack 60 nisam imao priliku sam testirati. Stoga se zaključci moraju donositi na temelju mišljenja „s terena“ i na temelju rezultata analize pokaznog videa u nastavku. Izračunao sam maksimalno kašnjenje od gotovo 8 sekundi kada sam pokazivao na novog izlagača. Prosječno kašnjenje je bilo 2-3 sekunde, sudeći po videu.

HUAWEI inteligentna video kamera za praćenje VPT300

Funkcija ciljanja kamere glasom postala je dostupnija - univerzalno rješenje SmartCam A12 Voice TrackingSlučajno sam naišao na ovo Huaweijevo rješenje. Sustav košta oko 9 tisuća dolara. Radi samo s Huawei terminalima. Programeri su dodali vlastiti "trik" - raspored videa iz dva zvučnika na jednom ekranu ako nema nikoga drugog u sobi. Što se tiče karakteristika i deklarirane funkcionalnosti, ovo je vrlo zanimljiva verzija sustava za automatsko navođenje. Ali, nažalost, nisam pronašao apsolutno nikakav demo materijal. Jedini video koji se pojavio na ovu temu bio je montirani video prikaz rješenja, bez originalnog zvuka, uglazbljen. Stoga nije bilo moguće ocijeniti kvalitetu sustava. Iz tog razloga neću razmatrati ovu opciju.
Vidim da Huawei ima aktivan blog na Habréu - možda će kolege moći objaviti neke korisne informacije o ovom proizvodu.

Novo - univerzalno rješenje SmartCam A12 glasovno praćenje

Funkcija ciljanja kamere glasom postala je dostupnija - univerzalno rješenje SmartCam A12 Voice TrackingSmartCam A12VT - monoblok, uključujući dvije PTZ kamere za praćenje govornika, dvije ugrađene kamere za analizu općeg rasporeda prostorije, kao i niz mikrofona ugrađen u bazu kućišta - kao što vidite, nema glomaznih i krhke strukture poput onih protivnika.
Prije nego počnem opisivati ​​novi proizvod, spojit ću karakteristike i značajke rješenja Cisca i Polycoma kako bih mogao usporediti SmartCam A12VT s postojećim ponudama.

Polycom EagleEye direktor

  • Maloprodajna cijena sustava bez terminala - $ 13K
  • Minimalni trošak rješenja EagleEye Director + RealPresence Group 500 — $ 19K
  • Prosječno kašnjenje uključivanja 3 sekunde
  • Glasovno navođenje + video analitika
  • Visoki zahtjevi za lice govornika - ne možete sakriti usta
  • Nekompatibilnost s opremom treće strane

Cisco TelePresence SpeakerTrack 60

  • Maloprodajna cijena sustava bez terminala - $ 15,9K
  • Minimalna cijena rješenja TelePresence SpeakerTrack 60 + SX80 Codec - $ 30K
  • Prosječno kašnjenje uključivanja 3 sekunde
  • Glasovno navođenje + video analitika
  • Zahtjevi za lice govornika - nisam provjerio, nisam pronašao informacije
  • Nekompatibilnost s opremom treće strane

SmartCam A12 glasovno praćenje

  • Maloprodajna cijena sustava bez terminala - $ 6,2K
  • Minimalni trošak rješenja SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Minimalni trošak rješenja SmartCam A12VT+ softverski terminal - $ 7,7K
  • Prosječno kašnjenje uključivanja 3 sekunde
  • Glasovno navođenje + video analitika
  • Zahtjevi za lice govornika - nema zahtjeva
  • Kompatibilnost trećih strana - HDMI

Kao dvije glavne i neporecive prednosti rješenja SmartCam A12 glasovno praćenje nalazim:

  1. Svestranost povezivanja — preko HDMI-a, sustav se integrira s hardverskim i softverskim terminalnim sustavima za video konferencije
  2. Niska cijena — sa sličnom funkcionalnošću, A12VT je višestruko pristupačniji s proračunom od gore opisanih prijedloga.

Kako bismo pokazali kako sustav funkcionira, snimili smo video pregled. Zadatak nije bio toliko reklamni koliko funkcionalni. Stoga je spot lišen patetike reklamnog spota Polycoma. Mjesto održavanja prezentacije nije bilo predstavništvo, već prostor za sastanke laboratorija našeg partnera, tvrtke IPMatika.
Moj cilj nije bio sakriti nedostatke sustava, već, naprotiv, razotkriti uska grla funkcionalnosti, natjerati sustav na greške.

Po mom mišljenju, sustav je uspješno prošao testove. Kažem ovo s povjerenjem jer u vrijeme pisanja ovog članka, rješenje SmartCam A12 glasovno praćenje posjetili desetak stvarnih soba za sastanke naših kupaca. Kvarovi automatizacije uočeni su isključivo u uvjetima kršenja preporučenih pravila rada. Konkretno, minimalna udaljenost do obližnjih sudionika. Ako sjedite vrlo blizu kamere, manje od metra, mikrofonski niz vas neće moći prepoznati, a objektiv vas neće moći pratiti.

Funkcija ciljanja kamere glasom postala je dostupnija - univerzalno rješenje SmartCam A12 Voice Tracking

Osim udaljenosti, postoji još jedan zahtjev - visina kamere.

Funkcija ciljanja kamere glasom postala je dostupnija - univerzalno rješenje SmartCam A12 Voice Tracking

Ako je kamera postavljena prenisko, mogu se pojaviti problemi s glasovnim pozicioniranjem. Opcija ispod TV-a, nažalost, nije radila.
Ali instaliranje sustava iznad uređaja za prikaz idealan je način za rad uređaja. Polica za kameru je uključena; standardno je podržan samo zidni nosač.

Kako funkcionira SmartCam A12 Voice Tracking

Glavne PTZ leće imaju jednake uloge - njihova je zadaća naizmjenično pratiti prezentere i prikazati cjelokupni plan. Analitika ukupne slike u prostoriji i određivanje udaljenosti do objekata provodi se pomoću video tokova primljenih s dvije kamere integrirane u bazu sustava. Ova značajka omogućuje smanjenje vremena reakcije leće pri promjeni zvučnika na 1-2 sekunde. Kamera uspijeva izmjenjivati ​​sudionike u ugodnom ritmu, čak i ako razmjenjuju kratke rečenice.
Video demonstracija rada sustava u potpunosti odražava funkcionalnost SmartCam A12VT. Ali, za one koji nisu gledali video, riječima ću opisati princip rada automatike:

  1. Soba je prazna: jedna od leća prikazuje opći plan, druga je spremna - čeka ljude
  2. Ljudi ulaze u prostoriju i zauzimaju svoja mjesta: slobodna leća pronalazi dva ekstremna sudionika i uokviruje sliku oko njih, odsijecajući prazan dio sobe
  3. Dok se ljudi kreću, leće naizmjence prate sve u prostoriji, držeći ih u središtu kadra
  4. Govornik počinje govoriti: leća je aktivna, prilagođena općem planu. Drugi je usmjeren prema govorniku, a tek tada prelazi u način emitiranja
  5. Zvučnik se mijenja: leća prilagođena prvom zvučniku je aktivna, a druga leća ispušta široki kadar i prilagođava se novom zvučniku
  6. U trenutku prebacivanja slike s prvog zvučnika na drugi, slobodna leća trenutno se prilagođava općem planu sobe
  7. Ako svi šute, besplatna leća će bez odlaganja pokazati gotov opći plan
  8. Ako se govornik ponovno promijeni, besplatni objektiv će krenuti u potragu za njim

Zaključak

Po mom mišljenju, ovo rješenje, predstavljeno na ISE i ISR ​​prošle godine, približava visoku tehnologiju - ako ne ljudima, onda sigurno biznisu. Jasno je da će za 400 tisuća rubalja malo ljudi kupiti takvu "igračku" za dom, ali za posao, za korporativne video konferencije, ovo je vrlo pristupačno i praktično rješenje problema automatskog usmjeravanja kamere.
S obzirom na svestranost SmartCam A12 glasovno praćenje, sustav se može koristiti kao rješenje od nule ili kao proširenje funkcionalnosti postojeće videokonferencijske infrastrukture. Spajanje preko HDMI-ja veliki je korak prema korisniku, za razliku od vlasničkih sustava gore opisanih proizvođača.

Želio bih zahvaliti partnerima koji su pomogli u testiranju.
društvo IPMatika — za Yealink VC880 terminal, sobu za sastanke i Yakushina Yura.
društvo Smart-AV — za pravo prvog i isključivog pregleda rješenja i pružanja sustava SmartCam A12 glasovno praćenje za testiranje.

U prošlom članku Dizajner online sobe za sastanke - odabir optimalnog rješenja za video konferencije, kao promocija web stranice vc4u.ru и VKS dizajner objavili smo 10% popusta od cijene u imenik kodnom riječi HABR do kraja ljeta 2019.

Popust se odnosi na proizvode u sljedećim rubrikama:

Na odluku SmartCam A12 glasovno praćenje Nudim dodatnih 5% popusta na već postojećih 10% - ukupno 15% do kraja ljeta 2019.

Veselim se vašim komentarima i odgovorima u anketi!

Hvala na pozornosti.
S poštovanjem,
Kiril Usikov (Usikoff)
Voditelj
Sustavi za videonadzor i videokonferencije
[e-pošta zaštićena]
stss.ru
vc4u.ru

U anketi mogu sudjelovati samo registrirani korisnici. Prijaviti se, molim.

Koliko je korisno SmartCam A12 Voice Tracking?

  • Napokon se pojavilo univerzalno rješenje za softverske i hardverske terminale!

  • Rješenje je dobro, ali postoje i druge dostupne opcije (napisat ću u komentarima)

  • Sustav je slab, ne stiže do Polycoma i Cisca - napisat ću u komentarima zašto biste trebali platiti 3 puta više!

  • Kome uopće treba automatsko navođenje u sobi za sastanke?

  • Kome uopće treba PTZ kamera u sobi za sastanke? — Spojio sam web kameru i bilo je u redu!

Glasovalo je 8 korisnika. Suzdržano je bilo 5 korisnika.

Izvor: www.habr.com

Dodajte komentar