Funkcija ciljanja kamere glasom postala je pristupačnija - univerzalno rješenje SmartCam A12 Voice Tracking

Funkcija ciljanja kamere glasom postala je pristupačnija - univerzalno rješenje SmartCam A12 Voice TrackingTema praćenja govornog učesnika na video konferenciji dobila je zamah u posljednjih nekoliko godina. Tehnologija je omogućila implementaciju složenih algoritama za obradu audio/video informacija u realnom vremenu, što je navelo Polycom, prije skoro 10 godina, da uvede prvo svjetsko mainstream rješenje sa inteligentnim automatskim praćenjem zvučnika. Nekoliko godina su uspjeli ostati jedini vlasnici ovakvog rješenja, ali Cisco nije morao dugo čekati i na tržište je iznio svoju verziju inteligentnog sistema sa dvije kamere, koji je bio poštena konkurencija Polycom-ovom rješenju. Dugi niz godina, ovaj segment videokonferencija bio je ograničen mogućnostima nekolicine vlasnički proizvoda, ali ovaj članak je posvećen prvom univerzalni rješenje za glasovno navođenje kamerom, kompatibilno i sa hardverskom i sa softverskom infrastrukturom za video konferencije.
Prije nego što pređem na opisivanje rješenja i demonstraciju mogućnosti, želim napomenuti jedan važan događaj:
Čast mi je predstaviti Habra zajednici novo čvorište, posvećen rješenjima za video konferencije (VCC). Sada, zahvaljujući zajedničkim naporima (moj i NLO), Video konferencije ima svoj dom na Habréu i pozivam sve uključene u ovu opsežnu i aktuelnu temu da se pretplate na novo čvorište.

Dva scenarija za usmjeravanje kamere prema zvučniku

U ovom trenutku, integratori rješenja za video konferencije biraju za sebe dva različita načina implementacije zadatka ciljanja prezentatora:

  1. Automatski - Inteligentan
  2. Poluautomatski - programabilan

Prva opcija su samo rješenja Cisco, Polycom i drugih proizvođača, razmotrit ćemo ih u nastavku. Ovdje se radi o potpunoj automatizaciji usmjeravanja kamere prema učesniku koji govori na video konferenciji. Jedinstveni algoritmi za obradu audio/video signala omogućavaju kameri da samostalno odabere željenu poziciju.

Druga opcija su sistemi automatizacije zasnovani na raznim eksternim kontrolnim kontrolerima, nećemo ih detaljno razmatrati, jer Članak je posebno posvećen automatskom praćenju govornika.
Ima dosta pristalica drugog scenarija za implementaciju usmjeravanja kamere, a za to postoje razlozi. Iskusni integratori razumeju da inteligentna rešenja iz Polycom-a i Cisco-a zahtevaju idealne uslove rada da bi automatizacija ispravno funkcionisala. Ali nije uvek moguće obezbediti takve uslove, pa je rad sistema ponekad zagarantovan sledećim rešenjem za problem usmeravanja kamere:

1. Sve potrebne postavke (pozicije PTZ uređaja i faktor optičkog zuma) se ručno unose unaprijed u memoriju kamere (ili ponekad u kontrolni kontroler). Po pravilu, ovo je generalni plan sale za sastanke, i pogled na svakog učesnika konferencije u portretnom režimu.

2. Dalje, inicijatori za pozivanje tražene postavke su instalirani na određenim mjestima - to su ili mikrofonske konzole ili radio dugmad, općenito, bilo koji uređaj koji može kontrolnom kontroleru dati signal koji razumije.

3. Upravljački kontroler je programiran na način da svaki pokretač ima svoje unaprijed postavljeno. Generalni plan prostorije - svi inicijatori su isključeni.
Kao rezultat toga, kada koristi, na primjer, kongresni sistem i kontrolni kontroler, govornik prije početka govora aktivira svoju ličnu mikrofonsku konzolu. Kontrolni sistem trenutno obrađuje sačuvanu poziciju kamere.

Ovaj scenario funkcioniše besprekorno - sistem ne treba da izvodi glasovnu triangulaciju i video analitiku. Pritisnuo sam dugme i unapred podešeno je radilo, bez kašnjenja ili lažnih pozitivnih rezultata.
Sistemi upravljanja i automatizacije koriste se u velikim, složenim prostorijama, gdje je ponekad instalirana ne jedna, već nekoliko video kamera. Pa, za male i srednje sale za sastanke, automatski sistemi su sasvim prikladni (ako imate budžet).
Počnimo sa očevima osnivačima.

Direktor Polycom EagleEye

Funkcija ciljanja kamere glasom postala je pristupačnija - univerzalno rješenje SmartCam A12 Voice TrackingOvo rješenje je svojevremeno stvorilo senzaciju u oblasti video konferencija. Polycom EagleEye Director bio je prvo rješenje u polju inteligentnog navođenja kamere. Rješenje se sastoji od EagleEye Director bazne jedinice i dvije kamere. Posebnost te prve implementacije je u tome što je jedna kamera dodijeljena samo za krupni plan govornika, a druga - za generalni plan sale za sastanke. Istovremeno, kamera generalnog plana može se postaviti potpuno odvojeno od baze na drugom mjestu u sobi za sastanke - nije direktno uključena u proces automatskog navođenja.
Sistem radi na sljedeći način:

  1. Opća sobna kamera je aktivna - svi šute
  2. Zvučnik počinje da govori - niz mikrofona hvata glas, kamera se kreće prema zvuku koristeći patentiranu tehnologiju koja uključuje triangulaciju glasa. Opća kamera je još uvijek aktivna
  3. Glavna kamera tek počinje da traži izvor zvuka, provodeći video analitiku. Sistem identifikuje zvučnik preko veze oko-nos-usta, kadrira sliku zvučnika i prikazuje stream sa glavne kamere
  4. Zvučnik se mijenja. Niz mikrofona razumije da glas dolazi s drugog mjesta. Generalni plan je ponovo uključen.
  5. A zatim u krug, počevši od tačke 2
  6. Ako se novi zvučnik nalazi u kadru sa prethodnim, sistem vrši „vruću“ promenu pozicioniranja bez promene aktivnog toka na opšti snimak.

Loša strana, po mom mišljenju, je prisustvo samo jedne glavne kamere. Ovo dovodi do značajnog kašnjenja pri promeni zvučnika. I svaki put u trenutku pokazivanja, sistem uključuje opšti plan prostorije - tokom živog razgovora ovo treperenje počinje da iritira.

Polycom EagleEye Director II

Funkcija ciljanja kamere glasom postala je pristupačnija - univerzalno rješenje SmartCam A12 Voice TrackingOvo je druga verzija Polycom-ovog rješenja, koja je objavljena relativno nedavno. Princip rada je pretrpeo promene i postao je više kao rešenje kompanije Cisco. Sada su obje PTZ kamere glavne i služe za neprimetno prebacivanje kanala s jednog prezentera na drugog. Opšti izgled sobe za sastanke sada je snimljen zasebnom kamerom integrisanom u kućište EagleEye Director II bazne jedinice. Iz nekog razloga, stream sa ove širokougaone kamere se prikazuje u dodatnom prozoru u uglu ekrana, zauzimajući 1/9 glavnog toka. Princip pozicioniranja je isti - glasovna triangulacija i analiza video toka. A uska grla su ista: ako sistem ne vidi usta koja govore, kamera neće nišaniti. I ova situacija se može dogoditi prilično često - govornik se okrenuo, govornik se okrenuo na stranu, govornik je ventrilokvist, govornik je pokrio usta rukom ili dokumentom.
Oba promotivna videa su snimljena kompetentno - 2 osobe govore naizmjenično, i otvaraju usta kao na dogovoru sa logopedom. Ali čak iu tako rafiniranim uslovima dolazi do veoma značajnog kašnjenja. Ali kadriranje je besprijekorno - udoban portretni snimak.

Cisco TelePresence SpeakerTrack 60

Funkcija ciljanja kamere glasom postala je pristupačnija - univerzalno rješenje SmartCam A12 Voice TrackingZa opis ovog rješenja koristit ću tekst iz službene brošure.
SpeakerTrack 60 koristi jedinstveni pristup sa dvije kamere za brzo prebacivanje direktno između sudionika. Jedna kamera brzo pronalazi krupni plan aktivnog izlagača, dok druga traži i prikazuje sljedećeg prezentatora. Funkcija MultiSpeaker sprječava nepotrebno prebacivanje ako je sljedeći zvučnik već prisutan u trenutnom kadru.
Nažalost, nisam imao priliku da sam testiram SpeakerTrack 60. Stoga se zaključci moraju donositi na osnovu mišljenja „sa terena“ i na osnovu rezultata analize demonstracionog videa u nastavku. Izbrojao sam maksimalno kašnjenje od skoro 8 sekundi kada sam pokazao na novog izlagača. Prosječno kašnjenje je bilo 2-3 sekunde, sudeći po videu.

HUAWEI inteligentna video kamera za praćenje VPT300

Funkcija ciljanja kamere glasom postala je pristupačnija - univerzalno rješenje SmartCam A12 Voice TrackingSlučajno sam naišao na ovo Huaweijevo rješenje. Sistem košta oko 9 hiljada dolara. Radi samo sa Huawei terminalima. Programeri su dodali svoj "trik" - video raspored sa dva zvučnika na jednom ekranu ako nema nikoga u prostoriji. Što se tiče karakteristika i deklarirane funkcionalnosti, ovo je vrlo zanimljiva verzija sistema automatskog navođenja. Ali, nažalost, nisam našao apsolutno nikakav demo materijal. Jedini video koji se pojavio na ovu temu je montirani video pregled rješenja, bez originalnog zvuka, uglazbljen. Stoga nije bilo moguće ocijeniti kvalitet sistema. Iz tog razloga, neću razmatrati ovu opciju.
Vidim da Huawei ima aktivan blog na Habré-u - možda će kolege moći da objave neke korisne informacije o ovom proizvodu.

Novo - univerzalno rješenje SmartCam A12 praćenje glasa

Funkcija ciljanja kamere glasom postala je pristupačnija - univerzalno rješenje SmartCam A12 Voice TrackingSmartCam A12VT - monoblok, uključujući dvije PTZ kamere za praćenje zvučnika, dvije ugrađene kamere za analizu generalnog rasporeda prostorije, kao i niz mikrofona ugrađen u podnožje kućišta - kao što vidite, nema glomaznih i krhke strukture poput onih protivnika.
Pre nego što počnem da opisujem novi proizvod, sastaviti ću karakteristike i karakteristike rešenja Cisco i Polycom kako bih mogao da uporedim SmartCam A12VT sa postojećim ponudama.

Direktor Polycom EagleEye

  • Maloprodajna cijena sistema bez terminala - $ 13K
  • Minimalni trošak EagleEye Director + RealPresence Group 500 rješenja — $ 19K
  • Prosječno kašnjenje prebacivanja 3 sekunde
  • Glasovno navođenje + video analitika
  • Visoki zahtjevi za lice govornika - ne možete sakriti usta
  • Nekompatibilnost sa opremom treće strane

Cisco TelePresence SpeakerTrack 60

  • Maloprodajna cijena sistema bez terminala - $ 15,9K
  • Minimalna cijena rješenja za TelePresence SpeakerTrack 60 + SX80 Codec - $ 30K
  • Prosječno kašnjenje prebacivanja 3 sekunde
  • Glasovno navođenje + video analitika
  • Zahtjevi za lice govornika - nije provjerio, nije pronašao informacije
  • Nekompatibilnost sa opremom treće strane

SmartCam A12 praćenje glasa

  • Maloprodajna cijena sistema bez terminala - $ 6,2K
  • Minimalni trošak rješenja SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Minimalni trošak rješenja SmartCam A12VT+ softverski terminal - $ 7,7K
  • Prosječno kašnjenje prebacivanja 3 sekunde
  • Glasovno navođenje + video analitika
  • Zahtjevi za lice zvučnika - nema zahtjeva
  • Kompatibilnost trećih strana - HDMI

Kao dvije glavne i neosporne prednosti rješenja SmartCam A12 praćenje glasa nalazim:

  1. Svestranost povezivanja — preko HDMI-ja, sistem se integriše i sa hardverskim i sa softverskim terminalnim sistemima za video konferencije
  2. Niski troškovi — sa sličnom funkcionalnošću, A12VT je mnogo puta pristupačniji po budžetu od gore opisanih prijedloga.

Kako bismo demonstrirali kako sistem radi, snimili smo video pregled. Zadatak nije bio toliko reklamni koliko funkcionalan. Dakle, video je lišen patosa Polycom promotivnog videa. Mjesto održavanja prezentacije nije bilo predstavništvo, već laboratorijska sala za sastanke našeg partnera, kompanije IPMatika.
Moj cilj nije bio sakriti nedostatke sistema, već, naprotiv, razotkriti uska grla funkcionalnosti, natjerati sistem na greške.

Po mom mišljenju, sistem je uspješno prošao testove. Kažem to s povjerenjem jer je u vrijeme pisanja ovog članka rješenje SmartCam A12 praćenje glasa posjetili desetak pravih sala za sastanke naših klijenata. Smetnje u radu automatike uočene su isključivo u uslovima kršenja preporučenih pravila rada. Konkretno, minimalna udaljenost do obližnjih učesnika. Ako sjedite vrlo blizu kamere, manje od metra, mikrofonski niz neće moći da vas prepozna i objektiv neće moći da vas prati.

Funkcija ciljanja kamere glasom postala je pristupačnija - univerzalno rješenje SmartCam A12 Voice Tracking

Osim udaljenosti, postoji još jedan zahtjev - visina kamere.

Funkcija ciljanja kamere glasom postala je pristupačnija - univerzalno rješenje SmartCam A12 Voice Tracking

Ako je kamera postavljena prenisko, može doći do problema sa glasovnim pozicioniranjem. Opcija ispod TV-a, nažalost, nije radila.
Ali instaliranje sistema iznad uređaja za prikaz je idealan način za rad uređaja. Polica za kameru je uključena; samo je zidni nosač podržan kao standard.

Kako radi SmartCam A12 Voice Tracking

Glavni PTZ objektivi imaju jednake uloge - njihov zadatak je da naizmjenično prate izlagače i prikazuju cjelokupni plan. Analitika ukupne slike u prostoriji i određivanje udaljenosti do objekata vrši se korištenjem video tokova primljenih od dvije kamere integrirane u bazu sistema. Ova funkcija vam omogućava da smanjite vrijeme reakcije objektiva prilikom promjene zvučnika na 1-2 sekunde. Kamera uspijeva izmjenjivati ​​sudionike u ugodnom ritmu, čak i ako razmjenjuju kratke rečenice.
Video demonstracija rada sistema u potpunosti odražava funkcionalnost SmartCam A12VT. Ali, za one koji nisu pogledali video, opisat ću riječima princip rada automatike:

  1. Soba je prazna: jedno od sočiva pokazuje opći plan, drugo je spremno - čeka ljude
  2. Ljudi ulaze u prostoriju i zauzimaju svoja mjesta: slobodno sočivo pronalazi dva ekstremna učesnika i uokviruje sliku oko njih, odsijecajući prazan dio sobe
  3. Dok se ljudi kreću, objektivi se naizmjenično prate sve u prostoriji, držeći ih u sredini kadra
  4. Govornik počinje da govori: sočivo je aktivno, prilagođeno opštem planu. Drugi je usmjeren na zvučnik, a tek onda prelazi u način emitiranja
  5. Zvučnik se mijenja: sočivo podešeno na prvi zvučnik je aktivno, a drugo sočivo ispušta široki snimak i prilagođava se novom zvučniku
  6. U trenutku prebacivanja slike sa prvog zvučnika na drugi, slobodno sočivo se trenutno prilagođava opštem planu prostorije
  7. Ako svi šute, besplatni objektiv će bez odlaganja pokazati gotov generalni plan
  8. Ako se zvučnik ponovo promijeni, slobodni objektiv će krenuti u potragu za njim

zaključak

Po mom mišljenju, ovo rješenje, predstavljeno na ISE-u i ISR-u prošle godine, približava visoku tehnologiju – ako ne ljudima, onda biznisu sigurno. Jasno je da će za 400 hiljada rubalja malo ljudi kupiti takvu "igračku" za dom, ali za posao, za korporativne video konferencije, ovo je vrlo pristupačno i praktično rješenje za problem automatskog ciljanja kamere.
S obzirom na svestranost SmartCam A12 praćenje glasa, sistem se može koristiti kao rješenje od nule, ili kao proširenje funkcionalnosti postojeće infrastrukture za video konferencije. Povezivanje putem HDMI-a je veliki korak ka korisniku, za razliku od vlasničkog sistema gore opisanih proizvođača.

Želio bih da se zahvalim partnerima koji su pomogli u testiranju.
Company IPMatika — za terminal Yealink VC880, salu za sastanke i Yakushina Yura.
Company Smart-AV — za pravo prve i ekskluzivne revizije rješenja i obezbjeđenja sistema SmartCam A12 praćenje glasa za testiranje.

U prethodnom članku Online dizajner sobe za sastanke - izbor optimalnog rješenja za video konferencije, kao promocija web stranice vc4u.ru и VKS dizajner objavili smo 10% popusta od cijene u imenik kodnom riječi HABR do kraja ljeta 2019.

Popust se odnosi na proizvode u sljedećim odjeljcima:

Na odluku SmartCam A12 praćenje glasa Nudim dodatnih 5% popusta na već postojećih 10% - ukupno 15% do kraja ljeta 2019.

Radujem se vašim komentarima i odgovorima u anketi!

Hvala na pažnji.
S poštovanjem,
Kiril Usikov (Usikoff)
Šef
Sistemi za video nadzor i video konferencije
[email zaštićen]
stss.ru
vc4u.ru

Samo registrovani korisnici mogu učestvovati u anketi. Prijavite semolim.

Koliko je korisno SmartCam A12 Voice Tracking?

  • Konačno se pojavilo univerzalno rješenje za softverske i hardverske terminale!

  • Rješenje je dobro, ali postoje i druge dostupne opcije (pisat ću u komentarima)

  • Sistem je slab, ne stiže do Polycoma i Cisco-a - u komentarima ću napisati zašto treba platiti 3 puta više!

  • Kome je uopće potrebno automatsko navođenje u sali za sastanke?

  • Kome je uopće potrebna PTZ kamera u sali za sastanke? — Povezao sam web kameru i bilo je u redu!

Glasalo je 8 korisnika. Uzdržano je bilo 5 korisnika.

izvor: www.habr.com

Dodajte komentar