La funzione di targeting vocale della telecamera è diventata più accessibile: la soluzione universale SmartCam A12 Voice Tracking

La funzione di targeting vocale della telecamera è diventata più accessibile: la soluzione universale SmartCam A12 Voice TrackingIl tema del monitoraggio di un partecipante che parla in una videoconferenza ha acquisito slancio negli ultimi anni. La tecnologia ha reso possibile l'implementazione di algoritmi complessi per l'elaborazione delle informazioni audio/video in tempo reale, che hanno spinto Polycom, quasi 10 anni fa, a introdurre la prima soluzione mainstream al mondo con il tracciamento automatico intelligente degli oratori. Per diversi anni sono riusciti a rimanere gli unici proprietari di una soluzione del genere, ma Cisco non ha dovuto aspettare a lungo e ha lanciato sul mercato la sua versione di un sistema intelligente a due telecamere, che era un giusto concorrente della soluzione Polycom. Per molti anni, questo segmento della videoconferenza è stato limitato dalle capacità di diversi operatori proprietario prodotti, ma questo articolo è dedicato al primo universale soluzione per la guida vocale della telecamera, compatibile con l'infrastruttura hardware e software di videoconferenza.
Prima di passare alla descrizione delle soluzioni e alla dimostrazione delle capacità, voglio sottolineare un evento importante:
Sono onorato di presentare alla comunità Habra nuovo polo, dedicato alle soluzioni di videoconferenza (VCC). Ora, grazie agli sforzi congiunti (mio e UFO), Videoconferenza ha la propria casa su Habré e invito tutti coloro che sono coinvolti in questo argomento ampio e attuale a iscriversi nuovo polo.

Due scenari per puntare la telecamera verso l'oratore

Al momento, gli integratori di soluzioni di videoconferenza scelgono da soli due modi diversi per implementare il compito di rivolgersi al relatore:

  1. Automatico - Intelligente
  2. Semiautomatico - programmabile

La prima opzione sono solo soluzioni di Cisco, Polycom e altri produttori, li considereremo di seguito. Qui abbiamo a che fare con la completa automazione del puntamento della telecamera sul partecipante che parla alla videoconferenza. Algoritmi esclusivi per l'elaborazione dei segnali audio/video consentono alla telecamera di selezionare la posizione desiderata in modo indipendente.

La seconda opzione sono i sistemi di automazione basati su vari controller di controllo esterni; non li considereremo in dettaglio, perché L'articolo è dedicato specificamente al tracciamento automatico degli oratori.
Ci sono parecchi sostenitori del secondo scenario per l'implementazione del puntamento della telecamera, e ci sono ragioni per questo. Gli integratori esperti comprendono che le soluzioni intelligenti di Polycom e Cisco richiedono condizioni operative ideali affinché l'automazione funzioni correttamente. Ma non è sempre possibile fornire tali condizioni, quindi il funzionamento del sistema è talvolta garantito dalla seguente soluzione al problema del puntamento della telecamera:

1. Tutte le preimpostazioni necessarie (posizioni del dispositivo PTZ e fattore di zoom ottico) vengono inserite manualmente in anticipo nella memoria della telecamera (o talvolta nel controller di controllo). Di norma, questa è una pianta generale della sala riunioni e una vista di ciascun partecipante alla conferenza in modalità verticale.

2. Successivamente, gli iniziatori per richiamare la preimpostazione richiesta vengono installati nei luoghi specificati: si tratta di console microfoniche o pulsanti di opzione, in generale, qualsiasi dispositivo in grado di fornire al controller di controllo un segnale che comprende.

3. Il controller di controllo è programmato in modo tale che ciascun iniziatore abbia la propria preimpostazione. Pianta generale della stanza: tutti gli iniziatori sono disattivati.
Di conseguenza, quando si utilizza, ad esempio, un sistema congressuale e un controller di controllo, l'oratore, prima di iniziare il suo intervento, attiva la sua personale consolle microfonica. Il sistema di controllo elabora istantaneamente la posizione salvata della telecamera.

Questo scenario funziona perfettamente: il sistema non ha bisogno di eseguire la triangolazione vocale e l'analisi video. Ho premuto il pulsante e la preimpostazione ha funzionato, senza ritardi o falsi positivi.
I sistemi di controllo e automazione vengono utilizzati in ambienti grandi e complessi, dove a volte non sono installate una, ma diverse telecamere. Ebbene, per le sale riunioni di piccole e medie dimensioni, i sistemi automatici sono abbastanza adatti (se si ha il budget).
Cominciamo dai padri fondatori.

Direttore di Polycom EagleEye

La funzione di targeting vocale della telecamera è diventata più accessibile: la soluzione universale SmartCam A12 Voice TrackingQuesta soluzione una volta fece scalpore nel campo delle videoconferenze. Polycom EagleEye Director è stata la prima soluzione nel campo della guida intelligente delle telecamere. La soluzione è composta da un'unità base EagleEye Director e due telecamere. La particolarità di questa prima implementazione è che una telecamera è assegnata solo a una visione ravvicinata dell'oratore, e la seconda - a una pianta generale della sala riunioni. Allo stesso tempo, la telecamera in pianta generale può essere posizionata in modo completamente separato dalla base in un altro punto della sala riunioni - non è direttamente coinvolta nel processo di guida automatica.
Il sistema funziona come segue:

  1. La telecamera generale della sala è attiva: tutti tacciono
  2. L'oratore inizia a parlare: il microfono capta la voce, la telecamera si sposta verso il suono utilizzando una tecnologia brevettata che include la triangolazione vocale. La telecamera generale è ancora attiva
  3. La fotocamera principale sta appena iniziando a cercare la sorgente sonora, conducendo analisi video. Il sistema identifica l'oratore tramite la connessione occhio-naso-bocca, inquadra l'immagine dell'oratore e visualizza lo streaming della telecamera principale
  4. L'oratore cambia. L'array di microfoni capisce che la voce proviene da un altro luogo. Il piano generale viene riattivato.
  5. E poi in cerchio, partendo dal punto 2
  6. Se il nuovo diffusore è nell'inquadratura con il precedente, il sistema effettua un cambio di posizionamento “a caldo” senza modificare il flusso attivo all'inquadratura generale.

Lo svantaggio, secondo me, è la presenza di una sola fotocamera principale. Ciò si traduce in un ritardo significativo quando si cambiano gli altoparlanti. E ogni volta, al momento del puntamento, il sistema attiva la pianta generale della stanza: durante una conversazione vivace, questo sfarfallio inizia a irritare.

Polycom EagleEye Direttore II

La funzione di targeting vocale della telecamera è diventata più accessibile: la soluzione universale SmartCam A12 Voice TrackingQuesta è la seconda versione della soluzione Polycom, rilasciata relativamente di recente. Il principio di funzionamento ha subito modifiche ed è diventato più simile a una soluzione Cisco. Ora entrambe le telecamere PTZ sono quelle principali e servono per cambiare canale senza soluzione di continuità da un relatore all'altro. La disposizione generale della sala riunioni viene ora catturata da una telecamera separata integrata nel corpo dell'unità base EagleEye Director II. Per qualche motivo, il flusso di questa fotocamera grandangolare viene visualizzato in una finestra aggiuntiva nell'angolo dello schermo, occupando 1/9 del flusso principale. Il principio del posizionamento è lo stesso: triangolazione vocale e analisi del flusso video. E i colli di bottiglia sono gli stessi: se il sistema non vede la bocca che parla, la telecamera non mirerà. E questa situazione può verificarsi abbastanza spesso: l'oratore si è voltato dall'altra parte, l'oratore si è girato di lato, l'oratore è un ventriloquo, l'oratore si è coperto la bocca con la mano o con un documento.
Entrambi i video promozionali sono stati girati con competenza: 2 persone parlano a turno e aprono la bocca come se fossero a un appuntamento con un logopedista. Ma anche in condizioni così raffinate c’è un ritardo molto significativo. Ma l'inquadratura è impeccabile: un ritratto confortevole.

Cisco TelePresence SpeakerTrack 60

La funzione di targeting vocale della telecamera è diventata più accessibile: la soluzione universale SmartCam A12 Voice TrackingPer descrivere questa soluzione utilizzerò il testo della brochure ufficiale.
SpeakerTrack 60 adotta un approccio esclusivo a doppia fotocamera per passare rapidamente e direttamente da un partecipante all'altro. Una fotocamera trova rapidamente un primo piano del relatore attivo, mentre l'altra cerca e visualizza il relatore successivo. La funzione MultiSpeaker impedisce cambi non necessari se l'oratore successivo è già presente nel fotogramma corrente.
Sfortunatamente, non ho avuto la possibilità di testare personalmente lo SpeakerTrack 60. Pertanto, le conclusioni devono essere tratte sulla base dell'opinione “dal campo” e dei risultati dell'analisi del video dimostrativo riportato di seguito. Ho contato un ritardo massimo di quasi 8 secondi quando indico un nuovo presentatore. Il ritardo medio è stato di 2-3 secondi, a giudicare dal video.

Videocamera di tracciamento intelligente HUAWEI VPT300

La funzione di targeting vocale della telecamera è diventata più accessibile: la soluzione universale SmartCam A12 Voice TrackingMi sono imbattuto per caso in questa soluzione di Huawei. Il sistema costa circa $ 9. Funziona solo con terminali Huawei. Gli sviluppatori hanno aggiunto il loro "trucco": un layout video da due altoparlanti su uno schermo se non c'è nessun altro nella stanza. In termini di caratteristiche e funzionalità dichiarate, si tratta di una versione molto interessante del sistema di guida automatica. Ma sfortunatamente non ho trovato assolutamente materiale dimostrativo. L'unico video apparso su questo argomento era una recensione video modificata della soluzione, senza audio originale, musicata. Pertanto non è stato possibile valutare la qualità del sistema. Per questo motivo non prenderò in considerazione questa opzione.
Vedo che Huawei ha un blog attivo su Habré: forse i colleghi potranno pubblicare qualche informazione utile su questo prodotto.

Novità: soluzione universale Monitoraggio vocale SmartCam A12

La funzione di targeting vocale della telecamera è diventata più accessibile: la soluzione universale SmartCam A12 Voice TrackingSmartCam A12VT - un monoblocco, comprendente due telecamere PTZ per il tracciamento degli oratori, due telecamere integrate per l'analisi della disposizione generale della stanza, nonché un array di microfoni integrato nella base della custodia - come puoi vedere, non ci sono ingombranti e strutture fragili come quelle degli avversari.
Prima di iniziare a descrivere il nuovo prodotto, metterò insieme le caratteristiche e le funzionalità delle soluzioni Cisco e Polycom in modo da poterle confrontare SmartCam A12VT con le offerte esistenti.

Direttore di Polycom EagleEye

  • Costo al dettaglio del sistema senza terminale - $ 13K
  • Costo minimo della soluzione EagleEye Director + RealPresence Group 500 — $ 19K
  • Ritardo medio di commutazione 3 secondi
  • Guida vocale + analisi video
  • Elevate esigenze sul viso di chi parla: non puoi nascondere la bocca
  • Incompatibilità con apparecchiature di terze parti

Cisco TelePresence SpeakerTrack 60

  • Costo al dettaglio del sistema senza terminale - $ 15,9K
  • Costo minimo della soluzione TelePresence SpeakerTrack 60 + SX80 Codec - $ 30K
  • Ritardo medio di commutazione 3 secondi
  • Guida vocale + analisi video
  • Requisiti per il volto di chi parla: non ho controllato, non ho trovato informazioni
  • Incompatibilità con apparecchiature di terze parti

Monitoraggio vocale SmartCam A12

  • Costo al dettaglio del sistema senza terminale - $ 6,2K
  • Costo minimo della soluzione SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Costo minimo della soluzione Terminale software SmartCam A12VT+ - $ 7,7K
  • Ritardo medio di commutazione 3 secondi
  • Guida vocale + analisi video
  • Requisiti per il volto di chi parla: nessun requisito
  • Compatibilità di terze parti: HDMI

Come due principali e innegabili vantaggi della soluzione Monitoraggio vocale SmartCam A12 Io trovo:

  1. Versatilità della connettività — tramite HDMI, il sistema si integra con sistemi terminali di videoconferenza sia hardware che software
  2. Basso costo — con funzionalità simili, A12VT è molte volte più conveniente in termini di budget rispetto alle proposte sopra descritte.

Per dimostrare come funziona il sistema, abbiamo registrato una recensione video. Il compito non era tanto pubblicitario quanto funzionale. Pertanto, il video è privo del pathos di un video promozionale Polycom. Il luogo scelto per la presentazione non è stato un ufficio di rappresentanza, ma una sala riunioni laboratorio del nostro partner, l'azienda IPMatika.
Il mio obiettivo non era nascondere i difetti del sistema, ma, al contrario, esporre i colli di bottiglia della funzionalità, costringere il sistema a commettere errori.

A mio parere, il sistema ha superato i test con successo. Lo dico con fiducia perché al momento della stesura di questo articolo, la soluzione Monitoraggio vocale SmartCam A12 visitato una dozzina di vere sale riunioni dei nostri clienti. Malfunzionamenti dell'automazione sono stati osservati esclusivamente in condizioni di violazione delle regole operative raccomandate. In particolare, la distanza minima dai partecipanti vicini. Se ti siedi molto vicino alla telecamera, a meno di un metro, il microfono non sarà in grado di riconoscerti e l'obiettivo non sarà in grado di seguirti.

La funzione di targeting vocale della telecamera è diventata più accessibile: la soluzione universale SmartCam A12 Voice Tracking

Oltre alla distanza c'è un altro requisito: l'altezza della telecamera.

La funzione di targeting vocale della telecamera è diventata più accessibile: la soluzione universale SmartCam A12 Voice Tracking

Se la telecamera è installata troppo in basso, potrebbero verificarsi problemi con il posizionamento vocale. L'opzione sotto la TV, purtroppo, non ha funzionato.
Ma installare il sistema sopra un dispositivo di visualizzazione è il modo ideale per far funzionare il dispositivo. Il ripiano per fotocamera è incluso; solo il supporto a parete è supportato di serie.

Come funziona il monitoraggio vocale di SmartCam A12

Gli obiettivi PTZ principali hanno ruoli uguali: il loro compito è seguire alternativamente i relatori e visualizzare il piano generale. L'analisi del quadro generale della stanza e la determinazione della distanza dagli oggetti vengono effettuate utilizzando i flussi video ricevuti da due telecamere integrate nella base del sistema. Questa funzione consente di ridurre il tempo di reazione dell'obiettivo quando si cambia l'altoparlante a 1-2 secondi. La telecamera riesce ad alternare i partecipanti con un ritmo confortevole, anche se si scambiano brevi frasi.
Una dimostrazione video del funzionamento del sistema ne rispecchia appieno la funzionalità SmartCam A12VT. Ma, per chi non ha visto il video, descriverò a parole il principio di funzionamento dell'automazione:

  1. La stanza è vuota: una delle lenti mostra la pianta generale, la seconda è pronta, in attesa delle persone
  2. Le persone entrano nella stanza e prendono posto: l'obiettivo libero individua i due partecipanti estremi e inquadra l'immagine intorno a loro, tagliando la parte vuota della stanza
  3. Mentre le persone si muovono, le lenti seguono a turno tutti i presenti nella stanza, mantenendoli al centro dell'inquadratura
  4. L'oratore comincia a parlare: l'obiettivo è attivo, adattato al piano generale. Il secondo è rivolto all'oratore e solo allora entra in modalità trasmissione
  5. L'altoparlante cambia: l'obiettivo adattato al primo altoparlante è attivo e il secondo obiettivo elimina l'inquadratura ampia e si adatta al nuovo altoparlante
  6. Nel momento in cui si passa l'immagine dal primo al secondo altoparlante, la lente libera si adatta immediatamente alla pianta generale della stanza
  7. Se tutti tacciono, l'obiettivo gratuito mostrerà senza ritardi un piano generale già pronto
  8. Se l'oratore cambia di nuovo, la lente libera andrà a cercarlo

conclusione

A mio avviso, questa soluzione, presentata l'anno scorso all'ISE e all'ISR, avvicina l'alta tecnologia, se non alle persone, sicuramente alle imprese. È chiaro che per 400mila rubli poche persone compreranno un simile "giocattolo" per la casa, ma per gli affari, per le videoconferenze aziendali, questa è una soluzione molto conveniente e conveniente al problema del puntamento automatico della fotocamera.
Data la versatilità Monitoraggio vocale SmartCam A12, il sistema può essere utilizzato come soluzione ex novo o come estensione delle funzionalità di un'infrastruttura di videoconferenza esistente. Il collegamento tramite HDMI rappresenta un grande passo avanti verso l'utente, a differenza dei sistemi proprietari dei produttori sopra descritti.

Vorrei ringraziare i partner che hanno contribuito ai test.
azienda IPMatika — per il terminale Yealink VC880, sala riunioni e Yakushina Yura.
azienda AV intelligente — per il diritto al primo ed esclusivo controllo della soluzione e della fornitura del sistema Monitoraggio vocale SmartCam A12 per i test.

Nell'ultimo articolo Progettista di sale riunioni online: selezione della soluzione di videoconferenza ottimale, come promozione del sito web vc4u.ru и Progettista VKS abbiamo annunciato Sconto del 10%. dal prezzo in elenco tramite parola in codice CARPENNA fino alla fine dell'estate 2019.

Lo sconto si applica ai prodotti nelle seguenti sezioni:

Alla decisione Monitoraggio vocale SmartCam A12 Offro un ulteriore sconto del 5% al ​​10% già esistente - complessivamente del 15% fino alla fine dell’estate 2019.

Aspetto con ansia i vostri commenti e le vostre risposte al sondaggio!

Grazie per la vostra attenzione.
Cordiali saluti,
Kirill Usikov (Usikoff)
Capo di
Sistemi di videosorveglianza e videoconferenza
[email protected]
stss.ru
vc4u.ru

Solo gli utenti registrati possono partecipare al sondaggio. AccediPer favore.

Quanto è utile il monitoraggio vocale SmartCam A12?

  • Finalmente è apparsa una soluzione universale per terminali software e hardware!

  • La soluzione è buona, ma ci sono altre opzioni disponibili (scrivo nei commenti)

  • Il sistema è debole, non raggiunge Polycom e Cisco: scriverò nei commenti perché dovresti pagare 3 volte di più!

  • Chi ha bisogno della guida automatica in una sala riunioni?

  • Chi ha comunque bisogno di una telecamera PTZ in una sala riunioni? — Ho collegato la webcam ed è andato tutto bene!

8 utenti hanno votato. 5 utenti si sono astenuti.

Fonte: habr.com

Aggiungi un commento