La funkcio de fotila celado per voĉo fariĝis pli alirebla - la universala solvo SmartCam A12 Voĉa Spurado

La funkcio de fotila celado per voĉo fariĝis pli alirebla - la universala solvo SmartCam A12 Voĉa SpuradoLa temo pri spurado de parolanta partoprenanto en videokonferenco akiris impeton dum la lastaj jaroj. Teknologio ebligis efektivigi kompleksajn algoritmojn por prilaborado de aŭd-/video-informoj en reala tempo, kio instigis Polycom, antaŭ preskaŭ 10 jaroj, enkonduki la unuan ĉefan solvon de la mondo kun inteligenta aŭtomata spurado de parolantoj. Dum pluraj jaroj ili sukcesis resti la solaj posedantoj de tia solvo, sed Cisco ne devis atendi longe kaj alportis al la merkato sian version de inteligenta du-fotila sistemo, kiu estis justa konkuranto al la solvo de Polycom. Dum multaj jaroj, ĉi tiu segmento de videokonferenco estis limigita de la kapabloj de pluraj proprietaj produktoj, sed ĉi tiu artikolo estas dediĉita al la unua universala solvo por fotila gvidado per voĉo, kongrua kun aparataro kaj programara infrastrukturo de videokonferenco.
Antaŭ ol daŭrigi pri priskribi solvojn kaj pruvi kapablojn, mi volas noti gravan eventon:
Mi estas honorata prezenti al la Habra komunumo nova nabo, dediĉita al videokonferencaj solvoj (VCC). Nun, danke al la komunaj klopodoj (mia kaj NIFO), Videokonferenco havas sian propran hejmon ĉe Habré, kaj mi invitas ĉiujn implikitajn en ĉi tiu ampleksa kaj aktuala temo aboni nova nabo.

Du scenaroj por direkti la fotilon al la parolanto

Nuntempe, integristoj de videokonferencaj solvoj elektas por si du malsamajn manierojn efektivigi la taskon celi la prezentiston:

  1. Aŭtomata - Inteligenta
  2. Duonaŭtomata - programebla

La unua opcio estas nur solvoj de Cisco, Polycom kaj aliaj fabrikistoj; ni konsideros ilin sube. Ĉi tie ni traktas la plenan aŭtomatigon direkti la fotilon al la parolanta partoprenanto en la videokonferenco. Unika algoritmoj por prilaborado de son-/vid-signaloj permesas al la fotilo elekti la deziratan pozicion sendepende.

La dua opcio estas aŭtomatigaj sistemoj bazitaj sur diversaj eksteraj kontrolaj regiloj; ni ne konsideros ilin detale, ĉar La artikolo estas dediĉita specife al aŭtomata spurado de parolantoj.
Estas sufiĉe multaj subtenantoj de la dua scenaro por efektivigi fotilan indikadon, kaj ekzistas kialoj por tio. Spertaj integristoj komprenas, ke inteligentaj solvoj de Polycom kaj Cisco postulas idealajn funkciajn kondiĉojn por ke la aŭtomatigo funkciu ĝuste. Sed ne ĉiam eblas disponigi tiajn kondiĉojn, do la funkciado de la sistemo foje estas garantiita per la sekva solvo al la fotila indika problemo:

1. Ĉiuj necesaj antaŭaj agordoj (pozicioj de la PTZ-aparato kaj optika zoma faktoro) estas mane enmetitaj anticipe en la memoron de la fotilo (aŭ foje en la kontrolregilon). Kiel regulo, ĉi tio estas ĝenerala plano de la kunvenejo, kaj vido de ĉiu konferenca partoprenanto en portretreĝimo.

2. Poste, la iniciatintoj por voki la postulatan antaŭdifinitajn estas instalitaj en la specifitaj lokoj - ĉi tiuj estas aŭ mikrofonaj konzoloj aŭ radio-butonoj, ĝenerale, ajna aparato, kiu povas provizi la kontrolregilon per signalo, kiun ĝi komprenas.

3. La kontrola regilo estas programita tiel, ke ĉiu iniciatinto havas sian propran antaŭfiksitan. Ĝenerala plano de la ĉambro - ĉiuj iniciatintoj estas malŝaltitaj.
Rezulte, kiam oni uzas ekzemple kongresan sistemon kaj kontrolregilon, la parolanto, antaŭ ol komenci sian paroladon, aktivigas sian personan mikrofonkonzolon. La kontrolsistemo tuj prilaboras la konservitan fotilan pozicion.

Ĉi tiu scenaro funkcias perfekte - la sistemo ne bezonas fari voĉtrianguladon kaj videoannalitiko. Mi premis la butonon kaj la antaŭdiro funkciis, sen prokrastoj aŭ falsaj pozitivoj.
Kontrolaj kaj aŭtomatigaj sistemoj estas uzataj en grandaj, kompleksaj ĉambroj, kie foje estas instalitaj ne unu, sed pluraj vidbendaj kameraoj. Nu, por malgrandaj kaj mezgrandaj kunvenejoj, aŭtomataj sistemoj sufiĉe taŭgas (se vi havas la buĝeton).
Ni komencu kun la fondintoj.

Direktoro de Polycom EagleEye

La funkcio de fotila celado per voĉo fariĝis pli alirebla - la universala solvo SmartCam A12 Voĉa SpuradoĈi tiu solvo iam kreis senton en la kampo de videokonferenco. Polycom EagleEye Director estis la unua solvo en la kampo de inteligenta fotila gvidado. La solvo konsistas el EagleEye Director-bazunuo kaj du fotiloj. La propreco de tiu unua efektivigo estas, ke unu fotilo estas asignita nur al proksima vido de la parolanto, kaj la dua - al ĝenerala plano de la kunvenejo. Samtempe, la ĝenerala plano fotilo povas esti metita tute aparte de la bazo en alian lokon en la kunvenĉambro - ĝi ne estas rekte implikita en la aŭtomata gvidprocezo.
La sistemo funkcias jene:

  1. La ĝenerala ĉambrofotilo estas aktiva - ĉiuj silentas
  2. La parolanto komencas paroli - la mikrofona aro kaptas la voĉon, la fotilo moviĝas al la sono uzante patentitan teknologion kiu inkluzivas voĉtrianguladon. La ĝenerala fotilo ankoraŭ aktivas
  3. La ĉefa fotilo ĵus komencas serĉi la sonfonton, farante videoannalitiko. La sistemo identigas la parolanton per la ligo okulo-nazo-buŝa, enkadrigas la bildon de la parolanto kaj montras la fluon de la ĉefa fotilo.
  4. La parolanto ŝanĝiĝas. La mikrofona aro komprenas, ke la voĉo venas de alia loko. La ĝenerala plano estas denove ŝaltita.
  5. Kaj tiam en cirklo, komencante de la punkto 2
  6. Se la nova parolanto estas en la kadro kun la antaŭa, la sistemo faras "varman" poziciigante ŝanĝon sen ŝanĝi la aktivan fluon al la ĝenerala pafo.

La malavantaĝo, laŭ mi, estas la ĉeesto de nur unu ĉefa fotilo. Ĉi tio rezultigas gravan prokraston dum ŝanĝado de parolantoj. Kaj ĉiufoje en la momento de indikado, la sistemo ŝaltas la ĝeneralan planon de la ĉambro - dum vigla konversacio, ĉi tiu flagrado komencas inciti.

Polycom EagleEye Direktoro II

La funkcio de fotila celado per voĉo fariĝis pli alirebla - la universala solvo SmartCam A12 Voĉa SpuradoĈi tiu estas la dua versio de la solvo de Polycom, kiu estis publikigita relative lastatempe. La principo de funkciado spertis ŝanĝojn kaj fariĝis pli kiel solvo de Cisco. Nun ambaŭ PTZ-fotiloj estas la ĉefaj kaj servas por perfekte ŝanĝi kanalojn de unu prezentisto al alia. La ĝenerala aranĝo de la kunvenejo nun estas kaptita per aparta fotilo integrita en la korpon de la EagleEye Director II bazunuo. Ial, la rivereto de ĉi tiu larĝangula fotilo estas montrata en plia fenestro en la angulo de la ekrano, okupante 1/9 de la ĉefa fluo. La principo de poziciigado estas la sama - voĉa triangulado kaj analizo de videofluo. Kaj la boteloj estas la samaj: se la sistemo ne vidas la parolantan buŝon, la fotilo ne celos. Kaj ĉi tiu situacio povas okazi sufiĉe ofte - la parolanto deturnis sin, la parolanto turnis sin flanken, la parolanto estas ventroparolisto, la parolanto kovris sian buŝon per sia mano aŭ dokumento.
Ambaŭ reklamaj filmetoj estis filmitaj kompetente - 2 homoj parolas laŭvice, kaj malfermas la buŝon kvazaŭ ĉe rendevuo kun logopedisto. Sed eĉ en tiaj rafinitaj kondiĉoj estas tre grava prokrasto. Sed la enkadrigo estas neriproĉebla - komforta portreto.

Cisco TelePresence SpeakerTrack 60

La funkcio de fotila celado per voĉo fariĝis pli alirebla - la universala solvo SmartCam A12 Voĉa SpuradoPor priskribi ĉi tiun solvon, mi uzos tekston el la oficiala broŝuro.
SpeakerTrack 60 prenas unikan duoblan fotilon por rapide ŝanĝi rekte inter partoprenantoj. Unu fotilo rapide trovas deproksiman foton de la aktiva prezentisto, dum la alia serĉas kaj montras la sekvan prezentiston. La funkcio MultiSpeaker malhelpas nenecesan ŝanĝadon se la sekva parolanto jam ĉeestas en la nuna kadro.
Bedaŭrinde, mi ne havis ŝancon testi la SpeakerTrack 60 mem. Tial, konkludoj devas esti eltiritaj surbaze de la opinio "de la kampo" kaj surbaze de la rezultoj de analizo de la pruva filmeto sube. Mi kalkulis maksimuman prokraston de preskaŭ 8 sekundoj montrante novan prezentiston. La averaĝa prokrasto estis 2-3 sekundoj, juĝante laŭ la video.

HUAWEI Intelligent Tracking Video Camera VPT300

La funkcio de fotila celado per voĉo fariĝis pli alirebla - la universala solvo SmartCam A12 Voĉa SpuradoMi renkontis ĉi tiun solvon de Huawei hazarde. La sistemo kostas ĉirkaŭ $ 9K. Funkcias nur kun Huawei-terminaloj. La programistoj aldonis sian propran "trukon" - video-aranĝon de du laŭtparoliloj sur unu ekrano se estas neniu alia en la ĉambro. Koncerne trajtojn kaj deklaritan funkciecon, ĉi tio estas tre interesa versio de la aŭtomata gvidsistemo. Sed, bedaŭrinde, mi trovis absolute neniun demomaterialon. La nura video kiu aperis pri ĉi tiu temo estis redaktita videorecenzo de la solvo, sen originala sono, muzikigita. Tiel, ne eblis taksi la kvaliton de la sistemo. Tial mi ne konsideros ĉi tiun opcion.
Mi vidas, ke Huawei havas aktivan blogon pri Habré - eble kolegoj povos publikigi kelkajn utilajn informojn pri ĉi tiu produkto.

Nova - universala solvo SmartCam A12 Voĉa Spurado

La funkcio de fotila celado per voĉo fariĝis pli alirebla - la universala solvo SmartCam A12 Voĉa SpuradoSmartCam A12VT - monobloko, inkluzive de du PTZ-fotiloj por spuri laŭtparolilojn, du enkonstruitajn fotilojn por analizi la ĝeneralan aranĝon de la ĉambro, kaj ankaŭ mikrofonan tabelon enkonstruitan en la bazo de la kazo - kiel vi povas vidi, ne estas dikaj kaj dikaj. fragilaj strukturoj kiel tiuj de kontraŭuloj.
Antaŭ ol mi komencos priskribi la novan produkton, mi kunmetos la karakterizaĵojn kaj funkciojn de solvoj de Cisco kaj Polycom por ke mi povu kompari SmartCam A12VT kun ekzistantaj ofertoj.

Direktoro de Polycom EagleEye

  • Podetala kosto de la sistemo sen terminalo - $ 13K
  • Minimuma kosto de EagleEye Director + RealPresence Group 500 solvo - $ 19K
  • Meza ŝanĝa prokrasto 3 sekundoj
  • Voĉa gvidado + videoanalitiko
  • Altaj postuloj sur la vizaĝo de la parolanto - vi ne povas kaŝi vian buŝon
  • Nekongruo kun triaj ekipaĵoj

Cisco TelePresence SpeakerTrack 60

  • Podetala kosto de la sistemo sen terminalo - $ 15,9K
  • Minimuma kosto de TelePresence SpeakerTrack 60 + SX80 Codec-solvo - $ 30K
  • Meza ŝanĝa prokrasto 3 sekundoj
  • Voĉa gvidado + videoanalitiko
  • Postuloj por la vizaĝo de la parolanto - ne kontrolis, ne trovis informojn
  • Nekongruo kun triaj ekipaĵoj

SmartCam A12 Voĉa Spurado

  • Podetala kosto de la sistemo sen terminalo - $ 6,2K
  • Minimuma solvokosto SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Minimuma solvokosto SmartCam A12VT+ softvara terminalo - $ 7,7K
  • Meza ŝanĝa prokrasto 3 sekundoj
  • Voĉa gvidado + videoanalitiko
  • Postuloj por la vizaĝo de la parolanto - neniuj postuloj
  • Triapartia Kongrueco - HDMI

Kiel du ĉefaj kaj nekontesteblaj avantaĝoj de la solvo SmartCam A12 Voĉa Spurado Mi trovas:

  1. Konektebleco ĉiuflankeco - per HDMI, la sistemo integriĝas kun kaj aparataro kaj programaro videokonferencaj finaj sistemoj
  2. Malalta kosto — kun simila funkcieco, A12VT estas multfoje pli pagebla laŭ buĝeto ol la proponoj priskribitaj supre.

Por pruvi kiel la sistemo funkcias, ni registris videorecenzon. La tasko estis ne tiom reklamado, kiom funkcia. Tial, la video estas sen la patoso de Polycom reklamvideo. La loko elektita por la prezento ne estis reprezenta oficejo, sed laboratoria kunvenejo de nia partnero, la firmao IPMatika.
Mia celo estis ne kaŝi la difektojn de la sistemo, sed, male, elmontri la proplempunktojn de la funkcieco, devigi la sistemon fari erarojn.

Laŭ mi, la sistemo sukcese trapasis la testojn. Mi diras ĉi tion kun konfido ĉar en la momento de verki ĉi tiun artikolon, la solvo SmartCam A12 Voĉa Spurado vizitis dekon da veraj kunvenejoj de niaj klientoj. Misfunkciadoj de la aŭtomatigo estis observitaj ekskluzive en kondiĉoj de malobservo de la rekomenditaj operaciaj reguloj. Aparte, la minimuma distanco al proksimaj partoprenantoj. Se vi sidas tre proksime al la fotilo, malpli ol metron, la mikrofona tabelo ne povos rekoni vin kaj la lenso ne povos spuri vin.

La funkcio de fotila celado per voĉo fariĝis pli alirebla - la universala solvo SmartCam A12 Voĉa Spurado

Krom la distanco, ekzistas alia postulo - la alteco de la fotilo.

La funkcio de fotila celado per voĉo fariĝis pli alirebla - la universala solvo SmartCam A12 Voĉa Spurado

Se la fotilo estas instalita tro malalte, povas okazi problemoj pri voĉa pozicio. La opcio sub la televido, bedaŭrinde, ne funkciis.
Sed instali la sistemon super ekrana aparato estas ideala maniero por la aparato funkcii. La fotilbreto estas inkluzivita; nur la murmonto estas subtenata kiel norma.

Kiel funkcias SmartCam A12 Voĉo-Spurado

La ĉefaj PTZ-lensoj havas egalajn rolojn - ilia tasko estas alterne spuri prezentistojn kaj montri la ĝeneralan planon. Analizo de la ĝenerala bildo en la ĉambro kaj determino de la distanco al objektoj estas efektivigitaj per videofluoj ricevitaj de du fotiloj integritaj en la bazo de la sistemo. Ĉi tiu funkcio permesas redukti la reagtempon de la lenso dum ŝanĝado de la parolanto al 1-2 sekundoj. La fotilo sukcesas alterni inter la partoprenantoj en komforta ritmo, eĉ se ili interŝanĝas mallongajn frazojn.
Filma pruvo de la funkciado de la sistemo plene reflektas la funkciecon SmartCam A12VT. Sed, por tiuj, kiuj ne spektis la videon, mi priskribos per vortoj la principon de funkciado de la aŭtomatigo:

  1. La ĉambro estas malplena: unu el la lensoj montras la ĝeneralan planon, la dua estas preta - atendas homojn
  2. Homoj eniras la ĉambron kaj sidiĝas: la libera lenso trovas la du ekstremajn partoprenantojn kaj enkadrigas la bildon ĉirkaŭ ili, detranĉante la malplenan parton de la ĉambro.
  3. Dum homoj moviĝas, la lensoj laŭvice spuras ĉiujn en la ĉambro, tenante ilin en la centro de la kadro.
  4. La parolanto komencas paroli: la lenso estas aktiva, alĝustigita al la ĝenerala plano. La dua celas la parolanton, kaj nur tiam iras en elsendan reĝimon
  5. La laŭtparolilo ŝanĝiĝas: la lenso alĝustigita al la unua parolanto estas aktiva, kaj la dua lenso faligas la larĝan pafon kaj alĝustigas al la nova parolanto.
  6. En la momento de ŝanĝi la bildon de la unua laŭtparolilo al la dua, la senpaga lenso tuj ĝustigas al la ĝenerala plano de la ĉambro.
  7. Se ĉiuj silentas, la senpaga lenso montros senprokraste pretan ĝeneralan planon
  8. Se la parolanto denove ŝanĝiĝas, la libera lenso iros serĉi lin

konkludo

Laŭ mi, ĉi tiu solvo, prezentita ĉe ISE kaj ISR pasintjare, proksimigas la altteknologion - se ne al la homoj, tiam certe al komerco. Estas klare, ke por 400 mil rubloj, malmultaj homoj aĉetos tian "ludilon" por hejmo, sed por komerco, por kompania videokonferenco, ĉi tio estas tre atingebla kaj oportuna solvo al la problemo de aŭtomate celi fotilon.
Donita la versatileco SmartCam A12 Voĉa Spurado, la sistemo povas esti uzata kiel solvo de nulo, aŭ kiel etendo de la funkcieco de ekzistanta videokonferenca infrastrukturo. Konekti per HDMI estas granda paŝo al la uzanto, kontraste al la proprietaj sistemoj de la supre priskribitaj fabrikantoj.

Mi ŝatus danki la partnerojn kiuj helpis en testado.
kompanio IPMatika — por la terminalo Yealink VC880, kunvenejo kaj Yakushina Yura.
kompanio Smart-AV — por la rajto de unua kaj ekskluziva revizio de la solvo kaj provizo de la sistemo SmartCam A12 Voĉa Spurado por testado.

En la antaŭa artikolo Projektisto de interreta kunvenĉambro - elekto de la optimuma videokonferenca solvo, kiel reteja reklamado vc4u.ru и VKS-dizajnisto ni anoncis 10% rabato de prezo en dosierujo per kodvorto HABR ĝis la fino de somero 2019.

La rabato validas por produktoj en la sekvaj sekcioj:

Al la decido SmartCam A12 Voĉa Spurado Mi proponas plian 5% rabaton al la jam ekzistanta 10% - entute 15% ĝis la fino de somero 2019.

Mi antaŭĝojas viajn komentojn kaj respondojn en la enketo!

Dankon pro via atento.
sincere,
Kiril Usikov (Usikoff)
Kapo de
Videogvatado kaj videokonferencaj sistemoj
[retpoŝte protektita]
stss.ru
vc4u.ru

Nur registritaj uzantoj povas partopreni la enketon. Ensaluti, bonvolu.

Kiom utila estas SmartCam A12 Voĉa Spurado?

  • Fine aperis universala solvo por programaro kaj aparataro-terminaloj!

  • La solvo estas bona, sed estas aliaj disponeblaj ebloj (mi skribos en la komentoj)

  • La sistemo estas malforta, ĝi ne atingas Polycom kaj Cisco - mi skribos en la komentoj kial vi devus pagi 3 fojojn pli!

  • Kiu ĉiuokaze bezonas aŭtomatan gvidadon en kunvenejo?

  • Kiu ĉiuokaze bezonas PTZ-fotilon en kunvenejo? — Mi konektis la retkameraon kaj estis bone!

8 uzantoj voĉdonis. 5 uzantoj sindetenis.

fonto: www.habr.com

Aldoni komenton