ProHoster > Блог > Administrado > La funkcio de fotila celado per voĉo fariĝis pli alirebla - la universala solvo SmartCam A12 Voĉa Spurado
La funkcio de fotila celado per voĉo fariĝis pli alirebla - la universala solvo SmartCam A12 Voĉa Spurado
La temo pri spurado de parolanta partoprenanto en videokonferenco akiris impeton dum la lastaj jaroj. Teknologio ebligis efektivigi kompleksajn algoritmojn por prilaborado de aŭd-/video-informoj en reala tempo, kio instigis Polycom, antaŭ preskaŭ 10 jaroj, enkonduki la unuan ĉefan solvon de la mondo kun inteligenta aŭtomata spurado de parolantoj. Dum pluraj jaroj ili sukcesis resti la solaj posedantoj de tia solvo, sed Cisco ne devis atendi longe kaj alportis al la merkato sian version de inteligenta du-fotila sistemo, kiu estis justa konkuranto al la solvo de Polycom. Dum multaj jaroj, ĉi tiu segmento de videokonferenco estis limigita de la kapabloj de pluraj proprietaj produktoj, sed ĉi tiu artikolo estas dediĉita al la unua universala solvo por fotila gvidado per voĉo, kongrua kun aparataro kaj programara infrastrukturo de videokonferenco.
Antaŭ ol daŭrigi pri priskribi solvojn kaj pruvi kapablojn, mi volas noti gravan eventon: Mi estas honorata prezenti al la Habra komunumo nova nabo, dediĉita al videokonferencaj solvoj (VCC). Nun, danke al la komunaj klopodoj (mia kaj NIFO), Videokonferenco havas sian propran hejmon ĉe Habré, kaj mi invitas ĉiujn implikitajn en ĉi tiu ampleksa kaj aktuala temo aboni nova nabo.
Du scenaroj por direkti la fotilon al la parolanto
Nuntempe, integristoj de videokonferencaj solvoj elektas por si du malsamajn manierojn efektivigi la taskon celi la prezentiston:
Aŭtomata - Inteligenta
Duonaŭtomata - programebla
La unua opcio estas nur solvoj de Cisco, Polycom kaj aliaj fabrikistoj; ni konsideros ilin sube. Ĉi tie ni traktas la plenan aŭtomatigon direkti la fotilon al la parolanta partoprenanto en la videokonferenco. Unika algoritmoj por prilaborado de son-/vid-signaloj permesas al la fotilo elekti la deziratan pozicion sendepende.
La dua opcio estas aŭtomatigaj sistemoj bazitaj sur diversaj eksteraj kontrolaj regiloj; ni ne konsideros ilin detale, ĉar La artikolo estas dediĉita specife al aŭtomata spurado de parolantoj.
Estas sufiĉe multaj subtenantoj de la dua scenaro por efektivigi fotilan indikadon, kaj ekzistas kialoj por tio. Spertaj integristoj komprenas, ke inteligentaj solvoj de Polycom kaj Cisco postulas idealajn funkciajn kondiĉojn por ke la aŭtomatigo funkciu ĝuste. Sed ne ĉiam eblas disponigi tiajn kondiĉojn, do la funkciado de la sistemo foje estas garantiita per la sekva solvo al la fotila indika problemo:
1. Ĉiuj necesaj antaŭaj agordoj (pozicioj de la PTZ-aparato kaj optika zoma faktoro) estas mane enmetitaj anticipe en la memoron de la fotilo (aŭ foje en la kontrolregilon). Kiel regulo, ĉi tio estas ĝenerala plano de la kunvenejo, kaj vido de ĉiu konferenca partoprenanto en portretreĝimo.
2. Poste, la iniciatintoj por voki la postulatan antaŭdifinitajn estas instalitaj en la specifitaj lokoj - ĉi tiuj estas aŭ mikrofonaj konzoloj aŭ radio-butonoj, ĝenerale, ajna aparato, kiu povas provizi la kontrolregilon per signalo, kiun ĝi komprenas.
3. La kontrola regilo estas programita tiel, ke ĉiu iniciatinto havas sian propran antaŭfiksitan. Ĝenerala plano de la ĉambro - ĉiuj iniciatintoj estas malŝaltitaj.
Rezulte, kiam oni uzas ekzemple kongresan sistemon kaj kontrolregilon, la parolanto, antaŭ ol komenci sian paroladon, aktivigas sian personan mikrofonkonzolon. La kontrolsistemo tuj prilaboras la konservitan fotilan pozicion.
Ĉi tiu scenaro funkcias perfekte - la sistemo ne bezonas fari voĉtrianguladon kaj videoannalitiko. Mi premis la butonon kaj la antaŭdiro funkciis, sen prokrastoj aŭ falsaj pozitivoj.
Kontrolaj kaj aŭtomatigaj sistemoj estas uzataj en grandaj, kompleksaj ĉambroj, kie foje estas instalitaj ne unu, sed pluraj vidbendaj kameraoj. Nu, por malgrandaj kaj mezgrandaj kunvenejoj, aŭtomataj sistemoj sufiĉe taŭgas (se vi havas la buĝeton).
Ni komencu kun la fondintoj.
Direktoro de Polycom EagleEye
Ĉi tiu solvo iam kreis senton en la kampo de videokonferenco. Polycom EagleEye Director estis la unua solvo en la kampo de inteligenta fotila gvidado. La solvo konsistas el EagleEye Director-bazunuo kaj du fotiloj. La propreco de tiu unua efektivigo estas, ke unu fotilo estas asignita nur al proksima vido de la parolanto, kaj la dua - al ĝenerala plano de la kunvenejo. Samtempe, la ĝenerala plano fotilo povas esti metita tute aparte de la bazo en alian lokon en la kunvenĉambro - ĝi ne estas rekte implikita en la aŭtomata gvidprocezo.
La sistemo funkcias jene:
La ĝenerala ĉambrofotilo estas aktiva - ĉiuj silentas
La parolanto komencas paroli - la mikrofona aro kaptas la voĉon, la fotilo moviĝas al la sono uzante patentitan teknologion kiu inkluzivas voĉtrianguladon. La ĝenerala fotilo ankoraŭ aktivas
La ĉefa fotilo ĵus komencas serĉi la sonfonton, farante videoannalitiko. La sistemo identigas la parolanton per la ligo okulo-nazo-buŝa, enkadrigas la bildon de la parolanto kaj montras la fluon de la ĉefa fotilo.
La parolanto ŝanĝiĝas. La mikrofona aro komprenas, ke la voĉo venas de alia loko. La ĝenerala plano estas denove ŝaltita.
Kaj tiam en cirklo, komencante de la punkto 2
Se la nova parolanto estas en la kadro kun la antaŭa, la sistemo faras "varman" poziciigante ŝanĝon sen ŝanĝi la aktivan fluon al la ĝenerala pafo.
La malavantaĝo, laŭ mi, estas la ĉeesto de nur unu ĉefa fotilo. Ĉi tio rezultigas gravan prokraston dum ŝanĝado de parolantoj. Kaj ĉiufoje en la momento de indikado, la sistemo ŝaltas la ĝeneralan planon de la ĉambro - dum vigla konversacio, ĉi tiu flagrado komencas inciti.
Polycom EagleEye Direktoro II
Ĉi tiu estas la dua versio de la solvo de Polycom, kiu estis publikigita relative lastatempe. La principo de funkciado spertis ŝanĝojn kaj fariĝis pli kiel solvo de Cisco. Nun ambaŭ PTZ-fotiloj estas la ĉefaj kaj servas por perfekte ŝanĝi kanalojn de unu prezentisto al alia. La ĝenerala aranĝo de la kunvenejo nun estas kaptita per aparta fotilo integrita en la korpon de la EagleEye Director II bazunuo. Ial, la rivereto de ĉi tiu larĝangula fotilo estas montrata en plia fenestro en la angulo de la ekrano, okupante 1/9 de la ĉefa fluo. La principo de poziciigado estas la sama - voĉa triangulado kaj analizo de videofluo. Kaj la boteloj estas la samaj: se la sistemo ne vidas la parolantan buŝon, la fotilo ne celos. Kaj ĉi tiu situacio povas okazi sufiĉe ofte - la parolanto deturnis sin, la parolanto turnis sin flanken, la parolanto estas ventroparolisto, la parolanto kovris sian buŝon per sia mano aŭ dokumento.
Ambaŭ reklamaj filmetoj estis filmitaj kompetente - 2 homoj parolas laŭvice, kaj malfermas la buŝon kvazaŭ ĉe rendevuo kun logopedisto. Sed eĉ en tiaj rafinitaj kondiĉoj estas tre grava prokrasto. Sed la enkadrigo estas neriproĉebla - komforta portreto.
Cisco TelePresence SpeakerTrack 60
Por priskribi ĉi tiun solvon, mi uzos tekston el la oficiala broŝuro. SpeakerTrack 60 prenas unikan duoblan fotilon por rapide ŝanĝi rekte inter partoprenantoj. Unu fotilo rapide trovas deproksiman foton de la aktiva prezentisto, dum la alia serĉas kaj montras la sekvan prezentiston. La funkcio MultiSpeaker malhelpas nenecesan ŝanĝadon se la sekva parolanto jam ĉeestas en la nuna kadro.
Bedaŭrinde, mi ne havis ŝancon testi la SpeakerTrack 60 mem. Tial, konkludoj devas esti eltiritaj surbaze de la opinio "de la kampo" kaj surbaze de la rezultoj de analizo de la pruva filmeto sube. Mi kalkulis maksimuman prokraston de preskaŭ 8 sekundoj montrante novan prezentiston. La averaĝa prokrasto estis 2-3 sekundoj, juĝante laŭ la video.
HUAWEI Intelligent Tracking Video Camera VPT300
Mi renkontis ĉi tiun solvon de Huawei hazarde. La sistemo kostas ĉirkaŭ $ 9K. Funkcias nur kun Huawei-terminaloj. La programistoj aldonis sian propran "trukon" - video-aranĝon de du laŭtparoliloj sur unu ekrano se estas neniu alia en la ĉambro. Koncerne trajtojn kaj deklaritan funkciecon, ĉi tio estas tre interesa versio de la aŭtomata gvidsistemo. Sed, bedaŭrinde, mi trovis absolute neniun demomaterialon. La nura video kiu aperis pri ĉi tiu temo estis redaktita videorecenzo de la solvo, sen originala sono, muzikigita. Tiel, ne eblis taksi la kvaliton de la sistemo. Tial mi ne konsideros ĉi tiun opcion.
Mi vidas, ke Huawei havas aktivan blogon pri Habré - eble kolegoj povos publikigi kelkajn utilajn informojn pri ĉi tiu produkto.
SmartCam A12VT - monobloko, inkluzive de du PTZ-fotiloj por spuri laŭtparolilojn, du enkonstruitajn fotilojn por analizi la ĝeneralan aranĝon de la ĉambro, kaj ankaŭ mikrofonan tabelon enkonstruitan en la bazo de la kazo - kiel vi povas vidi, ne estas dikaj kaj dikaj. fragilaj strukturoj kiel tiuj de kontraŭuloj.
Antaŭ ol mi komencos priskribi la novan produkton, mi kunmetos la karakterizaĵojn kaj funkciojn de solvoj de Cisco kaj Polycom por ke mi povu kompari SmartCam A12VT kun ekzistantaj ofertoj.
Direktoro de Polycom EagleEye
Podetala kosto de la sistemo sen terminalo - $ 13K
Minimuma kosto de EagleEye Director + RealPresence Group 500 solvo - $ 19K
Meza ŝanĝa prokrasto 3 sekundoj
Voĉa gvidado + videoanalitiko
Altaj postuloj sur la vizaĝo de la parolanto - vi ne povas kaŝi vian buŝon
Nekongruo kun triaj ekipaĵoj
Cisco TelePresence SpeakerTrack 60
Podetala kosto de la sistemo sen terminalo - $ 15,9K
Postuloj por la vizaĝo de la parolanto - neniuj postuloj
Triapartia Kongrueco - HDMI
Kiel du ĉefaj kaj nekontesteblaj avantaĝoj de la solvo SmartCam A12 Voĉa Spurado Mi trovas:
Konektebleco ĉiuflankeco - per HDMI, la sistemo integriĝas kun kaj aparataro kaj programaro videokonferencaj finaj sistemoj
Malalta kosto — kun simila funkcieco, A12VT estas multfoje pli pagebla laŭ buĝeto ol la proponoj priskribitaj supre.
Por pruvi kiel la sistemo funkcias, ni registris videorecenzon. La tasko estis ne tiom reklamado, kiom funkcia. Tial, la video estas sen la patoso de Polycom reklamvideo. La loko elektita por la prezento ne estis reprezenta oficejo, sed laboratoria kunvenejo de nia partnero, la firmao IPMatika.
Mia celo estis ne kaŝi la difektojn de la sistemo, sed, male, elmontri la proplempunktojn de la funkcieco, devigi la sistemon fari erarojn.
Laŭ mi, la sistemo sukcese trapasis la testojn. Mi diras ĉi tion kun konfido ĉar en la momento de verki ĉi tiun artikolon, la solvo SmartCam A12 Voĉa Spurado vizitis dekon da veraj kunvenejoj de niaj klientoj. Misfunkciadoj de la aŭtomatigo estis observitaj ekskluzive en kondiĉoj de malobservo de la rekomenditaj operaciaj reguloj. Aparte, la minimuma distanco al proksimaj partoprenantoj. Se vi sidas tre proksime al la fotilo, malpli ol metron, la mikrofona tabelo ne povos rekoni vin kaj la lenso ne povos spuri vin.
Krom la distanco, ekzistas alia postulo - la alteco de la fotilo.
Se la fotilo estas instalita tro malalte, povas okazi problemoj pri voĉa pozicio. La opcio sub la televido, bedaŭrinde, ne funkciis.
Sed instali la sistemon super ekrana aparato estas ideala maniero por la aparato funkcii. La fotilbreto estas inkluzivita; nur la murmonto estas subtenata kiel norma.
Kiel funkcias SmartCam A12 Voĉo-Spurado
La ĉefaj PTZ-lensoj havas egalajn rolojn - ilia tasko estas alterne spuri prezentistojn kaj montri la ĝeneralan planon. Analizo de la ĝenerala bildo en la ĉambro kaj determino de la distanco al objektoj estas efektivigitaj per videofluoj ricevitaj de du fotiloj integritaj en la bazo de la sistemo. Ĉi tiu funkcio permesas redukti la reagtempon de la lenso dum ŝanĝado de la parolanto al 1-2 sekundoj. La fotilo sukcesas alterni inter la partoprenantoj en komforta ritmo, eĉ se ili interŝanĝas mallongajn frazojn.
Filma pruvo de la funkciado de la sistemo plene reflektas la funkciecon SmartCam A12VT. Sed, por tiuj, kiuj ne spektis la videon, mi priskribos per vortoj la principon de funkciado de la aŭtomatigo:
La ĉambro estas malplena: unu el la lensoj montras la ĝeneralan planon, la dua estas preta - atendas homojn
Homoj eniras la ĉambron kaj sidiĝas: la libera lenso trovas la du ekstremajn partoprenantojn kaj enkadrigas la bildon ĉirkaŭ ili, detranĉante la malplenan parton de la ĉambro.
Dum homoj moviĝas, la lensoj laŭvice spuras ĉiujn en la ĉambro, tenante ilin en la centro de la kadro.
La parolanto komencas paroli: la lenso estas aktiva, alĝustigita al la ĝenerala plano. La dua celas la parolanton, kaj nur tiam iras en elsendan reĝimon
La laŭtparolilo ŝanĝiĝas: la lenso alĝustigita al la unua parolanto estas aktiva, kaj la dua lenso faligas la larĝan pafon kaj alĝustigas al la nova parolanto.
En la momento de ŝanĝi la bildon de la unua laŭtparolilo al la dua, la senpaga lenso tuj ĝustigas al la ĝenerala plano de la ĉambro.
Se ĉiuj silentas, la senpaga lenso montros senprokraste pretan ĝeneralan planon
Se la parolanto denove ŝanĝiĝas, la libera lenso iros serĉi lin
konkludo
Laŭ mi, ĉi tiu solvo, prezentita ĉe ISE kaj ISR pasintjare, proksimigas la altteknologion - se ne al la homoj, tiam certe al komerco. Estas klare, ke por 400 mil rubloj, malmultaj homoj aĉetos tian "ludilon" por hejmo, sed por komerco, por kompania videokonferenco, ĉi tio estas tre atingebla kaj oportuna solvo al la problemo de aŭtomate celi fotilon.
Donita la versatileco SmartCam A12 Voĉa Spurado, la sistemo povas esti uzata kiel solvo de nulo, aŭ kiel etendo de la funkcieco de ekzistanta videokonferenca infrastrukturo. Konekti per HDMI estas granda paŝo al la uzanto, kontraste al la proprietaj sistemoj de la supre priskribitaj fabrikantoj.
Mi ŝatus danki la partnerojn kiuj helpis en testado.
kompanio IPMatika — por la terminalo Yealink VC880, kunvenejo kaj Yakushina Yura.
kompanio Smart-AV — por la rajto de unua kaj ekskluziva revizio de la solvo kaj provizo de la sistemo SmartCam A12 Voĉa Spurado por testado.