ProHoster > Blog > Adminisztráció > A kamera hangalapú célzás funkciója elérhetőbbé vált – a SmartCam A12 Voice Tracking univerzális megoldás
A kamera hangalapú célzás funkciója elérhetőbbé vált – a SmartCam A12 Voice Tracking univerzális megoldás
A videokonferencia beszélő résztvevőinek nyomon követésének témája az elmúlt néhány évben lendületet kapott. A technológia lehetővé tette összetett algoritmusok megvalósítását az audio/video információk valós idejű feldolgozására, ami arra késztette a Polycomot, hogy közel 10 évvel ezelőtt bemutassa a világ első intelligens automatikus hangszórókövetéssel rendelkező mainstream megoldását. Több éven át sikerült az egyetlen tulajdonosnak maradniuk egy ilyen megoldásnak, de a Ciscónak nem kellett sokat várnia, és piacra hozta az intelligens kétkamerás rendszer verzióját, amely tisztességes versenytársa volt a Polycom megoldásának. Sok éven át a videokonferencia ezen szegmensét többen korlátozták szabadalmazott termékek, de ez a cikk az elsőnek szól egyetemes megoldás a kamera hangvezérlésére, kompatibilis a videokonferencia hardveres és szoftveres infrastruktúrájával.
Mielőtt rátérnék a megoldások leírására és a képességek bemutatására, szeretnék megjegyezni egy fontos eseményt: Megtiszteltetés számomra, hogy bemutathatom a Habra közösségnek új hub, amelyet a videokonferencia-megoldásoknak (VCC) szenteltek. Most a közös erőfeszítéseknek köszönhetően (az enyém és az UFO) Videókonferenciázás saját otthona van a Habrén, és mindenkit, aki ebben a kiterjedt és aktuális témában érintett, iratkozzon fel új hub.
Két forgatókönyv, amikor a kamerát a hangszóróra irányítjuk
Jelenleg a videokonferencia-megoldások integrátorai két különböző módot választanak maguknak az előadó megcélzásának feladatának megvalósítására:
Automata - Intelligens
Félautomata - programozható
Az első lehetőség csak a Cisco, Polycom és más gyártók megoldásai; az alábbiakban ezeket fogjuk figyelembe venni. Itt a videokonferencia beszélő résztvevőjére irányított kamera teljes automatizálásával van dolgunk. Az audio/video jelek feldolgozására szolgáló egyedi algoritmusok lehetővé teszik, hogy a kamera önállóan válassza ki a kívánt pozíciót.
A második lehetőség a különféle külső vezérlővezérlőkön alapuló automatizálási rendszerek, ezeket nem fogjuk részletesen megvizsgálni, mert A cikk kifejezetten a hangszórók automatikus követésére vonatkozik.
A kameramutatás megvalósításának második forgatókönyvének jó néhány támogatója van, és ennek megvannak az okai. A tapasztalt integrátorok tisztában vannak azzal, hogy a Polycom és a Cisco intelligens megoldásai ideális működési feltételeket igényelnek az automatizálás megfelelő működéséhez. De nem mindig lehet ilyen feltételeket biztosítani, ezért a rendszer működését esetenként a következő megoldás garantálja a kamera mutatási problémájára:
1. Az összes szükséges előre beállított beállítás (a PTZ eszköz pozíciója és az optikai zoom tényező) manuálisan előre bekerül a kamera memóriájába (vagy néha a vezérlővezérlőbe). Ez általában a tárgyalóterem általános terve, és a konferencia minden résztvevőjének nézete portré módban.
2. Ezután a szükséges előbeállítás hívására szolgáló kezdeményezőket a megadott helyekre telepítik - ezek vagy mikrofonkonzolok vagy rádiógombok, általában minden olyan eszköz, amely képes a vezérlővezérlő számára megértett jelet adni.
3. A vezérlő vezérlő úgy van programozva, hogy minden iniciátornak megvan a saját presetje. A szoba általános terve - minden kezdeményező ki van kapcsolva.
Ennek eredményeként például egy kongresszusi rendszer és egy vezérlővezérlő használatakor a beszélő a beszéd megkezdése előtt aktiválja a személyes mikrofonkonzolját. A vezérlőrendszer azonnal feldolgozza az elmentett kamerapozíciót.
Ez a forgatókönyv hibátlanul működik – a rendszernek nem kell hangháromszögelést és videóelemzést végeznie. Megnyomtam a gombot, és az előbeállítás működött, nincs késés vagy hamis pozitív.
A vezérlési és automatizálási rendszereket nagy, összetett helyiségekben alkalmazzák, ahol esetenként nem egy, hanem több videokamerát is telepítenek. Nos, a kis és közepes méretű tárgyalók számára az automata rendszerek meglehetősen megfelelőek (ha van költségvetése).
Kezdjük az alapító atyákkal.
Polycom EagleEye igazgatója
Ez a megoldás valamikor szenzációt keltett a videokonferenciák területén. A Polycom EagleEye Director volt az első megoldás az intelligens kameravezetés területén. A megoldás egy EagleEye Director alapegységből és két kamerából áll. Ennek az első megvalósításnak az a sajátossága, hogy az egyik kamera csak a beszélő közeli nézetéhez van hozzárendelve, a második pedig a tárgyalóterem általános tervéhez. Ugyanakkor az alaprajzi kamera az alaptól teljesen külön is elhelyezhető a tárgyaló másik helyén - nem vesz részt közvetlenül az automatikus vezetési folyamatban.
A rendszer a következőképpen működik:
A szoba általános kamerája aktív – mindenki hallgat
A hangszóró beszélni kezd - a mikrofontömb felveszi a hangot, a kamera a hang felé mozog a szabadalmaztatott technológia segítségével, amely magában foglalja a hangháromszögelést. Az általános kamera továbbra is aktív
A fő kamera éppen elkezdi keresni a hangforrást, videóelemzést végez. A rendszer a szem-orr-száj kapcsolat alapján azonosítja a hangszórót, bekeretezi a hangszóró képét, és megjeleníti a fő kamerából érkező adatfolyamot.
A hangszóró megváltozik. A mikrofontömb megérti, hogy a hang egy másik helyről érkezik. Az általános terv újra bekapcsolva.
Aztán egy körben, a 2. ponttól kezdve
Ha az új hangszóró a keretben van az előzővel, a rendszer „forró” pozicionálást hajt végre anélkül, hogy az aktív áramlást megváltoztatná az általános felvételhez.
A hátránya véleményem szerint az egyetlen fő kamera jelenléte. Ez jelentős késést eredményez a hangszórócsere során. És minden alkalommal, amikor a mutogatás pillanatában a rendszer bekapcsolja a szoba általános tervét - egy élénk beszélgetés során ez a villogás irritálni kezd.
Polycom EagleEye rendező II
Ez a Polycom megoldásának második verziója, amely viszonylag nemrég jelent meg. A működési elv megváltozott, és inkább a Cisco megoldásához hasonlított. Most mindkét PTZ kamera a fő, és arra szolgál, hogy zökkenőmentesen váltson csatornákat egyik előadóról a másikra. A tárgyalóterem általános elrendezését most az EagleEye Director II alapegység testébe integrált külön kamera rögzíti. Valamilyen oknál fogva a széles látószögű kamerából származó adatfolyam a képernyő sarkában egy további ablakban jelenik meg, amely a fő adatfolyam 1/9-ét foglalja el. A pozicionálás elve ugyanaz - hangháromszögelés és videofolyam elemzés. A szűk keresztmetszetek pedig ugyanazok: ha a rendszer nem látja a beszélő szájat, a kamera nem fog célozni. És ez a helyzet elég gyakran előfordulhat - a beszélő elfordult, a beszélő oldalra fordult, a beszélő hasbeszélő, a beszélő befogta a száját a kezével vagy egy dokumentummal.
Mindkét promóciós videót hozzáértően forgatták - 2 ember felváltva beszél, és úgy nyitja ki a száját, mintha egy logopédushoz érkezne. De még ilyen kifinomult körülmények között is nagyon jelentős késés tapasztalható. De a keretezés kifogástalan – kényelmes portréfelvétel.
Cisco TelePresence SpeakerTrack 60
A megoldás leírásához a hivatalos prospektus szövegét fogom használni. A SpeakerTrack 60 egyedülálló kétkamerás megközelítést alkalmaz a résztvevők közötti gyors és közvetlen váltáshoz. Az egyik kamera gyorsan megtalálja az aktív előadó közeli képét, míg a másik a következő előadót keresi és megjeleníti. A MultiSpeaker funkció megakadályozza a szükségtelen váltást, ha a következő hangszóró már jelen van az aktuális képkockában.
Sajnos nem volt lehetőségem magam tesztelni a SpeakerTrack 60-at. Ezért következtetéseket kell levonni a „terepen” kapott vélemény és az alábbi bemutató videó elemzésének eredményei alapján. Maximum közel 8 másodperces késéssel számoltam, amikor egy új műsorvezetőre mutattam. Az átlagos késés 2-3 másodperc volt a videóból ítélve.
HUAWEI intelligens nyomkövető videokamera VPT300
Véletlenül találkoztam ezzel a megoldással a Huawei-től. A rendszer körülbelül 9 ezer dollárba kerül. Csak Huawei terminálokkal működik. A fejlesztők hozzáadták a saját „trükkjüket” - videó elrendezést két hangszóróból egy képernyőn, ha nincs más a szobában. A jellemzőket és a deklarált funkcionalitást tekintve ez egy nagyon érdekes változata az automatikus irányítási rendszernek. De sajnos nem találtam semmilyen bemutató anyagot. Az egyetlen videó, amely ebben a témában jelent meg, a megoldás szerkesztett videókritikája volt, eredeti hang nélkül, megzenésítve. Így nem lehetett értékelni a rendszer minőségét. Emiatt ezt a lehetőséget nem fogom mérlegelni.
Úgy látom, a Huaweinek van aktív blogja a Habrén – talán a kollégák tudnak majd hasznos információkat közölni erről a termékről.
SmartCam A12VT - egy monoblokk, benne két PTZ kamerával a hangszórók követésére, két beépített kamerával a szoba általános elrendezésének elemzésére, valamint a ház aljába épített mikrofontömböt - amint látja, nincsenek terjedelmes és törékeny szerkezetek, mint az ellenfelek.
Mielőtt elkezdenék az új termék leírását, összeállítom a Cisco és a Polycom megoldásainak jellemzőit és jellemzőit, hogy össze tudjam hasonlítani SmartCam A12VT meglévő ajánlatokkal.
Polycom EagleEye igazgatója
A rendszer kiskereskedelmi ára terminál nélkül - $ 13K
Az EagleEye Director + RealPresence Group 500 megoldás minimális költsége - $ 19K
Átlagos kapcsolási késleltetés 3 másodperc
Hangos irányítás + videoelemzés
Magas követelmények a beszélő arcával szemben – nem lehet elrejteni a száját
Összeférhetetlenség harmadik fél berendezéseivel
Cisco TelePresence SpeakerTrack 60
A rendszer kiskereskedelmi ára terminál nélkül - $ 15,9K
Követelmények a hangszóró arcára vonatkozóan - nincsenek követelmények
Harmadik fél kompatibilitása – HDMI
A megoldás két fő és tagadhatatlan előnyeként SmartCam A12 hangkövetés Találom:
Csatlakozási sokoldalúság — HDMI-n keresztül a rendszer hardveres és szoftveres videokonferencia-terminálrendszerekkel is integrálható
Olcsó — hasonló funkcionalitással az A12VT költségkereten belül sokszor megfizethetőbb, mint a fent ismertetett ajánlatok.
A rendszer működésének bemutatására videós áttekintést készítettünk. A feladat nem annyira reklám volt, mint inkább funkcionális. Ezért a videó mentes a Polycom reklámvideójának pátoszától. Az előadás helyszínéül nem képviseleti irodát, hanem partnerünk, az IPMatika cég laboratóriumi tárgyalótermét választották.
Célom nem a rendszer hibáinak elrejtése volt, hanem éppen ellenkezőleg, a funkcionalitás szűk keresztmetszete feltárása, a rendszer hibáira kényszerítése.
Véleményem szerint a rendszer sikeresen teljesítette a teszteket. Ezt bizalommal mondom, mert a cikk írásakor a megoldás SmartCam A12 hangkövetés meglátogatta ügyfeleink tucatnyi valódi tárgyalótermét. Az automatizálás meghibásodásait kizárólag az ajánlott működési szabályok megsértése esetén figyelték meg. Különösen a közeli résztvevők minimális távolsága. Ha nagyon közel ülsz a kamerához, kevesebb mint egy méter, akkor a mikrofontömb nem fog tudni felismerni, és az objektív sem tud követni.
A távolságon kívül van még egy követelmény - a kamera magassága.
Ha a kamera túl alacsonyan van felszerelve, problémák léphetnek fel a hangpozicionálással. A TV alatti opció sajnos nem működött.
De ha a rendszert egy megjelenítő eszköz fölé telepítjük, az ideális módja annak, hogy az eszköz működjön. A kamerapolc a csomag részét képezi, csak a fali tartó támogatott alapkivitelben.
Hogyan működik a SmartCam A12 hangkövetés
A fő PTZ objektívek egyenlő szerepet töltenek be - feladatuk az előadók felváltva követése és az átfogó terv megjelenítése. A helyiség összképének elemzése és az objektumok távolságának meghatározása a rendszer alapjába integrált két kamerától kapott videofolyamok segítségével történik. Ezzel a funkcióval 1-2 másodpercre csökkentheti az objektív reakcióidejét a hangszóró cseréjekor. A kamerának sikerül kényelmes ritmusban váltogatnia a résztvevőket, még akkor is, ha rövid mondatokat váltanak.
A rendszer működését bemutató videó teljes mértékben tükrözi a funkcionalitást SmartCam A12VT. De azok számára, akik nem nézték meg a videót, szavakkal leírom az automatika működési elvét:
A szoba üres: az egyik lencse az általános tervet mutatja, a második készen áll - várja az embereket
Az emberek belépnek a terembe és leülnek: a szabad lencse megtalálja a két szélső résztvevőt, és körülöttük keretezi a képet, levágva a terem üres részét.
Amíg az emberek mozognak, a lencsék felváltva követnek mindenkit a szobában, és a keret közepén tartják őket.
A hangszóró beszélni kezd: az objektív aktív, az általános tervhez igazítva. A második a hangszóróra irányul, és csak ezután lép sugárzási módba
A hangszóró megváltozik: az első hangsugárzóhoz igazított lencse aktív, a második objektív pedig eldobja a széles felvételt és alkalmazkodik az új hangszóróhoz
Abban a pillanatban, amikor a képet az első hangszóróról a másodikra váltja, a szabad lencse azonnal a szoba általános tervéhez igazodik.
Ha mindenki hallgat, az ingyenes lencse késedelem nélkül mutat egy kész általános tervet
Ha a hangszóró ismét megváltozik, a szabad lencse keresésére indul
Következtetés
Véleményem szerint ez a tavaly az ISE-n és az ISR-en bemutatott megoldás közelebb hozza a csúcstechnológiát - ha nem is az emberekhez, de az üzlethez mindenképpen. Nyilvánvaló, hogy 400 ezer rubelért kevesen vásárolnak ilyen „játékot” otthonra, de üzleti célokra, vállalati videokonferenciákhoz ez egy nagyon megfizethető és kényelmes megoldás a kamera automatikus célzásának problémájára.
Tekintettel a sokoldalúságra SmartCam A12 hangkövetés, a rendszer használható megoldásként a semmiből, vagy egy meglévő videokonferencia infrastruktúra funkcionalitásának kiterjesztéseként. A HDMI-n keresztüli csatlakozás nagy lépés a felhasználó felé, ellentétben a fent leírt gyártók szabadalmaztatott rendszereivel.
Szeretnék köszönetet mondani a tesztelésben közreműködő partnereknek.
vállalat IPMatika — a Yealink VC880 terminál, tárgyaló és Yakushina Yura számára.
vállalat Smart-AV — a megoldás és a rendszer biztosításának első és kizárólagos felülvizsgálatának jogáért SmartCam A12 hangkövetés tesztelésre.