Funktionen för kamerainriktning med röst har blivit mer tillgänglig - den universella lösningen SmartCam A12 Voice Tracking

Funktionen för kamerainriktning med röst har blivit mer tillgänglig - den universella lösningen SmartCam A12 Voice TrackingÄmnet att spåra en talande deltagare i en videokonferens har tagit fart under de senaste åren. Tekniken har gjort det möjligt att implementera komplexa algoritmer för att bearbeta ljud/videoinformation i realtid, vilket fick Polycom för nästan 10 år sedan att introducera världens första mainstream-lösning med intelligent automatisk högtalarspårning. Under flera år lyckades de förbli de enda ägarna av en sådan lösning, men Cisco behövde inte vänta länge och släppte ut på marknaden sin version av ett intelligent tvåkamerasystem, som var en rättvis konkurrent till lösningen från Polycom. Under många år begränsades detta segment av videokonferenser av fleras möjligheter Proprietär produkter, men den här artikeln är tillägnad den första universell lösning för kameravägledning med röst, kompatibel med både hårdvaru- och mjukvaruinfrastruktur för videokonferenser.
Innan jag går vidare till att beskriva lösningar och demonstrera kapacitet vill jag notera en viktig händelse:
Jag är hedrad att presentera för Habra-gemenskapen nytt nav, tillägnad videokonferenslösningar (VCC). Nu, tack vare de gemensamma ansträngningarna (mina och UFO), Videokonferenser har ett eget hem på Habré, och jag inbjuder alla som är inblandade i detta omfattande och aktuella ämne att prenumerera på nytt nav.

Två scenarier för att rikta kameran mot högtalaren

För närvarande väljer integratörer av videokonferenslösningar själva två olika sätt att implementera uppgiften att rikta in sig på presentatören:

  1. Automatisk - Intelligent
  2. Halvautomatisk - programmerbar

Det första alternativet är bara lösningar från Cisco, Polycom och andra tillverkare; vi kommer att överväga dem nedan. Här har vi att göra med den fulla automatiseringen av att rikta kameran mot den talande deltagaren i videokonferensen. Unika algoritmer för bearbetning av ljud/videosignaler gör att kameran kan välja önskad position oberoende.

Det andra alternativet är automationssystem baserade på olika externa styrenheter; vi kommer inte att överväga dem i detalj, eftersom Artikeln ägnas specifikt åt automatisk spårning av högtalare.
Det finns en hel del anhängare av det andra scenariot för att implementera kamerapekning, och det finns skäl till detta. Erfarna integratörer förstår att intelligenta lösningar från Polycom och Cisco kräver idealiska driftsförhållanden för att automatiseringen ska fungera korrekt. Men det är inte alltid möjligt att tillhandahålla sådana förhållanden, så systemets funktion garanteras ibland av följande lösning på problemet med kamerapekning:

1. Alla nödvändiga förinställningar (positioner för PTZ-enheten och optisk zoomfaktor) läggs in manuellt i förväg i kamerans minne (eller ibland i kontrollkontrollen). Som regel är detta en översiktsplan över mötesrummet och en vy av varje konferensdeltagare i porträttläge.

2. Därefter installeras initiatorerna för att anropa den nödvändiga förinställningen på de angivna platserna - dessa är antingen mikrofonkonsoler eller radioknappar, i allmänhet, vilken enhet som helst som kan förse kontrollkontrollen med en signal som den förstår.

3. Styrenheten är programmerad på ett sådant sätt att varje initiator har sin egen förinställning. Översikt över rummet - alla initiativtagare är avstängda.
Som ett resultat, när man använder till exempel ett kongresssystem och en kontrollkontroll, aktiverar talaren, innan han börjar sitt tal, sin personliga mikrofonkonsol. Styrsystemet bearbetar omedelbart den sparade kamerapositionen.

Det här scenariot fungerar felfritt - systemet behöver inte utföra rösttriangulering och videoanalys. Jag tryckte på knappen och förinställningen fungerade, inga förseningar eller falska positiva.
Styr- och automationssystem används i stora, komplexa rum, där ibland inte en utan flera videokameror är installerade. Tja, för små och medelstora mötesrum är automatiska system ganska lämpliga (om du har budgeten).
Låt oss börja med grundarna.

Polycom EagleEye-direktör

Funktionen för kamerainriktning med röst har blivit mer tillgänglig - den universella lösningen SmartCam A12 Voice TrackingDenna lösning skapade en gång en sensation inom videokonferenser. Polycom EagleEye Director var den första lösningen inom området intelligent kamerastyrning. Lösningen består av en EagleEye Director basenhet och två kameror. Det speciella med den första implementeringen är att en kamera endast är tilldelad en närbild av talaren och den andra - till en allmän plan för mötesrummet. Samtidigt kan översiktskameran placeras helt separat från basen på en annan plats i mötesrummet – den är inte direkt involverad i den automatiska vägledningsprocessen.
Systemet fungerar enligt följande:

  1. Den allmänna rumskameran är aktiv - alla är tysta
  2. Högtalaren börjar tala - mikrofongruppen tar upp rösten, kameran rör sig mot ljudet med hjälp av patenterad teknik som inkluderar rösttriangulering. Den allmänna kameran är fortfarande aktiv
  3. Huvudkameran har precis börjat leta efter ljudkällan och utför videoanalyser. Systemet identifierar högtalaren genom anslutningen öga-näsa-mun, ramar in bilden av högtalaren och visar strömmen från huvudkameran
  4. Högtalaren ändras. Mikrofongruppen förstår att rösten kommer från en annan plats. Översiktsplanen slås på igen.
  5. Och sedan i en cirkel, med början från punkt 2
  6. Om den nya högtalaren är i ramen med den föregående, gör systemet en "het" positionsändring utan att ändra det aktiva flödet till det allmänna skottet.

Nackdelen, enligt min mening, är närvaron av endast en huvudkamera. Detta resulterar i en betydande fördröjning vid byte av högtalare. Och varje gång i pekögonblicket slår systemet på den allmänna planen för rummet - under ett livligt samtal börjar detta flimrande irritera.

Polycom EagleEye Director II

Funktionen för kamerainriktning med röst har blivit mer tillgänglig - den universella lösningen SmartCam A12 Voice TrackingDetta är den andra versionen av lösningen från Polycom, som släpptes relativt nyligen. Funktionsprincipen har genomgått förändringar och har blivit mer som en lösning från Cisco. Nu är båda PTZ-kamerorna de viktigaste och tjänar till att sömlöst byta kanal från en presentatör till en annan. Mötesrummets allmänna layout fångas nu av en separat kamera integrerad i kroppen på EagleEye Director II-basenheten. Av någon anledning visas strömmen från denna vidvinkelkamera i ett extra fönster i hörnet av skärmen, som upptar 1/9 av huvudströmmen. Principen för positionering är densamma - rösttriangulering och videoströmsanalys. Och flaskhalsarna är desamma: om systemet inte ser den talande munnen kommer kameran inte att sikta. Och denna situation kan hända ganska ofta - talaren har vänt sig bort, talaren har vänt sig åt sidan, talaren är en buktalare, talaren har täckt sin mun med sin hand eller ett dokument.
Båda reklamfilmerna spelades in kompetent - 2 personer talar i tur och ordning och öppnar munnen som vid ett möte med en logoped. Men även under sådana raffinerade förhållanden finns det en mycket betydande försening. Men inramningen är oklanderlig - en bekväm porträttbild.

Cisco TelePresence SpeakerTrack 60

Funktionen för kamerainriktning med röst har blivit mer tillgänglig - den universella lösningen SmartCam A12 Voice TrackingFör att beskriva denna lösning kommer jag att använda text från den officiella broschyren.
SpeakerTrack 60 har ett unikt tillvägagångssätt med dubbla kameror för att snabbt växla direkt mellan deltagare. En kamera hittar snabbt en närbild av den aktiva presentatören, medan den andra söker efter och visar nästa presentatör. MultiSpeaker-funktionen förhindrar onödig växling om nästa högtalare redan finns i den aktuella bildrutan.
Tyvärr hade jag inte en chans att testa SpeakerTrack 60 själv. Därför måste slutsatser dras baserat på yttrandet "från fältet" och baserat på resultaten av analysen av demonstrationsvideon nedan. Jag räknade med en maximal fördröjning på nästan 8 sekunder när jag pekade på en ny presentatör. Den genomsnittliga fördröjningen var 2-3 sekunder, att döma av videon.

HUAWEI Intelligent Tracking Video Camera VPT300

Funktionen för kamerainriktning med röst har blivit mer tillgänglig - den universella lösningen SmartCam A12 Voice TrackingJag kom över den här lösningen från Huawei av en slump. Systemet kostar cirka $9K. Fungerar endast med Huawei-terminaler. Utvecklarna lade till sitt eget "trick" - en videolayout från två högtalare på en skärm om det inte finns någon annan i rummet. När det gäller egenskaper och deklarerad funktionalitet är detta en mycket intressant version av det automatiska styrsystemet. Men tyvärr hittade jag absolut inget demomaterial. Den enda video som dök upp om detta ämne var en redigerad videorecension av lösningen, utan originalljud, satt till musik. Det var alltså inte möjligt att utvärdera systemets kvalitet. Av denna anledning kommer jag inte att överväga detta alternativ.
Jag ser att Huawei har en aktiv blogg på Habré - kanske kollegor kommer att kunna publicera lite användbar information om den här produkten.

Ny - universallösning SmartCam A12 Röstspårning

Funktionen för kamerainriktning med röst har blivit mer tillgänglig - den universella lösningen SmartCam A12 Voice TrackingSmartCam A12VT - ett monoblock, inklusive två PTZ-kameror för spårning av högtalare, två inbyggda kameror för att analysera den allmänna layouten av rummet, samt en mikrofonuppsättning inbyggd i fodralets bas - som du kan se finns det inga skrymmande och ömtåliga strukturer som motståndarnas.
Innan jag börjar beskriva den nya produkten kommer jag att sätta ihop egenskaperna och funktionerna hos lösningar från Cisco och Polycom så att jag kan jämföra SmartCam A12VT med befintliga erbjudanden.

Polycom EagleEye-direktör

  • Detaljhandelskostnad för systemet utan terminal - $ 13K
  • Minsta kostnad för EagleEye Director + RealPresence Group 500-lösning — $ 19K
  • Genomsnittlig kopplingsfördröjning 3 sekunder
  • Röstvägledning + videoanalys
  • Höga krav på talarens ansikte – du kan inte dölja din mun
  • Inkompatibilitet med tredjepartsutrustning

Cisco TelePresence SpeakerTrack 60

  • Detaljhandelskostnad för systemet utan terminal - $ 15,9K
  • Minsta kostnad för TelePresence SpeakerTrack 60 + SX80 Codec-lösning - $ 30K
  • Genomsnittlig kopplingsfördröjning 3 sekunder
  • Röstvägledning + videoanalys
  • Krav på talarens ansikte - kollade inte, hittade ingen information
  • Inkompatibilitet med tredjepartsutrustning

SmartCam A12 Röstspårning

  • Detaljhandelskostnad för systemet utan terminal - $ 6,2K
  • Minsta lösningskostnad SmartCam A12VT + Yealink VC880 - $ 10.8K
  • Minsta lösningskostnad SmartCam A12VT+ mjukvaruterminal - $ 7,7K
  • Genomsnittlig kopplingsfördröjning 3 sekunder
  • Röstvägledning + videoanalys
  • Krav på högtalarens ansikte - inga krav
  • Tredjepartskompatibilitet - HDMI

Som två huvudsakliga och obestridliga fördelar med lösningen SmartCam A12 Röstspårning Jag hittar:

  1. Anslutningsmångsidighet — via HDMI integreras systemet med både hårdvara och mjukvara för videokonferensterminalsystem
  2. Låg kostnad — Med liknande funktionalitet är A12VT många gånger billigare på en budget än de förslag som beskrivs ovan.

För att visa hur systemet fungerar spelade vi in ​​en videorecension. Uppgiften var inte så mycket reklam som funktionell. Därför saknar videon det patos som en reklamfilm från Polycom har. Platsen som valdes för presentationen var inte ett representationskontor, utan ett laboratoriemötesrum för vår partner, företaget IPMatika.
Mitt mål var inte att dölja systemets brister, utan tvärtom att avslöja funktionalitetens flaskhalsar, att tvinga systemet att göra misstag.

Enligt min mening klarade systemet testerna framgångsrikt. Jag säger detta med tillförsikt eftersom lösningen när jag skrev den här artikeln SmartCam A12 Röstspårning besökte ett dussin riktiga mötesrum för våra kunder. Fel i automatiseringen observerades uteslutande under förhållanden med överträdelse av de rekommenderade driftreglerna. I synnerhet det minsta avståndet till närliggande deltagare. Om du sitter väldigt nära kameran, mindre än en meter, kommer mikrofongruppen inte att kunna känna igen dig och objektivet kommer inte att kunna spåra dig.

Funktionen för kamerainriktning med röst har blivit mer tillgänglig - den universella lösningen SmartCam A12 Voice Tracking

Utöver avståndet finns det ytterligare ett krav - höjden på kameran.

Funktionen för kamerainriktning med röst har blivit mer tillgänglig - den universella lösningen SmartCam A12 Voice Tracking

Om kameran är installerad för lågt kan problem med röstpositionering uppstå. Alternativet under TV:n fungerade tyvärr inte.
Men att installera systemet ovanför en displayenhet är ett idealiskt sätt för enheten att fungera. Kamerahyllan ingår, endast väggfästet stöds som standard.

Hur SmartCam A12 Voice Tracking fungerar

De viktigaste PTZ-linserna har lika roller - deras uppgift är att växelvis spåra presentatörer och visa den övergripande planen. Analys av den övergripande bilden i rummet och bestämning av avståndet till objekt utförs med hjälp av videoströmmar som tas emot från två kameror integrerade i systemets bas. Denna funktion gör att du kan minska linsens reaktionstid när du byter högtalare till 1-2 sekunder. Kameran lyckas växla mellan deltagarna i en behaglig rytm, även om de byter korta meningar.
En videodemonstration av systemets funktion återspeglar till fullo funktionaliteten SmartCam A12VT. Men för dem som inte har sett videon kommer jag att beskriva i ord principen för automatiseringens drift:

  1. Rummet är tomt: en av linserna visar översiktsplanen, den andra är klar - väntar på folk
  2. Människor går in i rummet och sätter sig: den fria linsen hittar de två extrema deltagarna och ramar in bilden runt dem och skär av den tomma delen av rummet
  3. Medan människor rör sig turas linserna om att spåra alla i rummet och hålla dem i mitten av bågen
  4. Talaren börjar tala: linsen är aktiv, anpassad till den allmänna planen. Den andra är riktad mot högtalaren och går först då in i sändningsläge
  5. Högtalaren ändras: linsen som är anpassad till den första högtalaren är aktiv, och den andra linsen tappar bredbilden och anpassar sig till den nya högtalaren
  6. I det ögonblick då bilden växlas från den första högtalaren till den andra, justeras den fria linsen omedelbart till den allmänna planen för rummet
  7. Om alla är tysta kommer den fria linsen att visa en färdig översiktsplan utan några förseningar
  8. Om högtalaren ändras igen kommer den fria linsen att leta efter honom

Slutsats

Enligt min åsikt för den här lösningen, som presenterades på ISE och ISR förra året, högteknologi närmare - om inte till människorna, så till affärer. Det är uppenbart att för 400 tusen rubel kommer få människor att köpa en sådan "leksak" för hemmet, men för företag, för företags videokonferenser, är detta en mycket prisvärd och bekväm lösning på problemet med att automatiskt rikta en kamera.
Med tanke på mångsidigheten SmartCam A12 Röstspårning, kan systemet användas som en lösning från grunden, eller som en förlängning av funktionaliteten i en befintlig videokonferensinfrastruktur. Att ansluta via HDMI är ett stort steg mot användaren, till skillnad från de ovan beskrivna tillverkarnas proprietära system.

Jag skulle vilja tacka de partners som hjälpte till med testning.
företag IPMatika — för Yealink VC880-terminalen, mötesrummet och Yakushina Yura.
företag Smart-AV — För rätten till den första och exklusiva granskningen av lösningen och tillhandahållandet av systemet SmartCam A12 Röstspårning för provning.

I den sista artikeln Online mötesrumsdesigner - val av den optimala videokonferenslösningen, som webbplatskampanj vc4u.ru и VKS designer meddelade vi 10% rabatt från pris in katalog med kodord HABR till slutet av sommaren 2019.

Rabatten gäller produkter i följande avsnitt:

Till beslutet SmartCam A12 Röstspårning Jag erbjuder ytterligare 5% rabatt på de redan befintliga 10% - totalt 15 % fram till slutet av sommaren 2019.

Jag ser fram emot dina kommentarer och svar i undersökningen!

Tack för er uppmärksamhet.
Med vänliga hälsningar,
Kirill Usikov (Usikoff)
Chef för
Videoövervakning och videokonferenssystem
[e-postskyddad]
stss.ru
vc4u.ru

Endast registrerade användare kan delta i undersökningen. Logga in, Snälla du.

Hur användbart är SmartCam A12 Voice Tracking?

  • Äntligen har en universell lösning för mjukvaru- och hårdvaruterminaler dykt upp!

  • Lösningen är bra, men det finns andra tillgängliga alternativ (jag kommer att skriva i kommentarerna)

  • Systemet är svagt, det når inte Polycom och Cisco - jag skriver i kommentarerna varför du ska betala 3 gånger mer!

  • Vem behöver autoguidning i ett mötesrum egentligen?

  • Vem behöver en PTZ-kamera i ett mötesrum egentligen? — Jag kopplade in webbkameran och det gick bra!

8 användare röstade. 5 användare avstod från att rösta.

Källa: will.com

Lägg en kommentar