I september släppte Broadcom (tidigare CA) en ny version 20.2 av sin DX Operations Intelligence (DX OI)-lösning. Denna produkt är positionerad på marknaden som ett paraplyövervakningssystem. Systemet kan ta emot och kombinera data från övervakningssystem inom olika domäner (nätverk, infrastruktur, applikationer, databaser) från både CA och tredjepartstillverkare, inklusive lösningar med öppen källkod (Zabbix, Prometheus med flera).

Huvudfunktionen för DX OI är att skapa en fullfjädrad resurs-tjänstemodell (RSM) baserad på konfigurationsenheter (CU) som fyller lagerbasen när de integreras med tredjepartssystem. DX OI implementerar maskininlärning och artificiell intelligens (ML och AI) på data som kommer in i plattformen, vilket gör att du kan bedöma/förutsäga sannolikheten för fel hos en specifik KE och graden av påverkan av felet på affärstjänsten baserat på en specifik KE. Dessutom är DX OI en enda punkt för att samla in övervakningshändelser och därmed integrera med Service Desk-systemet, vilket är en obestridlig fördel med att använda systemet i enskilda övervakningscentraler per organisationsskift. I den här artikeln berättar vi mer om systemets funktionalitet och visar användar- och administratörsgränssnitten.
DX OI-lösningsarkitektur
DX-plattformen har en mikrotjänstarkitektur och är installerad och körs på Kubernetes eller OpenShift. Följande figur visar komponenterna i lösningen, vilka kan användas som fristående övervakningsverktyg eller ersättas med befintliga övervakningssystem med liknande funktioner (det finns exempel på sådana system i figuren) och sedan anslutas till DX OI-paraplysystemet. I diagrammet nedan:
- Övervakning av mobilapplikationer i DX App Experience Analytics;
- Övervakning av applikationsprestanda i DX APM;
- Infrastrukturövervakning i DX Infrastructure Manager;
- Övervakning av nätverksenheter i DX NetOps Manager.

DX-komponenter körs under kontroll av ett Kubernetes-kluster och skalas upp genom att helt enkelt lansera nya POD:er. Nedan visas ett översiktsdiagram över lösningen.

Administration, skalning och uppdatering av DX-plattformen utförs i administrationskonsolen. Från en enda konsol kan du hantera en arkitektur med flera hyresgäster som kan omfatta flera företag eller flera affärsenheter inom ett företag. I den här modellen kan varje företag konfigureras individuellt som en hyresgäst med sin egen uppsättning konfigurationer.
Administrationskonsolen är ett webbaserat verktyg för drift och systemhantering som ger administratörer ett konsekvent, enhetligt gränssnitt för att utföra övervakningsklusterhanteringsuppgifter.

Nya hyresgäster för affärsenheter eller företag inom ett företag driftsätts på några minuter. Detta är en fördel om du vill ha ett enda övervakningssystem, men samtidigt på plattformsnivå (inte åtkomsträttigheter) för att differentiera övervakningsobjekt mellan avdelningar.

Resurs-tjänstemodeller och övervakning av affärstjänster
DX OI har inbyggda mekanismer för att skapa tjänster och utveckla klassiska PCM med tilldelning av influenslogik och vikter mellan tjänstekomponenter. Det finns också mekanismer för att exportera PCM från en extern CMDB. Figuren nedan visar den inbyggda RCM-editorn (observera länkvikterna).

DX OI ger en helhetsbild av nyckeltal för affärs- eller IT-tjänster, med detaljerad information som inkluderar tjänstetillgänglighet och förutsägelse av felrisk. Verktyget kan också ge insikt i effekten av ett prestandaproblem eller en förändring i strukturen hos IT-komponenter (applikation eller infrastruktur) på en affärstjänst. Bilden nedan visar en interaktiv instrumentpanel som visar status för alla tjänster.

Låt oss titta på detaljerna med hjälp av den digitala banktjänsten som exempel. Genom att klicka på tjänstens namn kommer vi till tjänstens detaljerade RSM. Vi ser att statusen för den digitala banktjänsten beror på infrastrukturens tillstånd och transaktionsundertjänster med olika viktningar. Att arbeta med och visa vikter är en intressant fördel med DX OI.

Topologi är en viktig del av företagets operativa övervakning, vilket gör det möjligt för operatörer och ingenjörer att analysera sambanden mellan komponenter, hitta grundorsaken och effekten.
DX OI Topology Viewer är en tjänst som använder topologiska data som tas emot från domänövervakningssystem som samlar in data direkt från övervakningsobjekt. Verktyget är utformat för att söka igenom flera lager av topologilagring och visa en kontextkänslig relationskarta. För att undersöka problem kan du gå till den problematiska undertjänsten Backend Banking och se topologin och de problematiska komponenterna. Du kan också analysera larmmeddelanden och prestandamått för varje komponent.

När vi analyserar transaktionskomponenterna i betalningar (användartransaktioner) kan vi spåra affärs-KPI-värden, vilka också beaktas vid beräkning av tillgänglighetsstatus och hälsotillstånd för tjänsten. Ett exempel på en affärsnyckeltal ges nedan:


Händelseanalys (Larmanalys)
Algoritmisk brusreducering genom olycksklustring
En av nyckelfunktionerna hos DX OI i händelsebearbetning är klustring. Motorn arbetar med alla varningar som kommer in i systemet för att identifiera mönster baserat på olika sammanhang och gruppera dem. Dessa kluster är självlärande och kräver inte manuell konfiguration.

Klusterbildning gör det således möjligt för användare att kombinera och gruppera ett stort antal händelser och endast analysera de som delar ett gemensamt sammanhang. Till exempel en uppsättning händelser som representerar en incident som påverkar driften av applikationer eller ett datacenter. Situationer skapas med hjälp av maskininlärningsbaserade klusteralgoritmer som använder temporal korrelation, topologiska relationer och bearbetning av modersmål för analys. Figurerna nedan visar exempel på visualisering av klustergrupper av meddelanden, de så kallade situationslarmen och bevistidslinjen, som visar de viktigaste grupperingsparametrarna och processen för att minska antalet brushändelser.


Grundorsaksanalys och olyckskorrelation
I dagens hybridmiljö kan en användartransaktion involvera flera system som används dynamiskt. Detta kan resultera i att flera varningar genereras från olika system men relaterade till samma problem eller incident. DX OI använder patenterade mekanismer för att undertrycka redundanta och duplicerade varningar och korrelera relaterade varningar för att förbättra upptäckt av kritiska problem och snabbare lösning.
Låt oss titta på ett exempel där systemet tar emot flera nödmeddelanden från olika objekt (KE) som utgör grunden för en tjänst. Vid påverkan på tjänstens tillgänglighet och prestanda genererar systemet ett servicelarm, indikerar och utpekar den sannolika grundorsaken (problematisk KE och KE-larmmeddelande) som bidrog till den minskade prestandan eller felet i tjänsten. Bilden nedan visar en visualisering av en nödsituation för Webex-tjänsten.

DX OI låter dig arbeta med händelser genom intuitiva åtgärder i systemets webbgränssnitt. Användare kan manuellt tilldela händelser till en ansvarig medarbetare för felsökning, rensa/bekräfta varningar, skapa ärenden eller skicka e-postmeddelanden, köra automatiserade skript för att lösa nödsituationen (åtgärdsarbetsflöde, mer om det senare). Således gör DX OI det möjligt för operatörer i tjänst att fokusera på rotlarmsmeddelandet och hjälper också till att förenkla processen att prioritera meddelanden i klustermatriser.
Maskininlärningsalgoritmer för mätvärdesbearbetning och analys av prestandadata
Maskininlärning låter dig spåra, aggregera och visualisera nyckeltal för en given tidsperiod, vilket ger användaren följande fördelar:
- Upptäck flaskhalsar och prestandaavvikelser;
- Jämförelse av flera indikatorer för samma enheter, gränssnitt eller nätverk;
- Jämförelse av samma indikatorer på flera objekt;
- Jämförelse av olika indikatorer för ett eller flera objekt;
- Jämförelse av flerdimensionella mätvärden över flera objekt.
För att analysera de mätvärden som kommer in i systemet använder DX OI maskinanalysfunktioner med hjälp av matematiska algoritmer, vilket hjälper till att minska den tid som går åt till att ställa in statiska tröskelvärden och generera varningar när avvikelser inträffar.

Resultatet av att använda matematiska algoritmer är konstruktionen av så kallade sannolikhetsfördelningar av det metriska värdet (sällsynt, sannolik, centrum, medelvärde, faktisk). Figurerna ovan och nedan visar sannolikhetsfördelningar.

De två graferna ovan visar följande data:
- Faktiska uppgifter. Faktiska data visas i grafen som en heldragen svart linje (inga larm) eller en färgad heldragen linje (larmtillstånd). Linjen beräknas baserat på faktiska data för mätvärdet. Genom att jämföra faktiska data och medianvärdet kan du snabbt se variationer i mätvärdet. När en händelse inträffar ändras den svarta linjen till en färgad heldragen linje som motsvarar händelsens kritiska karaktär och visar ikoner med motsvarande kritiska karaktär ovanför grafen. Till exempel rött för en kritisk avvikelse, orange för en större avvikelse och gult för en mindre avvikelse.
- Indikatorns medelvärde. Medelvärdet eller genomsnittsvärdet för indikatorn visas i diagrammet som en grå linje. Medelvärdet visas när det inte finns tillräckligt med historiska data.
- Indikatorns medianvärde (centrumvärde). Medianlinjen är mitten av intervallet och visas som den gröna prickade linjen. Zonerna närmast denna linje är närmast indikatorns typiska värden.
- Gemensamt värde. Data för den allmänna zonen följer det område som är närmast mittlinjen eller normen för din avläsning och visas som en mörkgrön stapel. Analytiska beräkningar placerar den totala zonen en percentil över eller under det normala.
- Sannolikhetsdata. Sannolikhetszonens data visas i grafen som en grön stapel. Systemet placerar sannolikhetszonen två percentiler över eller under normen.
- Sällsynta uppgifter. Data för sällsynta zoner visas i grafen som en ljusgrön stapel. Systemet placerar en zon med sällsynta mätvärden tre percentiler över eller under normen och signalerar indikatorns beteende utanför det normala intervallet, medan systemet genererar en så kallad anomalivarning.
En anomali är en mätning eller händelse som inte överensstämmer med ett mätvärdes normala prestanda. Avvikelsedetektering för att identifiera problem och förstå trender inom infrastruktur och applikationer är en viktig funktion i DX OI. Avvikelsedetektering låter dig både känna igen ovanligt beteende (till exempel en server som svarar långsammare än vanligt, eller ovanlig nätverksaktivitet orsakad av ett hack) och reagera därefter (generera en incident, köra ett automatiskt åtgärdsskript).
Funktionen för DX OI-avvikelsedetektering ger följande fördelar:
- Det finns inget behov av att sätta tröskelvärden. DX OI jämför automatiskt data och identifierar avvikelser.
- DX OI innehåller mer än tio algoritmer för artificiell intelligens och maskininlärning, inklusive EWMA (Exponentiellt viktad glidande medelvärde) och KDE (Kernel Density Estimation). Dessa algoritmer möjliggör snabb analys av grundorsaker och förutsägelse av framtida mätvärden.
Prediktiv analys och varningar om potentiella fel
Predictive Insights är en funktion som använder maskininlärning för att identifiera mönster och trender. Baserat på dessa trender förutspår systemet händelser som kan inträffa i framtiden. Dessa meddelanden indikerar att åtgärder måste vidtas innan mätvärdena avviker från normala värden och påverkar kritiska affärstjänster. Prediktiva insikter visas i figuren nedan.

Och detta är en visualisering av prediktiva varningar för ett specifikt mätvärde.

Prognostisera belastningen på datorkapaciteten med funktionen att ställa in belastningsscenarier
Kapacitetsplanering med Capacity Analytics hjälper dig att hantera dina IT-resurser genom att säkerställa att resurserna är rätt dimensionerade för att möta nuvarande och framtida affärsbehov. Du kommer att kunna optimera prestandan och effektiviteten hos dina befintliga resurser, planera och motivera eventuella finansiella investeringar.
Funktionen Kapacitetsanalys i DX OI ger följande fördelar:
- Prognoser för kapacitet under högsäsonger;
- Fastställa när ytterligare resurser kommer att krävas för att säkerställa en högkvalitativ funktion av tjänsten;
- Köpa ytterligare resurser endast vid behov;
- Effektiv förvaltning av infrastruktur och nätverk;
- Eliminera onödiga energikostnader genom att identifiera underutnyttjade resurser;
- Utföra en resursbelastningsbedömning vid en planerad ökning av efterfrågan på en tjänst eller resurs.
Sidan Capacity Analytics DX OI (bild nedan) innehåller följande widgetar:
- Status för resurskapacitet;
- Övervakade grupper/tjänster;
- Konsumenter med högst kapacitet.

Huvudsidan för kapacitetsanalys visar resurskomponenter som är överbelastade och har låg kapacitet. Den här sidan hjälper plattformsadministratörer att hitta överanvända resurser och hjälper dem att ändra storlek på och optimera resurser. Resursernas status kan analyseras baserat på färgkoder och deras motsvarande värden. Resurser klassificeras baserat på deras överbelastningsnivå på sidan Resurskapacitetsstatus. Du kan klicka på varje färg för att se en lista över komponenter som faller inom den valda kategorin. Därefter visas en värmekarta med alla tillgångar och 12-månadersprognoser, vilket gör att du kan identifiera resurser som håller på att ta slut.

För varje mätvärde i Capacity Analytics kan du ange filter som DX Operational Intelligence använder för att generera prognoser (figur nedan).

Följande filter är tillgängliga:
- Metrisk. Det mått som kommer att användas för prognoser.
- Basera på. Välja mängden historisk data som ska användas för att göra framtida prognoser. Det här fältet används för att jämföra och analysera trender under den senaste månaden, trender under de senaste 3 månaderna, trender under året etc.
- Tillväxt. Den förväntade tillväxttakten för den arbetsbelastning som du vill använda för att modellera kapacitetsprognosen. Denna data kan användas för att prognostisera tillväxt utöver prognoserna. Till exempel förväntas resursanvändningen öka med ytterligare 40 procent på grund av öppnandet av ett nytt kontor.
Logganalys
DX OI-logganalysfunktionen ger:
- insamling och aggregering av loggar från olika källor (inklusive de som erhållits med agent- och agentlösa metoder);
- dataparsning och normalisering;
- analys av efterlevnaden av de uppsatta villkoren och generering av händelser;
- korrelation av händelser baserade på loggar, inklusive med händelser som erhållits till följd av övervakning av IT-infrastruktur;
- datavisualisering baserad på analys i DX Dashboards;
- slutsatser om tillgängligheten av tjänster baserat på analys av loggdata.

Agentlös logginsamling utförs av systemet för Windows-händelseloggar och Syslog. Textloggar samlas in med hjälp av agentbaserade metoder.
Automatiserad funktion för lösning av nödsituationer (åtgärd)
Automatiserade arbetsflöden för reparation hjälper till att lösa problemen som orsakade att DX OI-händelsen genererades. Om till exempel ett problem med CPU-belastningen genererar ett larmmeddelande, löser reparationsarbetsflödet problemet genom att starta om servern där problemet uppstod. Integration mellan DX OI och automationssystemet gör att du kan initiera åtgärdsprocesser från händelsekonsolen i DX Operational Intelligence och övervaka dem i automationssystemets konsol.
När larmsystemet är integrerat med automationssystemet kan automatiska åtgärder utlösas för att korrigera larmsituationer i DX OI-konsolen utifrån larmmeddelandets kontext. Du kan se de rekommenderade åtgärderna tillsammans med information om konfidensprocenten (sannolikheten att situationen kommer att lösas genom att utföra åtgärden).


Inledningsvis, när det inte finns någon statistik över resultaten av åtgärdsarbetsflödet, föreslår rekommendationsmotorn potentiella alternativ baserat på en nyckelordssökning, sedan används resultaten av maskininlärning och motorn börjar rekommendera en åtgärdsteknik baserad på heuristik. När du väl börjar utvärdera resultaten av de tips du får kommer rekommendationernas noggrannhet att förbättras.

Ett exempel på användarfeedback: användaren väljer en föreslagen åtgärd som han eller hon gillar eller ogillar, och systemet tar hänsyn till detta val när det ger ytterligare rekommendationer. Gillar/ogillar:

Rekommenderade korrigerande åtgärder för ett visst larm baseras på en kombination av feedback som avgör om åtgärden är acceptabel. DX OI levereras med färdig integration med automationssystemet Automic Automation.
DX OI-integration med tredjepartssystem
Vi kommer inte att uppehålla oss i detalj vid integrationen av data från Broadcoms egna övervakningsprodukter (DX NetOps, DX Infrastructure Management, DX Application Performance Management). Låt oss istället titta på hur data från tredjepartssystem integreras och analysera ett exempel på integration med ett av de mest populära systemen – Zabbix.
DX Gateway-komponenten används för integration med tredjepartssystem. DX Gateway består av tre komponenter - On-Prem Gateway, RESTmon och Log Collector (Logstash). Du kan installera alla tre komponenterna eller bara den du behöver genom att redigera den allmänna konfigurationsfilen när du installerar DX Gateway. Figuren nedan visar DX Gateway-arkitekturen.

Låt oss betrakta syftet med DX Gateway-komponenterna separat.
Lokal gateway. Detta är ett gränssnitt som samlar in larm från DX-plattformen och skickar larmhändelser till tredjepartssystem. On-Prem Gateway fungerar som en poller som regelbundet samlar in händelsedata från DX OI med hjälp av HTTPS-förfrågnings-API och skickar sedan aviseringar till en tredjepartsserver som är integrerad med DX-plattformen med hjälp av webhooks.

DX-loggsamlare tar emot syslog från nätverksenheter eller servrar och laddar upp dem till OI. DX Log Collector låter dig separera programvaran som genererar meddelanden, systemet som lagrar dem och programvaran som rapporterar och analyserar dem. Varje meddelande är taggat med en objektkod som anger vilken typ av programvara som genererar meddelandet och tilldelas en allvarlighetsgrad. Allt detta kan sedan visas i DX Dashboards.
DX RESTmon Integrerar med tredjepartsprodukter/tjänster via REST API och skickar data till OI. Figuren nedan visar driftschemat för DX RESTmon med hjälp av exemplet på integration med övervakningssystemen Solarwinds och SCOM.

Viktiga funktioner i DX RESTmon:
- Anslut till en tredjeparts datakälla för att ta emot data:
- PULL: ansluta till och hämta data från publika REST API:er;
- PUSH: Flödesdata till RESTmon via REST.
- Stöd för JSON- och XML-format;
- Ta emot mätvärden, varningar, grupper, topologi, lager och loggar;
- Färdiga kopplingar för olika verktyg/tekniker, det är också möjligt att utveckla en koppling till valfri källa med ett öppet API (lista över inramade kopplingar i figuren nedan);
- Stöd för grundläggande autentisering (som standard) vid åtkomst till Swagger-gränssnittet och API:et;
- HTTPS-stöd (standard) för alla inkommande och utgående meddelanden;
- Stöd för inkommande och utgående proxyservrar;
- Kraftfulla textanalysfunktioner för loggar som hämtats via REST;
- Anpassningsbar parsning med RESTmon för effektiv logganalys och visualisering;
- Stöd för att extrahera enhetsgruppsinformation från övervakningsapplikationer och ladda in i OI för analys och visualisering;
- Stöd för matchning av reguljära uttryck. Detta kan användas för att analysera och matcha loggmeddelanden som tas emot via REST, och för att generera eller stänga händelser baserat på vissa villkor för reguljära uttryck.

Nu ska vi titta på processen för att konfigurera DX OI-integration med Zabbix via DX RESTmon. Integrationen från startpaketet tar följande data från Zabbix:
- lagerdata;
- topologi;
- problem;
- metrik.
Eftersom Zabbix-kopplingen är tillgänglig direkt ur lådan behöver du bara uppdatera profilen med IP-adressen för Zabbix API-server och kontot för att konfigurera integrationen, och sedan ladda upp profilen via Swaggers webbgränssnitt. Ett exempel visas i de följande två figurerna.


När integrationen är konfigurerad kommer de ovan beskrivna DX OI-analysfunktionerna att vara tillgängliga för data som kommer från Zabbix, nämligen: larmanalys, prestandaanalys, prediktiva insikter, serviceanalys och åtgärd. Figuren nedan visar ett exempel på prestandamåttanalys för objekt integrerade från Zabbix.

Slutsats
DX OI är ett modernt analysverktyg som kommer att ge IT-avdelningar betydande operativ effektivitet och göra det möjligt för dem att fatta snabbare och mer korrekta beslut för att förbättra kvaliteten på IT- och affärstjänster genom kontextuell analys över flera domäner. För applikationsägare och affärsenheter kommer DX OI att beräkna indikatorn för tillgänglighet och kvalitet på tjänster, inte bara i samband med IT-tekniska mätvärden, utan även affärs-KPI:er härledda från slutanvändarnas transaktionsstatistik.
Om du vill veta mer om den här lösningen, vänligen skicka in en begäran om en demo eller ett pilotprojekt. på vår webbplats.
Källa: will.com
