Този септември Broadcom (бивш CA) пусна новата версия 20.2 на своето решение DX Operations Intelligence (DX OI). На пазара този продукт се позиционира като чадър система за наблюдение. Системата може да получава и комбинира данни от системи за мониторинг на различни домейни (мрежа, инфраструктура, приложения, бази данни) както от CA, така и от производители на трети страни, включително решения с отворен код (Zabbix, Prometheus и други).

Основната функция на DX OI е създаването на пълноценен модел за обслужване на ресурси (RSM), базиран на конфигурационни елементи (CU), които попълват базата данни за инвентара, когато са интегрирани със системи на трети страни. DX OI внедрява функции за машинно обучение и изкуствен интелект (ML и AI) върху данните, влизащи в платформата, което ви позволява да оцените / предвидите вероятността за повреда на конкретен CI и степента на въздействие на повреда върху бизнес услуга въз основа на конкретен CI. Освен това DX OI е единна точка за събиране на мониторингови събития и съответно интеграция със системата Service Desk, което е безспорно предимство на използването на системата в единни центрове за мониторинг от дежурни смени на организации. В тази статия ще ви разкажем повече за функционалността на системата и ще покажем потребителския и администраторския интерфейс.
Архитектура на DX OI решение
DX платформата има микросервизна архитектура, инсталирана и работеща с Kubernetes или OpenShift. Следващата фигура показва компонентите на решението, които могат да се използват като независими инструменти за наблюдение или могат да бъдат заменени със съществуващи системи за наблюдение с подобни функции (има примери за такива системи на фигурата) и след това да се свържат към DX OI чадъра. В диаграмата по-долу:
- Мониторинг на мобилни приложения в DX App Experience Analytics;
- Мониторинг на производителността на приложенията в DX APM;
- Наблюдение на инфраструктурата в DX Infrastructure Manager;
- Мониторинг на мрежови устройства в DX NetOps Manager.

DX компонентите работят на Kubernetes клъстер и се мащабират чрез просто стартиране на нови POD. По-долу е дадена диаграма на решение от най-високо ниво.

Администрирането, мащабирането и надграждането на DX платформата се извършва в административната конзола. От една конзола можете да управлявате архитектура с множество наематели, която може да обхваща множество предприятия или множество бизнес единици в рамките на една компания. В този модел всяко съоръжение може да бъде конфигурирано индивидуално като наемател със собствен набор от конфигурации.
Административната конзола е уеб-базиран инструмент за управление на операции и система, който предоставя на администраторите последователен, унифициран интерфейс за изпълнение на задачи за управление на мониторинг на клъстери.

Нови наематели за бизнес единици или предприятия в рамките на компанията се разполагат за минути. Това е предимство, ако искате да имате унифицирана система за наблюдение, но в същото време на ниво платформа (а не права за достъп) разграничете обектите за наблюдение между отделите.

Ресурсно-сервизни модели и мониторинг на бизнес услуги
DX OI има вградени механизми за създаване на услуги и разработване на класически PCM със задачата на логиката на влияние и тегла между компонентите на услугата. Има и механизми за експортиране на PCM от външна CMDB. Фигурата по-долу показва вградения PCM редактор (обърнете внимание на теглото на връзката).

DX OI предоставя холистичен изглед на ключови показатели за ефективност за бизнес или ИТ услуги на детайлно ниво, включително наличност на услуги и прогнозиране на риска от повреда. Инструментът може също така да предостави представа за въздействието на проблем с производителността или промяна в структурата на ИТ компонентите (приложение или инфраструктура) върху бизнес услуга. Фигурата по-долу е интерактивно табло, което показва състоянието на всички услуги.

Нека разгледаме по-подробно услугата Дигитално банкиране като пример. Щраквайки върху името на услугата, отиваме на подробната PCM услуга. Виждаме, че статусът на услугата за цифрово банкиране зависи от състоянието на инфраструктурата и транзакционните подуслуги с различна тежест. Работата с тежести и показването им е интересно предимство на DX OI.

Топологията е важен елемент от оперативното наблюдение на предприятието, което позволява на операторите и инженерите да анализират връзката между компонентите, да намерят първопричината и влиянието.
DX OI Topology Viewer е услуга, която използва топологични данни от системи за наблюдение на домейн, които събират данни директно от обекти за наблюдение. Инструментът е предназначен за търсене на множество топологични слоеве за съхранение и показване на контекстно-специфична карта на връзката. За да проучите проблемите, можете да отидете до проблемната подуслуга Backend Banking и да видите топологията и проблемните компоненти. Алармените съобщения и показателите за ефективност също могат да бъдат анализирани за всеки компонент.

Когато анализираме транзакционните компоненти на плащанията (потребителски транзакции), можем да проследим бизнес стойностите на KPI, които също се вземат предвид при изчисляване на състоянието на наличност и здравето на услугата. Пример за бизнес KPI е показан по-долу:


Анализ на събития (Alarm Analytics)
Алгоритмично намаляване на шума поради групиране на сривове
Една от ключовите характеристики на DX OI при обработката на събития е групирането. Механизмът работи върху всички сигнали, идващи в системата, за да идентифицира модели въз основа на различни контексти и да ги комбинира в групи. Тези клъстери се самообучават и не е необходимо да се конфигурират ръчно.

По този начин клъстерирането позволява на потребителите да комбинират и групират огромен брой събития и да анализират само тези, които имат общ контекст. Например набор от събития, които представляват инцидент, който засяга приложения или център за данни. Ситуациите се създават с помощта на базирани на машинно обучение алгоритми за групиране, които използват времева корелация, топологична връзка и обработка на роден език за анализ. Фигурите по-долу показват примери за визуализация на клъстерирани групи от съобщения, така наречените ситуационни аларми и времева линия на доказателствата, които показват основните параметри на групиране и процеса на намаляване на броя на шумовите събития.


Анализ на коренния проблем и корелация на сривове
В днешната хибридна среда потребителска транзакция може да засегне множество системи, които се използват динамично. В резултат на това могат да се генерират множество предупреждения от различни системи, но свързани с един и същ проблем или инцидент. DX OI използва собствени механизми за потискане на излишни и дублиращи се предупреждения и корелиране на свързаните предупреждения за подобрено откриване на критични проблеми и по-бързо разрешаване.
Нека разгледаме пример, когато системата получава множество спешни съобщения за различни обекти (KE), които са в основата на една услуга. В случай на въздействие върху наличността и работоспособността на услугата, системата ще генерира сервизна аларма (Service Alarm), ще посочи и посочи вероятната първопричина (CI проблем и съобщение за аларма на CI), която е допринесла за намаляване на производителността или отказ на услугата. Фигурата по-долу показва визуализация на срив за услуга на Webex.

DX OI ви позволява да работите със събития чрез интуитивни действия в уеб интерфейса на системата. Потребителите могат ръчно да присвояват събития на отговорния служител за отстраняване на неизправности, да нулират/потвърждават предупреждения, да създават билети или да изпращат известия по имейл, да изпълняват автоматизирани скриптове за разрешаване на извънредна ситуация (Работен процес за коригиране, повече за това по-късно). По този начин DX OI позволява на операторите на смяна да се съсредоточат върху основното алармено съобщение и също така помагат за опростяване на процеса на сортиране на съобщения в клъстерни масиви.
Машинни алгоритми за обработка на показатели и анализиране на данни за ефективността
Машинното обучение ви позволява да проследявате, обобщавате и визуализирате ключови показатели за ефективност за всеки даден период от време, което дава на потребителя следните предимства:
- Откриване на тесни места и аномалии в производителността;
- Сравнение на няколко индикатора за едни и същи устройства, интерфейси или мрежи;
- Сравнение на едни и същи показатели на няколко обекта;
- Сравнение на различни показатели за един и няколко обекта;
- Сравнение на многомерни метрики за няколко обекта.
За да анализира метриките, влизащи в системата, DX OI използва функциите на машинния анализ, използвайки математически алгоритми, което помага да се намали времето при задаване на статични прагове и генериране на предупреждения при възникване на аномалии.

Резултатът от прилагането на математически алгоритми е изграждането на така наречените вероятностни разпределения на метричната стойност (Rare, Probable, Center, Mean, Actual). Фигурите по-горе и по-долу показват вероятностните разпределения.

Двете диаграми по-горе показват следните данни:
- Действителни данни (Actual). Действителните данни се нанасят като плътна черна линия (без аларми) или цветна плътна линия (състояние на аларма). Линията се изчислява въз основа на действителните данни за показателя. Като сравнявате действителните данни и медианата, можете бързо да видите вариацията в показателя. Когато настъпи събитие, черната линия се променя на цветна плътна линия, която съответства на тежестта на събитието и показва икони със съответната тежест над графиката. Например червено за критична аномалия, оранжево за голяма аномалия и жълто за малка аномалия.
- Средна стойност на показателя (Mean value). Медианата или средната стойност за мярка е показана като сива линия в диаграмата. Средната стойност се показва, когато няма достатъчно исторически данни.
- Средната стойност на индикатора (централна стойност). Средната линия е средата на диапазона и е показана като зелена пунктирана линия. Най-близките до тази линия зони са най-близо до типичните стойности на индикатора.
- Общи данни (Common Value). Данните за общата зона проследяват най-близкото до централната линия или нормата за вашия показател и се показват като тъмнозелена лента. Аналитичните изчисления поставят общата зона с един процентил над или под нормалното.
- вероятностни данни. Данните за вероятностната зона са показани на графиката със зелена лента. Системата поставя вероятностната зона два перцентила над или под нормалното.
- Редки данни. Данните за редки зони се показват на графиката като светлозелена лента. Системата поставя зона с редки метрични стойности три перцентила над или под нормата и сигнализира поведението на индикатора извън нормалния диапазон, докато системата генерира така нареченото предупреждение за аномалия.
Аномалия е измерване или събитие, което не е в съответствие с нормалното представяне на показателя. Откриването на аномалии за идентифициране на проблеми и разбиране на тенденциите в инфраструктурата и приложенията е ключова характеристика на DX OI. Откриването на аномалии ви позволява както да разпознаете необичайно поведение (например сървър, който отговаря по-бавно от обикновено, или необичайна мрежова активност, причинена от хак), така и да реагирате по съответния начин (иницииране на инцидент, стартиране на автоматичен коригиращ скрипт).
Функцията за откриване на аномалии на DX OI предоставя следните предимства:
- Не е необходимо да задавате прагове. DX OI независимо ще сравни данните и ще идентифицира аномалии.
- DX OI включва повече от десет алгоритъма за изкуствен интелект и машинно обучение, включително EWMA (Exponencially-Weighted-Moving-Average) и KDE (Kernel Density Estimation). Тези алгоритми ви позволяват да извършвате бърз анализ на първопричината и да предвиждате бъдещи показатели.
Прогностичен анализ и предупреждения за неизправности
Predictive Insights е функция, която използва силата на машинното обучение, за да идентифицира модели и тенденции. Въз основа на тези тенденции системата прогнозира събития, които могат да се случат в бъдеще. Тези съобщения показват, че трябва да се предприемат действия, преди стойностите на показателите да надхвърлят нормалния диапазон, оказвайки влияние върху критичните бизнес услуги. Прогнозните прозрения са показани на фигурата по-долу.

И това е визуализация на предсказуеми сигнали за конкретен показател.

Прогнозиране на натоварването на изчислителната мощност с функцията за задаване на сценарии за натоварване
Функцията за планиране на капацитета на Capacity Analytics помага за управлението на ИТ ресурсите, като гарантира, че ресурсите са правилно оразмерени, за да отговорят на настоящите и бъдещите бизнес нужди. Ще можете да оптимизирате производителността и ефективността на съществуващите ресурси, да планирате и оправдаете всяка финансова инвестиция.
Функцията за анализ на капацитета в DX OI предоставя следните предимства:
- Прогнозиране на капацитета през пиковите сезони;
- Определяне на момента, в който са необходими допълнителни ресурси за осигуряване на качеството на услугата;
- Закупуване на допълнителни ресурси само при необходимост;
- Ефективно управление на инфраструктурата и мрежата;
- Елиминирайте ненужните енергийни разходи чрез идентифициране на недостатъчно използвани ресурси;
- Извършване на оценка на натоварването на ресурсите в случай на планирано увеличение на търсенето на услуга или ресурс.
Страницата Capacity Analytics DX OI (показана по-долу) има следните модули:
- Състояние на ресурсния капацитет;
- Контролирани групи / услуги (наблюдавани групи / услуги);
- Големи потребители на ресурси (Top Capacity Consumers).

Основната страница за анализ на капацитета показва компоненти на ресурси, които се използват прекомерно и изчерпват капацитета си. Тази страница помага на администраторите на платформата да намерят прекомерно използвани ресурси и им помага да преоразмерят и оптимизират ресурсите. Състоянието на ресурсите може да се анализира въз основа на цветови кодове и съответните им стойности. Ресурсите се категоризират според тяхната степен на претоварване на страницата за състояние на ресурсния капацитет. Можете да щракнете върху всеки от цветовете, за да видите списък с компонентите в избраната категория. След това се показва топлинна карта с всички обекти и прогнози за 12 месеца, което ви позволява да идентифицирате ресурсите, които са на път да бъдат изчерпани.

За всеки от показателите в Capacity Analytics можете да посочите филтрите, които DX Operational Intelligence използва, за да прави прогнози (фигурата по-долу).

Налични са следните филтри:
- Метрична. Показателят, който ще се използва за прогнозата.
- Базирам се на. Избор на количество исторически данни, които ще се използват за изграждане на прогнози за бъдещето. Това поле се използва за сравняване и анализиране на тенденции от последния месец, тенденции от последните 3 месеца, годишни тенденции и т.н.
- Растеж. Очакваният темп на нарастване на работното натоварване, който искате да използвате за моделиране на прогнозата за капацитета. Тези данни могат да се използват за прогнозиране на растеж извън прогнозите. Например използването на ресурси се очаква да нарасне с още 40 процента поради откриването на нов офис.
Анализ на регистрационния файл
Функцията за анализ на журнал на DX OI осигурява:
- събиране, агрегиране на регистрационни файлове от различни източници (включително получени чрез агентски и безагентни методи);
- анализиране и нормализиране на данни;
- анализ за съответствие със зададените условия и генериране на събития;
- корелация на събития въз основа на регистрационни файлове, включително събития, получени в резултат на мониторинг на ИТ инфраструктурата;
- визуализация на данни на база анализ в DX Dashboards;
- заключения за наличието на услуги въз основа на анализ на данни от регистрационните файлове.

Събирането на лог файлове без агент се извършва от системата за Windows Журнали на събития и системен лог. Текстовите логове се събират на базата на агент.
Автоматизирана функция за разрешаване на спешни случаи (възстановяване)
Автоматизираните действия за коригиране на извънредната ситуация (Remediation Workflow) ви позволяват да разрешите проблеми, които са причинили генерирането на събитие в DX OI. Например, ако проблем с използването на процесора генерира аларма, работният поток за коригиране решава проблема, като рестартира сървъра, който има проблема. Интеграцията между DX OI и системата за автоматизация позволява процесите на коригиране да се задействат от конзолата за събития в DX Operational Intelligence и да се проследяват в конзолата на системата за автоматизация.
След интегриране със система за автоматизация, можете да задействате автоматични действия за коригиране на всяка авария в конзолата DX OI от контекста на аларма. Можете да видите препоръчаните действия заедно с информация за процентите на доверие (вероятността ситуацията да бъде разрешена чрез предприемане на действието).


Първоначално, когато няма статистически данни за резултатите от работния процес за коригиране, механизмът за препоръки предлага кандидати въз основа на търсения по ключови думи, след това се използват резултатите от машинното обучение и двигателят започва да препоръчва евристично базирана техника за коригиране. Веднага щом започнете да оценявате резултатите от получените съвети, точността на препоръките ще се подобри.

Пример за обратна връзка с потребителя: потребителят избира дали харесва или не предлаганото действие и системата взема предвид този избор, когато прави допълнителни препоръки. Харесвам/не харесвам:

Препоръчителните коригиращи действия за определена аларма се основават на комбинация от обратна връзка, която определя дали действието е приемливо. DX OI идва с готова за използване интеграция с Automic Automation.
Интеграция на DX OI със системи на трети страни
Няма да се спираме на интегрирането на данни от родните продукти за мониторинг на Broadcom (DX NetOps, DX Infrastructure Management, DX Application Performance Management). Вместо това, нека да разгледаме как се интегрират данни от системи на трети страни и да разгледаме пример за интеграция с една от най-популярните системи - Zabbix.
За интеграция със системи на трети страни се използва компонентът DX Gateway. DX Gateway се състои от 3 компонента - On-Prem Gateway, RESTmon и Log Collector (Logstash). Можете да инсталирате всичките 3 компонента или само този, от който се нуждаете, като промените общия конфигурационен файл, когато инсталирате DX Gateway. Фигурата по-долу показва архитектурата на DX Gateway.

Нека разгледаме отделно предназначението на компонентите на DX Gateway.
On-Prem Gateway. Това е интерфейс, който събира аларми от DX платформата и изпраща алармени събития до системи на трети страни. On-Prem Gateway действа като избирател, който периодично събира данни за събития от DX OI, използвайки HTTPS API за заявки, след което изпраща предупреждения до сървър на трета страна, който е интегриран с DX платформата, използвайки уебкукички.

DX Log Collector получава системен лог от мрежови устройства или сървъри и ги качва в OI. DX Log Collector ви позволява да разделите софтуера, който генерира съобщения, системата, която ги съхранява, и софтуера, който ги отчита и анализира. Всяко съобщение е маркирано с обектен код, указващ типа софтуер, генериращ съобщението, и му е присвоено ниво на сериозност. Всичко това може да се види в DX Dashboards.
DX RESTмон интегрира се с продукти/услуги на трети страни чрез REST API и предава данни на OI. Фигурата по-долу показва работата на DX RESTmon, използвайки примера за интеграция със системи за мониторинг Solarwinds и SCOM.

Основни характеристики на DX RESTmon:
- Свържете се с източник на данни на трета страна, за да получавате данни:
- PULL: свързване и извличане на данни от публични REST API;
- PUSH: поток от данни към RESTmon чрез REST.
- Поддръжка на JSON и XML формати;
- Получаване на показатели, сигнали, групи, топология, инвентар и регистрационни файлове;
- Готови конектори за различни инструменти/технологии, също така е възможно да се разработи конектор към всеки източник с отворен API (списък на конектори в кутия на фигурата по-долу);
- Поддръжка за основно удостоверяване (по подразбиране) при достъп до интерфейса и API на Swagger;
- HTTPS поддръжка (по подразбиране) за всички входящи и изходящи съобщения;
- Поддръжка на входящи и изходящи проксита;
- Мощни възможности за разбор на текст за регистрационни файлове, получени чрез REST;
- Персонализиран анализ с RESTmon за ефективен анализ и визуализация на регистрационни файлове;
- Поддръжка за извличане на информация за групи устройства от приложения за мониторинг и изтегляне в OI за анализ и визуализация;
- Поддръжка за съпоставяне на регулярен израз. Това може да се използва за анализиране и съпоставяне на регистрационни съобщения, получени чрез REST, и за генериране или затваряне на събития въз основа на определени условия на регулярен израз.

Сега нека да разгледаме процеса на настройка на DX OI интеграция със Zabbix чрез DX RESTmon. Интеграцията в кутия взема следните данни от Zabbix:
- данни за инвентара;
- топология;
- проблеми;
- метрика.
Тъй като конекторът за Zabbix е наличен извън кутията, всичко, което трябва да се направи, за да настроите интеграцията, е да актуализирате профила с IP адреса и акаунта на API на Zabbix сървъра и след това да качите профила през уеб интерфейса на Swagger . Пример е в следващите две фигури.


След конфигуриране на интеграцията, аналитичните функции на DX OI, описани по-горе, ще бъдат достъпни за данни, идващи от Zabbix, а именно: анализ на аларми, анализ на производителността, предсказуеми прозрения, анализ на услуги и коригиране. Фигурата по-долу показва пример за анализиране на показатели за ефективност за обекти, интегрирани от Zabbix.

Заключение
DX OI е най-съвременен аналитичен инструмент, който ще осигури значителна оперативна ефективност на ИТ отделите, позволявайки ви да вземате по-бързи и по-правилни решения за подобряване на качеството на ИТ услугите и бизнес услугите чрез междудомейнов контекстуален анализ. За собствениците на приложения и бизнес звената, DX OI ще изчисли наличността и качеството на услугата не само в контекста на показателите на ИТ технологиите, но също и бизнес KPI, получени от транзакционната статистика на крайния потребител.
Ако искате да научите повече за това решение, моля, кандидатствайте за демонстрация или пилотна програма на нашия уебсайт.
Източник: www.habr.com
