Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

今年 20.2 月,Broadcom(原 CA)发布了 DX Operations Intelligence (DX OI) 解决方案的新版本 XNUMX。 在市场上,该产品定位为伞式监控系统。 该系统能够接收并组合来自CA和第三方制造商的各个领域(网络、基础设施、应用程序、数据库)监控系统的数据,包括开源解决方案(Zabbix、Prometheus等)。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

DX OI 的主要功能是基于配置项 (CU) 创建成熟的资源服务模型 (RSM),与第三方系统集成时,配置项会填充库存数据库。 DX OI 对进入平台的数据实现机器学习和人工智能(ML 和 AI)功能,使您可以根据以下信息评估/预测特定 CI 发生故障的概率以及故障对业务服务的影响程度特定的 CI。 此外,DX OI是监控事件的单点收集,因此与Service Desk系统集成,这是组织轮班在统一监控中心使用该系统无可争议的优势。 在本文中,我们将向您详细介绍系统的功能并展示用户和管理员界面。

DX OI 解决方案架构

DX平台具有微服务架构,安装并运行Kubernetes或OpenShift。 下图显示了该解决方案的组件,这些组件可以用作独立的监控工具,也可以替换为具有类似功能的现有监控系统(图中有此类系统的示例),然后连接到DX OI伞。 如下图所示:

  • 在 DX App Experience Analytics 中监控移动应用程序;
  • DX APM 中的应用程序性能监控;
  • DX 基础设施管理器中的基础设施监控;
  • 在 DX NetOps Manager 中监控网络设备。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

DX 组件在 Kubernetes 集群上运行,只需启动新的 POD 即可进行扩展。 下面是顶级解决方案图。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

DX 平台的管理、扩展和升级是在管理控制台中完成的。 从单个控制台,您可以管理跨多个企业或公司内多个业务部门的多租户架构。 在此模型中,每个设施都可以作为租户单独配置,并具有自己的一组配置。

管理控制台是一个基于Web的操作和系统管理工具,为管理员提供一致、统一的界面来执行监控集群管理任务。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

公司内业务部门或企业的新租户在几分钟内完成部署。 如果你想要有一个统一的监控系统,但同时在平台层面(而不是访问权限),划分部门之间的监控对象,这是一个优势。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

资源服务模型和业务服务监控

DX OI 具有用于创建服务和开发经典 PCM 的内置机制,其任务是服务组件之间的影响和权重逻辑。 还有从外部 CMDB 导出 PCM 的机制。 下图显示了内置的PCM编辑器(注意链接权重)。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

DX OI 提供业务或 IT 服务关键绩效指标的精细整体视图,包括服务可用性和故障风险预测。 该工具还可以深入了解性能问题或 IT 组件(应用程序或基础设施)结构变化对业务服务的影响。 下图是一个交互式仪表板,显示所有服务的状态。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

让我们以数字银行服务为例来仔细研究一下。 通过单击服务名称,我们可以转到详细的 PCM 服务。 我们看到,数字银行服务的状态取决于基础设施和具有不同权重的交易子服务的状态。 使用权重并显示它们是 DX OI 的一个有趣优势。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

拓扑是企业运营监控的重要元素,允许运营商和工程师分析组件之间的关系,找到根本原因和影响。

DX OI 拓扑查看器是一项使用来自域监控系统的拓扑数据的服务,这些系统直接从监控对象收集数据。 该工具旨在搜索多个拓扑存储层并显示特定于上下文的关系图。 要调查问题,您可以转到有问题的后端银行子服务并查看拓扑和有问题的组件。 还可以分析每个组件的警报消息和性能指标。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

在分析支付的交易组件(用户交易)时,我们可以跟踪业务 KPI 值,在计算服务的可用性状态和运行状况时也会考虑这些值。 业务 KPI 的示例如下所示:

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

事件分析(警报分析)

通过碰撞聚类降低算法噪音

DX OI 在事件处理方面的关键功能之一是集群。 该机制适用于进入系统的所有警报,以根据不同的上下文识别模式并将它们组合成组。 这些集群是自学习的,不需要手动配置。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

因此,聚类允许用户对大量事件进行组合和分组,并仅分析具有共同上下文的事件。 例如,表示影响应用程序或数据中心的事件的一组事件。 这些情况是使用基于机器学习的聚类算法创建的,该算法使用时间相关性、拓扑关系和本地语言处理进行分析。 下图显示了消息集群的可视化示例,即所谓的“情况警报”和“证据时间线”,其中显示了主要分组参数以及减少噪声事件数量的过程。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

根本问题分析和崩溃关联

在当今的混合环境中,用户事务可能会影响动态使用的多个系统。 因此,可以从不同的系统生成多个警报,但与同一问题或事件相关。 DX OI 使用专有机制来抑制冗余和重复警报,并将相关警报关联起来,以改进对关键问题的检测并更快地解决问题。

让我们考虑一个例子,当系统收到针对一项服务下的不同对象 (KE) 的大量紧急消息时。 如果服务的可用性和可操作性受到影响,系统将生成服务警报(Service Alarm),指示并指定导致性能下降的可能根本原因(问题 CI 和 CI 上的警报消息)或服务失败。 下图显示了 Webex 服务的崩溃可视化。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

DX OI 允许您通过系统 Web 界面中的直观操作来处理事件。 用户可以手动将事件分配给负责的员工进行故障排除、重置/确认警报、创建票证或发送电子邮件通知、运行自动化脚本来解决紧急情况(修复工作流程,稍后会详细介绍)。 通过这种方式,DX OI 可以让值班操作员专注于根本警报消息,还有助于简化将消息分类到集群数组中的过程。

用于处理指标和分析性能数据的机器算法

机器学习允许您跟踪、汇总和可视化任何给定时间段内的关键绩效指标,这为用户带来以下好处:

  • 检测瓶颈和性能异常;
  • 同一设备、接口或网络的多项指标比较;
  • 多个对象相同指标的比较;
  • 一个或多个对象的各项指标的比较;
  • 多个对象的多维指标的比较。

为了分析进入系统的指标,DX OI 使用数学算法的机器分析功能,这有助于减少设置静态阈值和在发生异常时生成警告的时间。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

应用数学算法的结果是构建所谓的度量值的概率分布(稀有、可能、中心、平均值、实际)。 上图和下图显示了概率分布。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

上面两张图显示了以下数据:

  • 实际数据(实际)。 实际数据绘制为黑色实线(无警报)或彩色实线(警报条件)。 该线是根据指标的实际数据计算的。 通过比较实际数据和中位数,您可以快速看到指标的变化。 当事件发生时,黑线会变为与事件严重性相对应的彩色实线,并在图表上方显示具有相应严重性的图标。 例如,红色表示严重异常,橙色表示主要异常,黄色表示次要异常。
  • 指标的平均值(Mean value)。 度量的中值或平均值在图表中显示为灰线。 当历史数据不足时,显示平均值。
  • 指标的中位值(中心值)。 中线是范围的中间,显示为绿色虚线。 最接近该线的区域最接近指标的典型值。
  • 通用数据(通用值)。 总区域数据跟踪最接近指标的中心线或法线,并显示为深绿色条。 分析计算将总区域置于正常值之上或之下百分之一的位置。
  • 概率数据。 概率区域数据在图表上以绿色条显示。 系统将概率区域置于高于或低于正常值两个百分位数。
  • 稀有数据。 稀有区域数据在图表上显示为浅绿色条。 系统将罕见指标值设置为高于或低于正常值三个百分位的区域,并发出指标超出正常范围的行为信号,同时系统生成所谓的异常警报。

异常是与指标的正常性能不一致的测量或事件。 通过异常检测来识别问题并了解基础设施和应用程序的趋势是 DX OI 的一个关键功能。 异常检测使您能够识别异常行为(例如,服务器响应速度比平常慢,或者黑客导致的异常网络活动)并做出相应响应(启动事件、运行自动修复脚本)。

DX OI 异常检测功能具有以下优势:

  • 您不需要设置阈值。 DX OI 将独立比较数据并识别异常情况。
  • DX OI 包含十多种人工智能和机器学习算法,包括 EWMA(指数加权移动平均)和 KDE(核密度估计)。 这些算法允许您执行快速根本原因分析并预测未来指标。

预测分析和故障警报

预测洞察是一项利用机器学习的力量来识别模式和趋势的功能。 根据这些趋势,系统预测未来可能发生的事件。 这些消息表明必须在指标值超出正常范围、影响关键业务服务之前采取行动。 预测洞察如下图所示。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

这是特定指标的预测警报的可视化。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

通过设置负载场景功能预测算力负载

容量分析容量规划功能可确保资源规模适当,以满足当前和未来的业务需求,从而帮助管理 IT 资源。 您将能够优化现有资源的性能和效率,规划并证明任何财务投资的合理性。

DX OI 中的容量分析功能具有以下优势:

  • 旺季预报能力;
  • 确定何时需要额外资源以确保服务的质量运行;
  • 仅在需要时购买额外资源;
  • 高效的基础设施和网络管理;
  • 通过识别未充分利用的资源消除不必要的能源成本;
  • 在服务或资源需求计划增加的情况下执行资源负载估计。

容量分析 DX OI 页面(如下所示)具有以下小部件:

  • 资源容量状态;
  • 受控组/服务(Monitored Groups/Services);
  • 资源的大消费者(顶级容量消费者)。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

主容量分析页面显示过度使用和耗尽容量的资源组件。 此页面可帮助平台管理员查找过度使用的资源,并帮助他们调整资源大小和优化资源。 可以根据颜色代码及其各自的值来分析资源的状态。 资源容量状态页面根据资源的拥塞程度进行分类。 您可以单击每种颜色来查看所选类别中的组件列表。 接下来,将显示一个热图,其中包含 12 个月内的所有对象和预测,这使您可以识别即将耗尽的资源。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

对于容量分析中的每个指标,您可以指定 DX 运营智能用于进行预测的过滤器(下图)。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

可以使用以下过滤器:

  • 公制。 用于预测的指标。
  • 依据. 选择将用于构建未来预测的历史数据量。 该字段用于比较和分析上个月趋势、最近3个月趋势、年度趋势等。
  • 成长。 要用于对容量预测进行建模的工作负载的预期增长率。 该数据可用于预测超出预测的增长。 例如,由于新办公室的开设,资源使用量预计将再增加 40%。

日志分析

DX OI 日志分析功能提供:

  • 收集、聚合来自不同来源的日志(包括通过代理和无代理方法获得的日志);
  • 解析和数据标准化;
  • 分析是否符合设定条件并生成事件;
  • 基于日志的事件关联,包括由于 IT 基础设施监控而收到的事件;
  • 基于 DX 仪表板分析的数据可视化;
  • 根据日志数据分析得出有关服务可用性的结论。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

系统使用无代理方法收集 Windows 事件日志和 Syslog。 基于代理的方式收集文本日志。

自动紧急解决功能(补救)

纠正紧急情况的自动操作(补救工作流程)允许您解决导致 DX OI 中生成事件的问题。 例如,如果 CPU 使用问题生成警报,修复工作流程将通过重新启动有问题的服务器来解决问题。 DX OI 与自动化系统之间的集成允许从 DX 运营智能中的事件控制台触发修复流程,并在自动化系统控制台中进行跟踪。

与自动化系统集成后,您可以根据警报触发自动操作来纠正 DX OI 控制台中的任何紧急情况。 您可以查看建议的操作以及有关置信百分比的信息(通过采取操作解决问题的可能性)。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

最初,当修复工作流程的结果没有统计数据时,推荐引擎会根据关键字搜索推荐候选者,然后使用机器学习结果,引擎开始推荐基于启发式的修复技术。 一旦您开始评估收到的提示的结果,建议的准确性就会提高。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

用户反馈的一个示例:用户选择他是否喜欢或不喜欢所建议的操作,系统在做出进一步推荐时会考虑此选择。 喜欢不喜欢:

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

针对特定警报的建议纠正措施基于确定该措施是否可接受的反馈组合。 DX OI 与 Automic Automation 集成即用。

DX OI与第三方系统的集成

我们不会详细讨论来自本机 Broadcom 监控产品(DX NetOps、DX 基础设施管理、DX 应用性能管理)的数据集成。 相反,让我们看看如何集成来自第三方 3rd-party 系统的数据,并考虑与最流行的系统之一 - Zabbix 集成的示例。

为了与第三方系统集成,使用DX网关组件。 DX Gateway 由 3 个组件组成 - On-Prem Gateway、RESTmon 和日志收集器 (Logstash)。 您可以安装所有 3 个组件,也可以通过在安装 DX Gateway 时更改常规配置文件来仅安装您需要的组件。 下图所示为DX网关架构。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

让我们分别考虑 DX 网关组件的用途。

本地网关。 这是一个从DX平台收集警报并将警报事件发送到第三方系统的接口。 本地网关充当轮询器,使用 HTTPS 请求 API 定期从 DX OI 收集事件数据,然后使用 Webhooks 将警报发送到与 DX 平台集成的第三方服务器。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

DX 日志收集器 从网络设备或服务器接收系统日志并将其上传到 OI。 DX Log Collector 允许您分离生成消息的软件、存储消息的系统以及报告和分析消息的软件。 每条消息都标有实体代码,指示生成该消息的软件类型并指定严重性级别。 您可以稍后在 DX 仪表板中查看所有这些。

DX RESTmon 通过REST API与第三方产品/服务集成并将数据传递给OI。 下图以与 Solarwinds 和 SCOM 监控系统集成的示例显示了 DX RESTmon 的操作。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

DX RESTmon 的主要特点:

  • 连接到任何第三方数据源以接收数据:
    • PULL:从公共 REST API 连接和检索数据;
    • PUSH:数据通过 REST 流向 RESTmon。
  • 支持JSON和XML格式;
  • 接收指标、警报、组、拓扑、库存和日志;
  • 适用于各种工具/技术的现成连接器,还可以使用开放 API 开发连接到任何源的连接器(下图中盒装连接器列表);
  • 访问Swagger接口和API时支持基本身份验证(默认);
  • 所有传入和传出消息均支持 HTTPS(默认);
  • 支持传入和传出代理;
  • 对通过REST接收的日志具有强大的文本解析能力;
  • 使用 RESTmon 可定制解析,实现日志的高效解析和可视化;
  • 支持从监控应用程序中提取有关设备组的信息并下载到OI进行分析和可视化;
  • 支持正则表达式匹配。 这可用于解析和匹配通过 REST 接收的日志消息,并根据某些正则表达式条件生成或关闭事件。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

现在让我们看看通过 DX RESTmon 设置 DX OI 与 Zabbix 集成的过程。 盒装集成从 Zabbix 获取以下数据:

  • 库存数据;
  • 拓扑结构;
  • 问题;
  • 指标。

由于 Zabbix 的连接器是开箱即用的,因此设置集成所需要做的就是使用 Zabbix 服务器 API IP 地址和帐户更新配置文件,然后通过 Swagger Web 界面上传配置文件。 接下来的两张图就是一个例子。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

配置集成后,上述 DX OI 分析功能将可用于来自 Zabbix 的数据,即:警报分析、性能分析、预测洞察、服务分析和修复。 下图显示了分析从 Zabbix 集成的对象的性能指标的示例。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 监控系统和资源服务模型

结论

DX OI 是一款最先进的分析工具,将为 IT 部门提供显着的运营效率,让您能够做出更快、更正确的决策,通过跨域上下文分析来提高 IT 服务和业务服务的质量。 对于应用程序所有者和业务部门来说,DX OI 不仅会根据 IT 技术指标计算可用性和服务质量,还会根据最终用户事务统计数据计算业务 KPI。

如果您想了解有关此解决方案的更多信息,请申请演示或试点 以您方便的方式 在我们的网站上。

来源: habr.com

添加评论