Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

今年 20.2 月,Broadcom(原 CA)發布了 DX Operations Intelligence (DX OI) 解決方案的新版本 XNUMX。 在市場上,該產品定位為傘式監控系統。 該系統能夠接收並組合來自CA和第三方製造商的各個領域(網絡、基礎設施、應用程序、數據庫)監控系統的數據,包括開源解決方案(Zabbix、Prometheus等)。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

DX OI 的主要功能是基於配置項 (CU) 創建成熟的資源服務模型 (RSM),與第三方系統集成時,配置項會填充庫存數據庫。 DX OI 對進入平台的數據實現了機器學習和人工智能(ML 和 AI)功能,使您可以根據數據評估/預測特定 CI 發生故障的概率以及故障對業務服務的影響程度。特定的 CI。 此外,DX OI是監控事件的單點收集,因此與Service Desk系統集成,這是組織輪班在統一監控中心使用該系統無可爭議的優勢。 在本文中,我們將向您詳細介紹系統的功能並展示用戶和管理員界面。

DX OI 解決方案架構

DX平台具有微服務架構,安裝並運行Kubernetes或OpenShift。 下圖顯示了解決方案組件,這些組件可以用作獨立的監控工具,也可以替換為具有類似功能的現有監控系統(圖中有此類系統的示例),然後連接到 DX OI 傘。 如下圖所示:

  • 在 DX App Experience Analytics 中監控移動應用程序;
  • DX APM 中的應用程序性能監控;
  • DX 基礎設施管理器中的基礎設施監控;
  • 在 DX NetOps Manager 中監控網絡設備。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

DX 組件在 Kubernetes 集群上運行,只需啟動新的 POD 即可進行擴展。 下面是頂級解決方案圖。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

DX 平台的管理、擴展和升級是在管理控制台中完成的。 從單個控制台,您可以管理跨多個企業或公司內多個業務部門的多租戶架構。 在此模型中,每個設施都可以作為租戶單獨配置,並具有自己的一組配置。

管理控制台是一個基於Web的操作和系統管理工具,為管理員提供一致、統一的界面來執行監控集群管理任務。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

公司內業務部門或企業的新租戶在幾分鐘內完成部署。 如果你想要有一個統一的監控系統,但同時在平台層面(而不是訪問權限),劃分部門之間的監控對象,這是一個優勢。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

資源服務模型和業務服務監控

DX OI 具有用於創建服務和開發經典 PCM 的內置機制,其任務是服務組件之間的影響和權重邏輯。 還有從外部 CMDB 導出 PCM 的機制。 下圖顯示了內置的PCM編輯器(注意鏈接權重)。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

DX OI 提供業務或 IT 服務關鍵績效指標的精細整體視圖,包括服務可用性和故障風險預測。 該工具還可以深入了解性能問題或 IT 組件(應用程序或基礎設施)結構變化對業務服務的影響。 下圖是一個交互式儀表板,顯示所有服務的狀態。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

讓我們以數字銀行服務為例來仔細研究一下。 通過單擊服務名稱,我們可以轉到詳細的 PCM 服務。 我們看到,數字銀行服務的狀態取決於基礎設施和具有不同權重的交易子服務的狀態。 使用權重並顯示它們是 DX OI 的一個有趣優勢。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

拓撲是企業運營監控的重要元素,允許運營商和工程師分析組件之間的關係,找到根本原因和影響。

DX OI 拓撲查看器是一項使用來自域監控系統的拓撲數據的服務,這些系統直接從監控對象收集數據。 該工具旨在搜索多個拓撲存儲層並顯示特定於上下文的關係圖。 要調查問題,您可以轉到有問題的後端銀行子服務並查看拓撲和有問題的組件。 還可以分析每個組件的警報消息和性能指標。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

在分析支付的交易組件(用戶交易)時,我們可以跟踪業務 KPI 值,在計算服務的可用性狀態和運行狀況時也會考慮這些值。 業務 KPI 的示例如下所示:

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

事件分析(警報分析)

由於崩潰聚類而降低算法噪音

DX OI 在事件處理方面的關鍵功能之一是集群。 該機制適用於進入系統的所有警報,以根據不同的上下文識別模式並將它們組合成組。 這些集群是自學習的,不需要手動配置。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

因此,聚類允許用戶對大量事件進行組合和分組,並僅分析具有共同上下文的事件。 例如,表示影響應用程序或數據中心的事件的一組事件。 這些情況是使用基於機器學習的聚類算法創建的,該算法使用時間相關性、拓撲關係和本地語言處理進行分析。 下圖顯示了消息集群的可視化示例,即所謂的“情況警報”和“證據時間線”,其中顯示了主要分組參數以及減少噪聲事件數量的過程。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

根本問題分析和崩潰關聯

在當今的混合環境中,用戶事務可能會影響動態使用的多個系統。 因此,可以從不同的系統生成多個警報,但與同一問題或事件相關。 DX OI 使用專有機制來抑制冗餘和重複警報,並將相關警報關聯起來,以改進對關鍵問題的檢測並更快地解決問題。

讓我們考慮一個例子,當系統收到針對一項服務下的不同對象 (KE) 的大量緊急消息時。 如果服務的可用性和可操作性受到影響,系統將生成服務警報(Service Alarm),指示並指定導致性能下降的可能根本原因(問題 CI 和 CI 上的警報消息)或服務失敗。 下圖顯示了 Webex 服務的崩潰可視化。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

DX OI 允許您通過系統 Web 界面中的直觀操作來處理事件。 用戶可以手動將事件分配給負責的員工進行故障排除、重置/確認警報、創建票證或發送電子郵件通知、運行自動化腳本來解決緊急情況(修復工作流程,稍後會詳細介紹)。 通過這種方式,DX OI 可以讓值班操作員專注於根本警報消息,還有助於簡化將消息分類到集群數組中的過程。

用於處理指標和分析性能數據的機器算法

機器學習允許您跟踪、匯總和可視化任何給定時間段內的關鍵績效指標,這為用戶帶來以下好處:

  • 檢測瓶頸和性能異常;
  • 同一設備、接口或網絡的多項指標比較;
  • 多個對象相同指標的比較;
  • 一個或多個對象的各項指標的比較;
  • 多個對象的多維指標的比較。

為了分析進入系統的指標,DX OI 使用數學算法的機器分析功能,這有助於減少設置靜態閾值和在發生異常時生成警告的時間。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

應用數學算法的結果是構建所謂的度量值的概率分佈(稀有、可能、中心、平均值、實際)。 上圖和下圖顯示了概率分佈。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

上面兩張圖顯示了以下數據:

  • 實際數據(實際)。 實際數據繪製為黑色實線(無警報)或彩色實線(警報條件)。 該線是根據指標的實際數據計算的。 通過比較實際數據和中位數,您可以快速看到指標的變化。 當事件發生時,黑線會變為與事件嚴重性相對應的彩色實線,並在圖表上方顯示具有相應嚴重性的圖標。 例如,紅色表示嚴重異常,橙色表示主要異常,黃色表示次要異常。
  • 指標的平均值(Mean value)。 度量的中值或平均值在圖表中顯示為灰線。 當歷史數據不足時,顯示平均值。
  • 指標的中位值(中心值)。 中線是范圍的中間,顯示為綠色虛線。 最接近該線的區域最接近指標的典型值。
  • 通用數據(通用值)。 總區域數據跟踪最接近指標的中心線或法線,並顯示為深綠色條。 分析計算將總區域置於正常值之上或之下百分之一的位置。
  • 概率數據。 概率區域數據在圖表上以綠色條顯示。 系統將概率區域置於高於或低於正常值兩個百分位數。
  • 稀有數據。 稀有區域數據在圖表上顯示為淺綠色條。 系統將罕見指標值設置為高於或低於正常值三個百分位的區域,並發出指標超出正常範圍的行為信號,同時系統生成所謂的異常警報。

異常是與指標的正常性能不一致的測量或事件。 通過異常檢測來識別問題並了解基礎設施和應用程序的趨勢是 DX OI 的一個關鍵功能。 異常檢測使您能夠識別異常行為(例如,服務器響應速度比平常慢,或者黑客導致的異常網絡活動)並做出相應響應(啟動事件、運行自動修復腳本)。

DX OI 異常檢測功能具有以下優勢:

  • 您不需要設置閾值。 DX OI 將獨立比較數據並識別異常情況。
  • DX OI 包含十多種人工智能和機器學習算法,包括 EWMA(指數加權移動平均)和 KDE(核密度估計)。 這些算法允許您執行快速根本原因分析並預測未來指標。

預測分析和故障警報

預測洞察是一項利用機器學習的力量來識別模式和趨勢的功能。 根據這些趨勢,系統預測未來可能發生的事件。 這些消息表明必須在指標值超出正常範圍、影響關鍵業務服務之前採取行動。 預測洞察如下圖所示。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

這是特定指標的預測警報的可視化。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

通過設置負載場景功能預測算力負載

容量分析容量規劃功能可確保資源規模適當,以滿足當前和未來的業務需求,從而幫助管理 IT 資源。 您將能夠優化現有資源的性能和效率,規劃並證明任何財務投資的合理性。

DX OI 中的容量分析功能具有以下優勢:

  • 旺季預報能力;
  • 確定何時需要額外資源以確保服務質量;
  • 僅在需要時購買額外資源;
  • 高效的基礎設施和網絡管理;
  • 通過識別未充分利用的資源消除不必要的能源成本;
  • 在服務或資源需求計劃增加的情況下執行資源負載估計。

容量分析 DX OI 頁面(如下所示)具有以下小部件:

  • 資源容量狀態;
  • 受控組/服務(Monitored Groups/Services);
  • 資源的大消費者(頂級容量消費者)。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

主容量分析頁面顯示過度使用和耗盡容量的資源組件。 此頁面可幫助平台管理員查找過度使用的資源,並幫助他們調整資源大小和優化資源。 可以根據顏色代碼及其各自的值來分析資源的狀態。 資源容量狀態頁面根據資源的擁塞程度進行分類。 您可以單擊每種顏色來查看所選類別中的組件列表。 接下來,將顯示包含 12 個月內所有對象和預測的熱圖,這使您可以識別即將耗盡的資源。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

對於容量分析中的每個指標,您可以指定 DX 運營智能用於進行預測的過濾器(下圖)。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

可以使用以下過濾器:

  • 公制。 用於預測的指標。
  • 依據. 選擇將用於構建未來預測的歷史數據量。 該字段用於比較和分析上個月趨勢、最近3個月趨勢、年度趨勢等。
  • 成長。 要用於對容量預測進行建模的工作負載的預期增長率。 該數據可用於預測超出預測的增長。 例如,由於新辦公室的開設,資源使用量預計將再增加 40%。

日誌分析

DX OI 日誌分析功能提供:

  • 收集、聚合來自不同來源的日誌(包括通過代理和無代理方法獲得的日誌);
  • 解析和數據標準化;
  • 分析是否符合設定條件並生成事件;
  • 基於日誌的事件關聯,包括由於 IT 基礎設施監控而收到的事件;
  • 基於 DX Dashboards 分析的數據可視化;
  • 根據日誌數據分析得出有關服務可用性的結論。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

系統使用無代理方法收集 Windows 事件日誌和 Syslog。 基於代理的方式收集文本日誌。

自動緊急解決功能(補救)

糾正緊急情況的自動操作(補救工作流程)允許您解決導致 DX OI 中生成事件的問題。 例如,如果 CPU 使用問題生成警報,修復工作流將通過重新啟動有問題的服務器來解決問題。 DX OI 與自動化系統之間的集成允許從 DX 運營智能中的事件控制台觸發修復流程,並在自動化系統控制台中進行跟踪。

與自動化系統集成後,您可以根據警報觸發自動操作來糾正 DX OI 控制台中的任何緊急情況。 您可以查看建議的操作以及有關置信百分比的信息(通過採取操作解決問題的可能性)。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

最初,當修復工作流程的結果沒有統計數據時,推薦引擎會根據關鍵字搜索推薦候選者,然後使用機器學習結果,引擎開始推薦基於啟發式的修復技術。 一旦您開始評估收到的提示的結果,建議的準確性就會提高。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

用戶反饋的一個示例:用戶選擇他是否喜歡或不喜歡所建議的操作,系統在做出進一步推薦時會考慮此選擇。 喜歡不喜歡:

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

針對特定警報的建議糾正措施基於確定該措施是否可接受的反饋組合。 DX OI 與 Automic Automation 集成即用。

DX OI與第三方系統的集成

我們不會詳細討論來自本機 Broadcom 監控產品(DX NetOps、DX 基礎設施管理、DX 應用性能管理)的數據集成。 相反,讓我們看看如何集成來自第三方 3rd-party 系統的數據,並考慮與最流行的系統之一 - Zabbix 集成的示例。

為了與第三方系統集成,使用DX網關組件。 DX Gateway 由 3 個組件組成 - On-Prem Gateway、RESTmon 和日誌收集器 (Logstash)。 您可以安裝全部 3 個組件,也可以通過在安裝 DX Gateway 時更改常規配置文件來僅安裝您需要的組件。 下圖所示為DX網關架構。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

讓我們分別考慮 DX 網關組件的用途。

本地網關。 這是一個從DX平台收集警報並將警報事件發送到第三方系統的接口。 本地網關充當輪詢器,使用 HTTPS 請求 API 定期從 DX OI 收集事件數據,然後使用 Webhooks 將警報發送到與 DX 平台集成的第三方服務器。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

DX 日誌收集器 從網絡設備或服務器接收系統日誌並將其上傳到 OI。 DX Log Collector 允許您分離生成消息的軟件、存儲消息的系統以及報告和分析消息的軟件。 每條消息都標有一個目標代碼,指示生成該消息的軟件類型,並為其分配一個嚴重級別。 在 DX Dashboards 中,所有這些都可以查看。

DX RESTmon 通過REST API與第三方產品/服務集成並將數據傳遞給OI。 下圖以與 Solarwinds 和 SCOM 監控系統集成的示例顯示了 DX RESTmon 的操作。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

DX RESTmon 的主要特點:

  • 連接到任何第三方數據源以接收數據:
    • PULL:從公共 REST API 連接和檢索數據;
    • PUSH:數據通過 REST 流向 RESTmon。
  • 支持JSON和XML格式;
  • 接收指標、警報、組、拓撲、庫存和日誌;
  • 適用於各種工具/技術的現成連接器,還可以使用開放 API 開發連接到任何源的連接器(下圖中盒裝連接器列表);
  • 訪問Swagger接口和API時支持基本身份驗證(默認);
  • 所有傳入和傳出消息均支持 HTTPS(默認);
  • 支持傳入和傳出代理;
  • 對通過REST接收的日誌具有強大的文本解析能力;
  • 使用 RESTmon 可定制解析,實現日誌的高效解析和可視化;
  • 支持從監控應用程序中提取有關設備組的信息並下載到OI進行分析和可視化;
  • 支持正則表達式匹配。 這可用於解析和匹配通過 REST 接收的日誌消息,並根據某些正則表達式條件生成或關閉事件。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

現在讓我們看看通過 DX RESTmon 設置 DX OI 與 Zabbix 集成的過程。 盒裝集成從 Zabbix 獲取以下數據:

  • 庫存數據;
  • 拓撲結構;
  • 問題;
  • 指標。

由於 Zabbix 的連接器是開箱即用的,因此設置集成所需要做的就是使用 Zabbix 服務器 API IP 地址和帳戶更新配置文件,然後通過 Swagger Web 界面上傳配置文件。 接下來的兩張圖就是一個例子。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

配置集成後,上述 DX OI 分析功能將可用於來自 Zabbix 的數據,即:警報分析、性能分析、預測洞察、服務分析和修復。 下圖顯示了分析從 Zabbix 集成的對象的性能指標的示例。

Broadcom(前 CA)更新的 DX Operations Intelligence 中的 Umbrella 監控系統和資源服務模型

結論

DX OI 是一款最先進的分析工具,將為 IT 部門提供顯著的運營效率,讓您能夠做出更快、更正確的決策,通過跨域上下文分析來提高 IT 服務和業務服務的質量。 對於應用程序所有者和業務部門來說,DX OI 不僅會根據 IT 技術指標計算可用性和服務質量,還會根據最終用戶事務統計數據計算業務 KPI。

如果您想了解有關此解決方案的更多信息,請申請演示或試點 以您方便的方式 在我們的網站上。

來源: www.habr.com

添加評論