無線網路的品質已經預設包含在服務等級的概念中。 如果您想滿足客戶的高要求,您不僅需要快速處理新出現的網路問題,還需要預測其中最普遍的問題。
怎麼做? 只有追蹤在此上下文中真正重要的內容 - 用戶與無線網路的互動。

網路負載持續成長,這尤其影響無線網段,即使只是因為其介面的開放性。 隨著設備數量和資料傳輸速度的增長,問題在多個層面上倍增。 從物理上講,許多無線電訊號發射機即使在頻譜的相鄰部分工作,也會相互影響。 從邏輯上講,大量連接的設備開始競爭在選定頻率上開始傳輸的權利,從而增加了每個用戶的資料包傳輸延遲。
同時,每個客戶對使用網路的期望也在不斷增長。 在瀏覽器中 5 秒鐘加載一個頁面,在 20 年前似乎是“技術的巔峰”,現在不會再讓任何人感到驚訝。 為您的客戶提供無影像褪色的高清視訊通訊。
這個問題可以透過更有效地使用頻譜的新版本無線傳輸標準來部分解決。 每個 旨在部署負載日益增加的網路。 但在有數十個存取點運作的大型網路中,將不再可能將所有內容都符合下一個標準(特別是因為裝置一旦遇到舊用戶裝置就會以向後相容模式運作)。 正如不可能繼續使用舊的監控工具一樣,網路環境也不斷變得更加複雜。
為什麼傳統監控不再有效
一個經典的陳腔濫調仍然困擾著所有網路(包括無線網路)的管理員,那就是只處理請求。 「警報」響了——我們醒來並找出問題所在。 在此期間,沒有警報,您可以限制自己檢查主要組件(網路和用戶設備)上的負載。
為了實現這一目標,傳統的監控和維護工具按照嚴格的規則原則運行,並不總是能夠快速顯示現有的問題,更不用說進行某種預測分析。
這裡的主要問題是資料收集間隔。 有關無線網路連線狀態的資訊每分鐘收集一次,並且在收集讀數之間的時間間隔內很可能會發生事件(一個很好的例子是「掛起」網路的罕見負載突發)。 如果沒有即時接收數據,就很難理解問題的根本原因是什麼。 這是網路覆蓋管理不善嗎? 或者,也許是與業務無關的外部幹擾(假設附近的軍事單位在空中遇到了麻煩)。 沒有數據可以看出某些網路特性逐漸退化,這意味著定位問題並不那麼容易。 IT 人員將不得不花費額外的時間來尋找這「大海撈針」。
但最終用戶幾乎立即註意到這個問題。 連線錯誤、影片播放中斷都是很好的標誌。
經典監控工具報告正在發送網路封包。 但他們無法回答用戶是否解決了他的問題。
要回答這個問題,您不僅需要改變工具,還需要改變組織監控的方法。 從處理請求的「救火」工作(實際上是監控特定硬體的效能和負載)轉向監控使用者體驗並識別可能導致事件的情況。
這種轉變涉及在達到某些值時引入比簡單警告更複雜的問題檢測演算法。 在華為CampusInsight智慧網路分析平台中,這些演算法是基於無線網路維護經驗和自學習技術。
校園洞察
華為CampusInsight是一個可擴展的平台,用於監控各種規模的無線網路。 基於微服務架構建構。 每個服務部署在多個實例上,實例之間的訊息透過對應的匯流排進行分發。 可以動態部署其他實例,從而提高該工具的吞吐量。
事實上,CampusInsight 透過五個步驟在其 UI 中收集、分析和顯示數據。

第一步和第二步 - 這是對資料的存取(對產生資料的設備)和「讀數」的收集。 透過 Google 的 GPB 協定和「傳統」Syslog(如果可能)使用串流遙測收集,華為 CampusInsight 幾乎即時累積數據:
- 關於頻譜的利用;
- 有關存取點和其他網路設備的功能(效能指標、連接使用者數量等);
- 關於特定使用者的路徑 - 關於網路設定文件,關於他們連接或未連接的人員、時間和存取點(以及使用哪些連接參數);
- 關於音訊-視訊應用程式的操作(使用 eMDI,在附加套件之一中實現)。
為了克服使用 SNMP 和固定結構收集資料的傳統工具的局限性,CampusInsight 基於必要日誌和資料編碼和解碼演算法的訂閱模型。
第三步 - 分發和緩衝 - 即將原始資料傳送到 Kafka,以便分發到更高層級的分析服務。
第四步 - 分析。 大數據和人工智慧演算法有助於快速處理原始數據。 因此,確定了與以下相關的個別問題:
- 身份驗證(支援 Dot1x 協定)和 DHCP 操作;
- 連線穩定性和速度;
- 無線接口;
- 單一裝置的操作,包括 PoE 問題或將雙頻設備切換到 2,4 GHz 等「細節」;
- 音訊視訊串流的品質 - 但是,僅未加密的 SIP 或某些交換器支援該功能;
- 在不同接入點之間漫遊。
AI演算法用於解決一些具體問題,例如識別無線傳輸過程中通道之間的干擾。

第五步也是最後一步 — 將資料保存在分散式列資料庫 Druid 中以供日後使用。
對收集到的信息進行分析,結合歷史數據構建的“基線”,使我們能夠識別典型的“失敗模式”——定義與問題情況相對應的 KPI,並定位問題,提出解決方法。 因此,該工具可以解決大約 85% 的網路問題。

資料根據空間的層次結構或拓樸(例如,辦公室佈局)以圖形形式呈現給管理員。 您可以建立“熱圖”,分析某些平台或製造商的設備有多少受到影響等。 這使得更容易理解到底是什麼導致了問題。

一般來說,CampusInsight 提供了相當多的工具,可讓您對問題進行分類、比較受影響的使用者、檢查特定於客戶的效能數據,甚至「回放」導致事件發生的事件以快速識別來源。 而且,該產品還支援新的Wi-Fi 6,更不用說它的前輩了。
例
CampusInsight 已經在實踐中得到了檢驗,儘管大多數案例已通過 NDA 結案。 最暴露的公開案例是在華為自己的無線網路中使用監控工具。
此網路涵蓋約180萬名員工的企業,其中80萬名員工屬於研發部門(這些辦公室分佈在170多個國家,總共安裝了62萬個接入點)。
CampusInsight 的實作協助優化了 630 多個存取點,同時將事件解決效率提高了 30%。
以下是一些具體情況。
範例1:群體失敗
大量用戶遇到的高階問題通常是由底層錯誤引起的。而這類問題並不容易辨識。例如,在某個辦公室,儘管設定正確且沒有其他問題,但多個行動用戶端都遇到了身份驗證困難。 服務器 身份驗證。透過視覺化不同層級的數據,我們迅速定位到問題根源:一台交換器產生了過多錯誤。只需更換一條簡單的電纜即可解決問題。定位和修復共耗時 90 分鐘。
範例 2. 監控漫遊品質
沿著分散式網路中特定用戶端的路徑收集資料可以讓您識別不明顯的漫遊問題。 常見的情況是行動用戶在建築物的某些區域連接到網路時遇到問題(即使相應的接入點看起來沒問題)。 此類問題的根源之一可能是隔壁房間的接入點功率太高 - 因此客戶端不會連接到最近的接入點,而是嘗試連接到當前正在為大量用戶提供服務的接入點(真實案例:當使用者剛經過時連接到會議廳中的接入點)。
要解決問題,有時降低負載點的訊號強度就足夠了,但識別需要深入分析與會議室相鄰的房間中反覆出現的問題。
追蹤無線網路的發展趨勢,我們可以預見,在可預見的未來,不僅網路擁有數千個接入點的巨頭將面臨服務問題,而且目前可能僅限於工作的中型企業也將面臨服務問題。關於事件。 假設出現這樣的發展,密切注意新的、更有效率的標準和高效能設備是合乎邏輯的。 但值得記住的是,在客戶因服務品質而開始大規模遷移到競爭對手之前,網路維護需要進行範式轉移。
當然,CampusInsight類的Onsight產品將在大規模實施中帶來最大的好處,但現在也可以從本地華為公有雲購買該服務,專為中小企業領域的實施而設計。 一般來說,那些願意的人現在可以嘗試一切並「扭轉」它。
來源: www.habr.com
