大型企業的網絡即服務:非標準案例

大型企業的網絡即服務:非標準案例
大型企業如何在不停產的情況下更新網路設備? 他談「心臟直視手術」模式的大型項目 Linxdatacenter 專案管理經理 Oleg Fedorov。 

在過去幾年中,我們注意到客戶對 IT 基礎架構網路元件相關服務的需求不斷增加。 幾乎所有領域的 IT 系統、服務、應用程式、監控和營運業務管理任務的連接性需求都迫使當今的公司更加關注網路。  

請求的範圍從確保網路容錯到透過購買 IP 位址區塊、設定路由協定以及根據組織策略管理流量來建立和管理客戶端自治系統。

對建置和維護網路基礎架構的綜合解決方案的需求也不斷增長,主要來自那些網​​路基礎設施是從頭開始創建或已經過時、需要進行認真修改的客戶。 

這一趨勢與Linxdatacenter自身網路基礎設施的發展和複雜性時期相吻合。 我們透過連接遠端站點擴大了我們在歐洲的業務範圍,這反過來又需要改善網路基礎設施。 

該公司為客戶推出了一項新服務「網路即服務」:我們負責解決所有客戶的網路問題,使他們能夠專注於自己的核心業務。

2020年夏天,這個方向的第一個大專案完成了,我想講一下。 

在開始時 

一個大型工業綜合體委託我們對其一家企業的基礎設施網路部分進行現代化改造。 需要用新設備取代舊設備,包括網路核心。

這家企業最後一次設備現代化改造發生在大約 10 年前。 企業的新管理階層決定改善連結性,從更新最基本的實體層面的基礎設施開始。 

本項目分為伺服器園區升級和網路設備升級兩部分。 我們負責第二部分。 

工作的基本要求包括在工作執行過程中盡量減少企業生產線的停機時間(在某些領域甚至完全消除停機時間)。 任何停工都意味著客戶的直接經濟損失,這種情況在任何情況下都不應該發生。 由於該設施的運作模式是24x7x365,並且考慮到企業實踐中完全沒有規劃停機時間,所以我們的任務基本上是進行心臟直視手術。 這成為該項目的主要區別特徵。

我們走吧

按照從遠離核心的網路節點向較近的網路節點、從對生產線工作影響較小的網路節點向直接影響生產線工作的網路節點移動的原則來規劃工作。 

例如,如果我們以銷售部門的一個網路節點為例,那麼由於該部門工作而導致的通訊中斷不會對生產產生任何影響。 同時,這樣的事件將幫助我們作為承包商檢查所選的在這些單位工作的方法的正確性,並在調整行動後進行專案的下一階段的工作。 

不僅需要更換網路中的節點和線路,還需要正確配置所有組件,以使整個解決方案正確運作。 正是以這種方式測試的配置:從核心開始工作,我們似乎賦予自己“犯錯的權利”,而不會將對企業運營至關重要的風險領域置於危險之中。 

我們確定了不影響生產過程的區域,以及關鍵區域——車間、裝卸單元、倉庫等。在關鍵區域,與客戶分別商定了每個網路節點可接受的停機時間:從1到15分鐘。 完全避免斷開各個網路節點的連接是不可能的,因為電纜必須從舊設備物理切換到新設備,並且在切換過程中,還需要解開在幾年運行中形成的電線“鬍鬚”,而沒有適當的處理。護理(電纜線路安裝外包工作的後果之一)。

工作分為幾個階段。

階段1 - 審計。 準備和協調工作規劃方法以及評估團隊準備的方法:客戶、安裝承包商和我們的團隊。

階段2 – 制定開展工作的格式,並進行深入詳細的分析和規劃。 我們選擇了一種清單格式,其中精確指示了操作的順序和順序,一直到按連接埠切換跳線的順序。

階段3 – 在不影響生產的櫃子裡進行工作。 估計並調整後續工作階段的停機時間。

階段4 – 在直接影響生產的櫥櫃中進行工作。 估計並調整最後階段工作的停機時間。

階段5 – 在伺服器機房進行剩餘設備的切換工作。 在新核心上啟動路由。

階段6 – 系統核心從舊網路配置連續切換到新網路配置,以實現整個系統複合體(VLAN、路由等)的平穩過渡。 在這個階段,我們連接了所有用戶並將所有服務轉移到新硬體上,驗證連接是否正確,確保沒有停止任何企業服務,確保如果出現任何問題將直接連接到內核,這使得解決可能的問題和最終設定變得更加容易。 

鋼絲鬍鬚髮型

由於初始條件困難,該專案也變得困難重重。 

首先,網路有大量的節點和部分,具有複雜的拓撲結構和根據用途進行的電線分類。 這些“鬍鬚”必須從櫃子裡拿出來,煞費苦心地“梳理”,弄清楚哪根電線從哪裡來,通往哪裡。 

它看起來像這樣:

大型企業的網絡即服務:非標準案例
如下:

大型企業的網絡即服務:非標準案例
或者像這樣: 

大型企業的網絡即服務:非標準案例
其次,對於每項此類任務,有必要準備一個描述該過程的文件。 “我們從舊設備的連接埠 1 取出電線 X,將其插入新設備的連接埠 18。” 這聽起來很簡單,但是當來源資料中有 48 個完全堵塞的端口,並且沒有停機選項(我們記得大約是 24x7x365)時,唯一的出路就是分塊工作。 一次從舊設備中拔出的電線越多,您就能越快地將它們梳理並插入到新的網路硬體中,從而避免網路故障和停機。 

因此,在準備階段,我們將網路劃分為多個區塊-每個區塊都屬於一個特定的VLAN。 舊設備上的每個連接埠(或其子集)都是新網路拓撲中的 VLAN 之一。 我們將它們分組如下:交換器的第一個連接埠容納用戶網絡,中間連接埠容納生產網絡,最後一個連接埠容納存取點和上行鏈路。 

這種方法使得從舊設備中一次性拉出和梳理的不僅僅是 1 根電線,而是 10-15 根電線。 這使工作進程加快了好幾倍。  

對了,櫃子裡的電線梳理後是這樣的: 

大型企業的網絡即服務:非標準案例
或者,例如,像這樣: 

大型企業的網絡即服務:非標準案例
完成第二階段後,我們休息了一下,分析錯誤和專案動態。 例如,由於向我們提供的網路圖不準確,一些小缺陷立即出現(圖中的連接器不正確意味著購買的跳線不正確,需要更換)。 

暫停是必要的,因為在伺服器端工作時,即使過程中出現小故障也是不可接受的。 如果目標是確保某個網段的停機時間不超過5分鐘,那就不能超過。 任何可能偏離時間表的情況都必須得到客戶的同意。 

然而,預先規劃並將項目劃分為多個區塊可以滿足所有區域的計劃停機時間,並且在大多數情況下完全避免停機。 

時代的挑戰-新冠疫情下的一個項目 

然而,這並非沒有額外的困難。 當然,冠狀病毒是障礙之一。 

由於大流行開始,工作變得複雜,參與過程的所有專家不可能在客戶現場工作期間都在場。 只有安裝單位的員工才能進入現場,並透過Zoom room進行控制——裡面有Linxdatacenter的網路工程師,我自己擔任專案經理,客戶的網路工程師負責工作,以及執行安裝工作的團隊。

工作中出現問題不明,必須即時調整。 這樣就可以快速防止人為因素的影響(電路錯誤、介面活動狀態判斷錯誤等)。

儘管遠距工作形式在專案之初顯得有些不尋常,但我們很快就適應了新的條件,並進入了工作的最後階段。 

我們啟動了網路設定的臨時配置,允許新舊兩個網路核心並行運行,以實現平滑過渡。 然而,事實證明,新核心的設定檔中沒有刪除多餘的一行,並且沒有發生轉換。 這迫使我們花一些時間尋找問題所在。 

事實證明,主要流量正確傳輸,控制流量沒有通過新核心到達節點。 由於專案被明確劃分為階段,因此可以快速識別出現問題的網路部分,找出問題並修復它。 

結果

專案技術成果 

首先,創建了新企業網路的新核心,我們為其建立了實體/邏輯環。 這樣做的方式是網路中的每個交換器都有一個「第二臂」。 在舊網路中,許多交換器沿著一條路線、一根臂(上行鏈路)連接到核心。 如果它壞了,開關就完全無法觸及。 如果透過一條上行鏈路連接多個交換機,那麼該事故將導致企業的整個部門或生產線癱瘓。 

在新的網路中,即使是相當嚴重的網路事件,在任何情況下都不可能導致整個網路或其中很大一部分網路癱瘓。 

90% 的網路設備已更新,媒體轉換器(訊號傳播媒體轉換器)已退役,透過連接到 PoE 交換器(透過乙太網路線供電),不再需要為設備供電的專用電源線。 

此外,伺服器機房和現場機櫃中的所有光纖連接均在所有關鍵通訊節點處進行了標記。 這使得準備網路中的設備和連接的拓撲圖成為可能,反映其當前的實際狀態。 

網路圖
大型企業的網絡即服務:非標準案例
從技術角度來說,最重要的結果是:相當大規模的基礎設施工作迅速開展,沒有對企業的工作造成任何干擾,而且幾乎沒有被企業人員注意到。 

專案的商業成果

在我看來,這個專案的有趣之處主要不是來自技術面,而是來自組織方面。 困難主要在於規劃和思考實施專案任務的步驟。 

這個專案的成功讓我們可以說,我們在 Linxdatacenter 服務組合中開發網路領域的舉措是公司發展方向的正確選擇。 負責任的專案管理方法、有效的策略和清晰的規劃使我們能夠在適當的水平上完成工作。 

工作品質的確認是客戶要求繼續在其位於俄羅斯的其餘站點提供網路現代化服務的請求。

來源: www.habr.com

添加評論