並展示我們如何透過 Uptime Institute 的營運永續性審核

並展示我們如何透過 Uptime Institute 的營運永續性審核
營運部門負責人爬進地下燃料儲存設施的艙口,查看電磁閥上的標記。

2月初,我們最大的Tier III資料中心 諾德-4 經 Uptime Institute (UI) 重新認證,符合營運永續性標準。今天我們將告訴您審計員正在關注什麼以及我們最終得到了什麼結果。

對於熟悉資料中心的人來說,讓我們簡單介紹一下硬體。 等級標準 分三個階段評估和認證資料中心:

  • 項目(設計):檢查專案文件包,這裡有眾所周知的 一級。總共有 4 個:I-IV 級。因此,後者是最高的。
  • 已建設施(Facility):檢查資料中心的工程基礎設施及其與專案的符合性。資料中心在滿載設計負載下使用各種測試進行檢查,內容大致如下:其中一台 UPS(DGS、冷水機、精密空調、配電櫃、母線等)停止運作進行維護或維修,且市電已關閉。三級及以上資料中心應該能夠處理這種情況,而不會對 IT 負載產生任何影響。

    如果資料中心已通過設計認證,則可以使用設施。
    NORD-4 於 2015 年獲得設計證書,並於 2016 年獲得設施證書。

  • 運營可持續性。其實最重要也是最複雜的認證。它全面評估營運商維護和管理已建立 Tier 層級的資料中心的流程和能力(要透過營運永續性,您必須已經擁有設施證書)。畢竟,如果沒有正確建造的營運流程和合格的團隊,即使是 Tier IV 資料中心也可能變成一座配備非常昂貴設備的無用建築。

    這裡也有等級:銅牌、銀牌和金牌。在上次重新認證中,我們的得分為 88,95 分(滿分 100 分),這是銀牌。它僅落後黃金 1,05 點。 

並展示我們如何透過 Uptime Institute 的營運永續性審核

如何檢查必要的流程是否已建置並正常運作?而且,兩天怎麼辦——這就是重新認證需要多長時間。簡而言之,認證是基於對法規中的內容、「一切如何運作」的故事和實際實踐的艱苦比較。有關後者的資訊是從資料中心的走查以及與資料中心工程師的對話中獲得的——我們親切地稱之為「對抗」。這就是他們所關注的。

團隊

首先,UI審核員檢查資料中心是否有足夠的支援人員。他們取得人員配置表、值班表,並選擇性地使用輪班報告和存取控制資料進行檢查,以確保當天現場有所需數量的工程師。

審計員也會仔細檢查加班時間。當大客戶進來並且需要同時安裝數十個機架時,有時會發生這種情況。在這種時候,其他班次的人就會過來救援,而且他們還會因此得到額外的報酬。

每班有 4 名工程師在 NORD-7 上工作:6 名值班工程師和 24 名高級工程師。他們負責 7x24 監控、會見客戶、幫助設備安裝和其他日常請求。這是客戶技術支援的第一線。他們的職責包括記錄緊急情況並將其回報給專業工程師。工程基礎設施的工作由個人(基礎設施值班人員)進行監控。還有 7xXNUMX。

並展示我們如何透過 Uptime Institute 的營運永續性審核
NORD 的生產總監和現場經理告訴審核員目前有多少人在現場工作。

當數字整理完畢後,就會檢查球隊的資格。審核員隨機審查工程師的人事檔案,以確保他們擁有在給定職位上工作所需的文憑、證書和授權文件(例如電氣安全證書)。

他們還檢查我們如何培訓員工。即使在上次審核期間,我們的新值班工程師培訓系統也給 UI 專家留下了深刻的印象。我們為他們花了三個月的時間 訓練課程 作為有薪實習,在此期間我們向他們介紹我們資料中心的工作流程和原則。

已經工作的工程師還必須接受定期培訓,包括緊急情況下的工作培訓。審核員肯定會檢查此類培訓的培訓計劃和材料,並對工程師進行隨機檢查。不會要求任何人改用柴油發電機組,但會要求他們一步一步告訴你,當城市電源關閉時需要做什麼。根據審核結果,我們將所有培訓和教育計劃統一為一個標準,以便不同團隊的培訓和教育計劃不會有所不同。

並展示我們如何透過 Uptime Institute 的營運永續性審核
我們向審核員展示了輪班工程師的休息室。

工程系統運作與維護 

在審計的這一大節中,我們表明所有工程設備和系統都按照供應商建議的時間表進行定期維護,倉庫有必要的備件,與承包商簽訂了有效的服務協議,並且每個設備操作都有自己的處理不同情況的程式和演算法。

彩信。 當您操作數十台 UPS、柴油發電機組、空調和其他設備時,您需要在某個地方收集有關該設施的所有資訊。我們為每台設備建立大約以下檔案:

  • 型號和序號;
  • 標記;
  • 技術特徵和設定;
  • 安裝地點;
  • 生產、調試、保固期滿日期;
  • 服務合約;
  • 維護計劃和歷史記錄;
  • 以及整個「病史」——故障、維修。

如何以及在哪裡收集所有這些資訊由每個資料中心營運商自行決定。 UI不限於工具。這可以是一個簡單的 Excel(我們從這個開始)或一個自行寫的維護管理系統(MMS),就像我們現在一樣。順便一提, 服務台、倉庫記帳、線上日誌、監控也是自己寫的。

並展示我們如何透過 Uptime Institute 的營運永續性審核
每一件設備都有這樣一個「個人檔案」。

我們展示了我們在這方面的實踐,包括使用該基礎設施 UPS 的範例(如圖),該基礎設施將其中一個部件捐贈給為 IT 負載提供服務的 UPS。是的,根據標準,這種「捐贈」只能由為空調和緊急照明供電的基礎設施設備進行,而不能由IT負載進行。

並展示我們如何透過 Uptime Institute 的營運永續性審核

隨後,審核員要求在服務台出示相應的票據:

並展示我們如何透過 Uptime Institute 的營運永續性審核

彩信中的 UPS 設定檔:

並展示我們如何透過 Uptime Institute 的營運永續性審核

備用零件 為了工程設備的及時維護和緊急維修,我們擁有自己的備用零件和配件。有一個通用倉庫,存放設備的大件備件,工程室有備件的小櫃子(這樣你就不用跑很遠了)。

照片中:我們正在檢查柴油發電機組備件的供應情況。我們數了一下,有 12 個過濾器。然後我們檢查了彩信中的數據。  

並展示我們如何透過 Uptime Institute 的營運永續性審核

在主倉庫也進行了類似的測試,那裡存放著大型零件:壓縮機、控制器、自動化設備、風扇、蒸汽加濕器和數百件其他物品。我們選擇性地重寫了標記並透過彩信「打孔」它們。

並展示我們如何透過 Uptime Institute 的營運永續性審核

並展示我們如何透過 Uptime Institute 的營運永續性審核
備件庫存資料。紅色的 - 這就是缺少的東西,需要購買。

預防性維護。 除了維護和維修外,UI 建議進行預防性維護。它有助於將潛在的事故轉化為有計劃的修復。對於每個參數,我們在監控中配置閾值。如果超出,負責人會收到警報並採取必要的措施。例如,我們:

  • 我們使用熱像儀檢查配電板,以便快速檢測電氣裝置中的缺陷:接觸不良、導體或斷路器的局部過熱。 
  • 我們監控製冷系統幫浦的振動指標和電流消耗。這使您能夠及時識別偏差並毫不匆忙地計劃更換零件。
  • 我們對柴油發電機組和壓縮機進行燃油和油分析。
  • 我們測試冷凍系統中乙二醇的濃度。

並展示我們如何透過 Uptime Institute 的營運永續性審核
修理前後的幫浦振動圖。

與承包商合作。 設備維護和修理由外部承包商進行。在我們這邊,有柴油發電機組、空調和UPS的單獨專家來控制它們的運作。他們檢查承包商是否擁有維修工作/維護所需的工具和材料、專業證書、電氣安全證書和許可證。他們接受所有工作。

並展示我們如何透過 Uptime Institute 的營運永續性審核
這就是接受冷氣維修工作的清單的樣子。

並展示我們如何透過 Uptime Institute 的營運永續性審核
在通行處,我們檢查通行證是否發給承包商的授權代表,是否按時進行維修,是否已閱讀規則。

文檔。 維護系統和設備的既定流程就成功了一半。人類在資料中心執行的所有程序都必須記錄在案。這樣做的目的很簡單:讓一切不再局限於某個特定的人,一旦發生事故,任何工程師都可以接受明確的指示並採取一切必要的操作來消除事故。

UI 對於此類文件有自己的方法。

對於簡單和重複的活動,建立了標準作業程序(SOP)。例如,有用於開啟/關閉冷水機以及將 UPS 設定為旁路的 SOP。

對於維護或複雜操作(例如更換 UPS 中的電池),需要建立維護程序(程序方法,MOP)。這些可能包括 SOP。每種類型的工程設備都必須有自己的MOP。

最後,還有緊急操作程序 (EOP)——緊急情況下的說明。編制了一份具體緊急情況清單並為其編寫了說明。以下是緊急情況清單的一部分,其中詳細說明了事故的跡象、行動、責任人和需要通知的人員:

  • 市電停電:柴油發電機組已啟動/未啟動;
  • UPS 事故; 
  • 資料中心監控系統發生事故;
  • 機房過熱;
  • 冷凍系統洩漏;
  • 網路和運算設備故障;

等等。

編譯如此大量的文檔本身就是一項勞力密集任務。要使其保持最新狀態甚至更加困難(順便說一句,審計員也會檢查這一點)。最重要的是,員工必須了解這些指示,按照這些指示工作,並在必要時進行改進。

並展示我們如何透過 Uptime Institute 的營運永續性審核
是的,說明書應該在需要的地方可用,而不僅僅是在檔案中積灰塵。

並展示我們如何透過 Uptime Institute 的營運永續性審核
關於資料中心工程系統維護規定變更的說明。

在審計過程中,他們還查看系統的技術文件、執行和工作文件以及將系統投入運行的行為。 

標記。 他們在資料中心周圍走動時,檢查了他們能到達的所有地方。他們搆不到的地方,就從梯子上夠到了:)。我們檢查了它在每個交換器、機器和閥門上的存在。我們檢視了竣工文件的獨特性、明確性以及與目前方案的一致性。在下圖中:我們在燃油儲存泵房中將電磁閥上的標記與竣工文件的圖表進行比較。 

並展示我們如何透過 Uptime Institute 的營運永續性審核

一切都與她一致,但與牆上當地「裝飾」軸測圖的一個參數並不相符。

並展示我們如何透過 Uptime Institute 的營運永續性審核

位於那裡的系統圖也應該張貼在資料中心場所。如果發生事故,它們可以幫助您快速找到所有物品的位置並做出明智的決定。例如,照片顯示了主配電室的單線圖。

並展示我們如何透過 Uptime Institute 的營運永續性審核

透過以下方式檢查圖表的相關性:他們在圖表上命名了標記的元素,並要求在「現實生活中」顯示它。 

並展示我們如何透過 Uptime Institute 的營運永續性審核

審核員在這裡拍攝主配電盤輸入斷路器的設定(設定)照片,以便稍後將它們與紙本和電子副本的單線圖上的指標進行比較。其中一台機器 QF-3 的指示器與紙本圖表不符,我們因此被扣分。現在兩位工程師將檢查單線圖中的標記是否與事實相符。

並展示我們如何透過 Uptime Institute 的營運永續性審核

這並不是審核員在服務流程方面檢查的全部內容。以下是議程上的其他內容:

  • 監視系統。在這裡,我們透過良好的視覺化、行動應用程式以及放置在資料中心走廊中的情境螢幕獲得了業力收益。這裡我們詳細寫了我們的工作方式 監控.

    並展示我們如何透過 Uptime Institute 的營運永續性審核
    這是 MCC,提供有關 NORD-4 主要工程系統和現場工作的其他資料中心狀態的可視化資訊。

  • 工程設備生命週期規劃;
  • 容量管理(容量管理);
  • 預算(談了一點 這裡);
  • 事故分析程序;
  • 設備的驗收、調試和測試的過程(我們寫了測試 這裡).

使用者介面還關注什麼?

安全和存取控制。 審計還檢查安全和安保系統的運作。例如,審計員試圖進入他無權進入的場所,然後檢查這是否反映在存取控制系統中,以及是否已通知保全人員(劇透 - 確實如此)。

如果在我們的資料中心,任何房間的門保持開啟狀態超過兩分鐘,就會在安全哨所觸發警報。為了測試這一點,審計員用滅火器撐開了其中一扇門。確實,我們從來沒有聽到警報——保安人員透過攝影機發現了問題,並提前到達了「犯罪現場」。

秩序和清潔。 審計人員會尋找灰塵、雜亂地放置的設備箱以及場所的清潔頻率。例如,審計員對通風走廊中的一個不明物體產生了興趣。這是通風系統的一個區塊,通風系統已經準備好取代它的位置。但他們還是要我簽字。

並展示我們如何透過 Uptime Institute 的營運永續性審核

另外,關於資料中心的訂購主題 - 這些機櫃配有設備緊急工作所需的所有工具,位於主配電室中。 

並展示我們如何透過 Uptime Institute 的營運永續性審核

位置。 資料中心根據地點條件進行評估-附近是否有軍事基地、機場、河流、火山和其他危險物體。在照片中我們只是顯示,自 2017 年上次認證以來,資料中心周圍沒有發展核電廠或石油儲存設施。但那裡正在建造一個新的 NORD-5 資料中心,該資料中心還必須通過 Uptime Institute Tier III 的所有級別認證。但這是一個完全不同的故事)。

並展示我們如何透過 Uptime Institute 的營運永續性審核

來源: www.habr.com

添加評論