如何控制您的網路基礎架構。 第一章。 抓住

本文是「如何控製網路基礎設施」系列文章中的第一篇。 此系列所有文章內容及連結均可找到 這裡.

我完全承認,有足夠的公司,網路停機一小時甚至一天都不重要。 不幸或幸運的是,我沒有機會在這樣的地方工作。 但是,當然,網路不同,要求不同,方法不同,但是,無論以何種形式,下面的列表在許多情況下實際上都是「必須做的」。

那麼,初始條件。

您從事新工作,獲得晉升,或決定重新審視自己的職責。 公司網路是您的職責範圍。 對您來說,這在許多方面都是一個挑戰和新事物,這在某種程度上證明了本文的指導語氣:)。 但我希望這篇文章對任何網路工程師也能有所幫助。

您的第一個策略目標是學會抵抗熵並維持所提供的服務水準。

下面描述的許多問題可以透過各種手段來解決。 我故意不提出技術實現的話題,因為… 原則上,你如何解決這個或那個問題通常不那麼重要,重要的是你如何使用它以及是否使用它。 例如,如果您不查看並且不回應警報,您專業建立的監控系統就沒有什麼用處。

Оборудование

首先,您需要了解最大的風險在哪裡。

再說一次,情況可能會有所不同。 我承認,例如,在某個地方,這些將是安全問題,在某個地方,是與服務連續性相關的問題,在某個地方,也許是其他問題。 為什麼不?

需要明確的是,我們假設這仍然是服務的連續性(我工作過的所有公司都是這種情況)。

那就需要從裝備開始。 以下是需要注意的主題清單:

  • 依關鍵程度對設備進行分類
  • 關鍵設備備份
  • 支持、許可

您需要考慮可能的故障場景,尤其是對於處於關鍵性分類頂部的裝置。 通常,雙重問題的可能性被忽略,否則您的解決方案和支援可能會變得不合理地昂貴,但對於真正關鍵的網路元素,其故障可能會嚴重影響業務,您應該考慮一下。

例子

假設我們正在討論資料中心中的根交換器。

由於我們一致認為服務連續性是最重要的標準,因此為該設備提供「熱」備份(冗餘)是合理的。 但這還不是全部。 您還需要決定,如果第一個開關壞了,您可以接受僅剩下一個開關的生活多久,因為存在它也壞掉的風險。

重要的! 您不必自己決定這個問題。 您必須向管理層或公司管理層描述風險、可能的解決方案和成本。 他們必須做出決定。

因此,如果確定,考慮到雙重故障的可能性很小,一台交換機工作 4 小時原則上是可以接受的,那麼您可以簡單地採取適當的支持(根據該支持,設備將在 4 天內更換)小時)。

但存在他們無法交付的風險。 不幸的是,我們曾經遇到過這樣的情況。 設備運行了一周,而不是四個小時!

因此,這種風險也需要討論,也許您購買另一個交換器(第三個)並將其保存在備件包中(“冷”備份)或用於實驗室目的會更正確。

重要的! 製作一個電子表格,列出您擁有的所有支援的到期日期,並將其添加到您的日曆中,以便您至少提前一個月收到一封電子郵件,告知您應該開始擔心續訂您的支持。

如果您忘記續訂支援並且在支援結束後的第二天您的硬體出現故障,您將不會被原諒。

緊急工作

無論您的網路發生什麼情況,理想情況下您都應該保持對網路設備的存取。

重要的! 您必須擁有對所有裝置的控制台存取權限,且此存取權限不應依賴使用者資料網路的運作狀況。

您還應該提前預見可能出現的負面情況並記錄必要的措施。 該文件的可用性也至關重要,因此它不僅應該發佈在部門的共享資源上,還應該保存在工程師的本機電腦上。

必須有

  • 向供應商或整合商支援開立票證所需的信息
  • 有關如何存取任何裝置(控制台、管理)的信息

當然,它還可以包含任何其他有用的信息,例如,各種設備的升級過程的描述和有用的診斷命令。

結盟

現在您需要評估與合作夥伴相關的風險。 通常這個

  • 網路供應商與流量交換點(九)
  • 溝通管道提供者

你該問自己什麼問題? 與設備一樣,必須考慮不同的緊急情況。 例如,對於互聯網提供商來說,它可能是這樣的:

  • 如果網路供應商 X 由於某些原因停止向您提供服務,會發生什麼事?
  • 其他提供者是否有足夠的頻寬供您使用?
  • 連結性還能維持到什麼程度?
  • 您的網路供應商的獨立程度如何?其中一個提供者的嚴重中斷是否會導致其他提供者出現問題?
  • 您的資料中心有多少光纖輸入?
  • 如果其中一個輸入被完全破壞會發生什麼?

關於輸入,在我在兩家不同公司、兩個不同資料中心的實踐中,一台挖土機摧毀了水井,奇蹟般的是我們的光學系統沒有受到影響。 這種情況並不罕見。

當然,您不僅需要提出這些問題,還需要在管理層的支持下,在任何情況下提供可接受的解決方案。

備份

下一個優先順序可能是設備配置的備份。 無論如何,這是非常重要的一點。 我不會列出那些可能丟失配置的情況;最好定期進行備份,不要考慮它。 此外,定期備份對於監控變更非常有用。

重要的! 每天進行備份。 這並不是需要保存的大量資料。 早上,值班工程師(或你)應該會收到系統發送的報告,其中清楚地表明備份是否成功,如果備份不成功,則應解決問題或建立工單(請參閱網路部門流程)。

軟體版本

設備軟體是否值得升級的問題並不是那麼明確。 一方面,舊版本存在已知的錯誤和漏洞,但另一方面,新軟體首先並不總是無痛的升級過程,其次,存在新的錯誤和漏洞。

在這裡您需要找到最佳選擇。 一些明顯的建議

  • 僅安裝穩定版本
  • 不過,您不應該使用非常舊的軟體版本
  • 製作一個標牌,標明有關某些軟體所在位置的信息
  • 定期閱讀有關軟體版本的漏洞和錯誤的報告,如果出現嚴重問題,應該考慮升級

在此階段,透過控制台存取設備、有關支援的資訊以及升級過程的描述,原則上您已準備好執行此步驟。 理想的選擇是當您擁有實驗室設備時,您可以檢查整個過程,但不幸的是,這種情況並不經常發生。

對於關鍵設備,您可以聯絡供應商的支援人員,請求協助您進行升級。

票務系統

現在你可以環顧四周了。 您需要建立與其他部門以及部門內部互動的流程。

這可能沒有必要(例如,如果您的公司很小),但我強烈建議以所有外部和內部任務都透過票證系統的方式組織工作。

票證系統本質上是您用於內部和外部通訊的接口,您應該足夠詳細地描述該接口。

讓我們以開放取用這項重要且常見的任務為例。 我將描述一種在其中一家公司完美運行的演算法。

例子

讓我們從這樣一個事實開始:訪問客戶經常用網路工程師無法理解的語言表達他們的願望,即用應用程式的語言,例如「讓我訪問 1C」。

因此,我們從未直接接受此類用戶的請求。
這是第一個要求

  • 存取請求應來自技術部門(在我們的例子中,這些部門是 UNIX、Windows、幫助台工程師)

第二個要求是

  • 必須記錄此訪問(由我們收到此請求的技術部門),並且作為請求,我們收到此記錄訪問的鏈接

該請求的形式必須是我們可以理解的,即

  • 該請求必須包含有關應開放哪個子網路和哪個子網路存取的信息,以及協定和(在 tcp/udp 的情況下)端口

那裡也應該註明

  • 為何開放此造訪的說明
  • 臨時或永久(如果是臨時的,直到什麼日期)

非常重要的一點是批准

  • 來自發起訪問的部門負責人(例如會計)
  • 來自技術部門負責人,此請求從那裡發送到網路部門(例如幫助台)

在這種情況下,此訪問的「所有者」被認為是發起訪問的部門(在我們的示例中為會計)的負責人,他負責確保該部門記錄的訪問頁面保持最新狀態。

記錄

這是你可能會被淹沒的東西。 但如果您想實施積極主動的方法,那麼您需要學習如何應對這種資料洪流。

以下是一些實用的建議:

  • 你需要每天查看日誌
  • 在計劃審查的情況下(而不是緊急情況),您可以將自己限制為嚴重性等級 0、1、2,並在您認為有必要時添加其他等級的選定模式
  • 編寫一個腳本來解析日誌並忽略那些已將其模式新增至忽略清單中的日誌

隨著時間的推移,這種方法將允許您建立一個您不感興趣的日誌的忽略列表,並僅保留那些您真正認為重要的日誌。
這對我們來說非常有效。

監控

公司缺乏監控系統的情況並不罕見。 例如,您可以依賴日誌,但裝置可能只是「死掉」而沒有時間「說」任何內容,或者 udp syslog 協定封包可能會遺失而無法到達。 當然,總的來說,主動監測是重要且必要的。

我實踐中最受歡迎的兩個例子:

  • 監控通訊通道、關鍵連結(例如,連接到提供者)的負載。 它們使您能夠主動發現由於流量丟失而導致服務降級的潛在問題,並相應地避免它。
  • 基於 NetFlow 的圖表。 它們可以輕鬆發現流量異常,對於檢測一些簡單但重要類型的駭客攻擊非常有用。

重要的! 為最重要的事件設定簡訊通知。 這適用於監控和日誌記錄。 如果您沒有值班,那麼簡訊也應該在工作時間之外到達。

以一種不會吵醒所有工程師的方式思考整個過程。 我們有一名工程師負責此事。

切換控制

在我看來,沒有必要控制所有的變化。 但是,無論如何,如果有必要,您應該能夠輕鬆找到誰在網路上進行了某些更改以及原因。

一些提示:

  • 使用票證系統詳細說明該票證上執行的操作,例如透過將套用的配置複製到票證中
  • 在網路設備上使用評論功能(例如,在 Juniper 上提交評論)。 你可以寫下票號
  • 使用配置備份的差異

您可以將此作為一個流程來實施,每天檢查所有票證是否有更改。

流程

您必須正式化並描述團隊中的流程。 如果您已經達到這一點,那麼您的團隊應該至少已經運行以下流程:

日常流程:

  • 處理票證
  • 使用日誌
  • 切換控制
  • 每日檢查表

年度流程:

  • 延長擔保、許可

非同步進程:

  • 應對各種緊急狀況

第一部分的結論

你有沒有註意到,這一切還不是關於網路配置、不是關於設計、不是關於網路協定、不是關於路由、不是關於安全…而是關於周圍的東西。 但這些雖然可能很無聊,但卻是網路部門工作中非常重要的要素。

到目前為止,如您所見,您的網路尚未得到任何改進。 如果存在安全漏洞,那麼它們就會保留下來;如果存在糟糕的設計,那麼它就會保留下來。 直到您應用了作為網路工程師的技能和知識,您很可能在這方面花費了大量的時間、精力,有時甚至是金錢。 但首先您需要打好(或加固)基礎,然後開始施工。

以下部分將告訴您如何尋找並消除錯誤,然後改進您的基礎架構。

當然,您不必按順序執行所有操作。 時間可能很關鍵。 如果資源允許,可以並行進行。

還有一個重要的補充。 與您的團隊溝通、詢問、諮詢。 最終,他們是支持和做這一切的人。

來源: www.habr.com

添加評論