BGP 設定錯誤導致 Cloudflare 崩潰 27 分鐘

雲耀公司, 提供 27 萬個互聯網資源的內容交付網絡,為 13 個最大網站中的 1000% 的流量提供服務, 裸露 該事件的詳細信息,導致 Cloudflare 網路的許多部分的工作中斷了 27 分鐘,其中包括負責向倫敦、芝加哥、洛杉磯、華盛頓、阿姆斯特丹、巴黎、莫斯科和聖彼得堡提供流量的部分。 該問題是由亞特蘭大路由器上的設定變更不正確引起的。 這起事件發生在 17 月 21 日 12:21 至 39:50(UTC),Cloudflare 網路的總流量下降了約 XNUMX%。

BGP 設定錯誤導致 Cloudflare 崩潰 27 分鐘

在技​​術工作期間,為了從其中一個骨幹網路中刪除部分流量,工程師刪除了設定區塊中的一行,該行定義了透過骨幹網路接受的路由列表,並根據指定的前綴列表進行過濾。 停用整個區塊本來是正確的,但錯誤地只刪除了包含前綴列表的行。

{master}[編輯] atl01# 顯示 | 比較
[編輯策略選項策略聲明 6-BBONE-OUT 術語 6-SITE-LOCAL 來自]! 非活動:前綴列表 6-SITE-LOCAL { … }

區塊內容:

從 {
前綴列表 6-SITE-LOCAL;
}
然後 {
本地偏好 200;
社區新增站點-本地-路由;
社群添加ATL01;
社區添加北美;
接受;
}

由於取消了與前綴列表的綁定,區塊的剩餘部分開始分發給所有前綴,並且路由器開始將其所有 BGP 路由發送到其他骨幹網路的路由器。 巧合的是,與自動流量最佳化系統為其他路線設定的優先順序 (200) 相比,新路線具有更高的優先順序 (本地優先級 100)。 結果,更高優先順序的 BGP 路由並沒有從骨幹網路中刪除,而是被洩露,導致發送到其他骨幹網路的流量被發送到亞特蘭大,從而導致路由器過載和部分網路崩潰。

BGP 設定錯誤導致 Cloudflare 崩潰 27 分鐘

為了防止將來發生類似事件,請計劃週一對 Cloudflare 的 backbon 設定進行一些更改。 將為 BGP 會話添加最大前綴數量 (maximum-prefix) 的限制,如果透過路由的前綴過多,這將阻止有問題的骨幹網路。 如果較早添加此限制,相關問題將導致亞特蘭大主幹網關閉,但不會影響整個網路的運行,因為 Cloudflare 網路的設計允許個別主幹網路發生故障。 在已經採用的變更中,值得注意的是本地路由優先權(本地優先)的修訂,這將不允許一台路由器影響網路其他部分的流量。

來源: opennet.ru

添加評論