BGP 配置错误导致 Cloudflare 崩溃 27 分钟

云耀公司, 提供 27 万个互联网资源的内容交付网络,为 13 个最大网站中的 1000% 的流量提供服务, 裸露 该事件的详细信息,导致 Cloudflare 网络的许多部分的工作中断了 27 分钟,其中包括负责向伦敦、芝加哥、洛杉矶、华盛顿、阿姆斯特丹、巴黎、莫斯科和圣彼得堡提供流量的部分。 该问题是由亚特兰大路由器上的配置更改不正确引起的。 此次事件发生在 17 月 21 日 12:21 至 39:50(UTC),Cloudflare 网络的总流量下降了约 XNUMX%。

BGP 配置错误导致 Cloudflare 崩溃 27 分钟

在技​​术工作期间,为了从其中一个骨干网中删除部分流量,工程师删除了设置块中的一行,该行定义了通过骨干网接受的路由列表,并根据指定的前缀列表进行过滤。 停用整个块本来是正确的,但错误地只删除了包含前缀列表的行。

{master}[编辑] atl01# 显示 | 比较
[编辑策略选项策略声明 6-BBONE-OUT 术语 6-SITE-LOCAL 来自]! 非活动:前缀列表 6-SITE-LOCAL { … }

区块内容:

从 {
前缀列表 6-SITE-LOCAL;
}
然后 {
本地偏好 200;
社区添加站点-本地-路由;
社区添加ATL01;
社区添加北美;
接受;
}

由于取消了与前缀列表的绑定,块的剩余部分开始分发给所有前缀,并且路由器开始将其所有 BGP 路由发送到其他骨干网的路由器。 巧合的是,与自动流量优化系统为其他路线设置的优先级 (200) 相比,新路线具有更高的优先级 (本地优先级 100)。 结果,更高优先级的 BGP 路由并没有从骨干网中删除,而是被泄露,导致发送到其他骨干网的流量被发送到亚特兰大,从而导致路由器过载和部分网络崩溃。

BGP 配置错误导致 Cloudflare 崩溃 27 分钟

为了防止将来发生类似事件,计划周一对 Cloudflare 的 backbon 设置进行一些更改。 将为 BGP 会话添加最大前缀数量 (maximum-prefix) 的限制,如果通过路由的前缀过多,这将阻止有问题的骨干网。 如果较早添加此限制,则相关问题将导致亚特兰大主干网关闭,但不会影响整个网络的运行,因为 Cloudflare 网络的设计允许个别主干网出现故障。 在已经采用的更改中,值得注意的是本地路由优先级(本地优先级)的修订,这将不允许一台路由器影响网络其他部分的流量。

来源: opennet.ru

添加评论