云耀公司,
在技术工作期间,为了从其中一个骨干网中删除部分流量,工程师删除了设置块中的一行,该行定义了通过骨干网接受的路由列表,并根据指定的前缀列表进行过滤。 停用整个块本来是正确的,但错误地只删除了包含前缀列表的行。
{master}[编辑] atl01# 显示 | 比较
[编辑策略选项策略声明 6-BBONE-OUT 术语 6-SITE-LOCAL 来自]! 非活动:前缀列表 6-SITE-LOCAL { … }
区块内容:
从 {
前缀列表 6-SITE-LOCAL;
}
然后 {
本地偏好 200;
社区添加站点-本地-路由;
社区添加ATL01;
社区添加北美;
接受;
}
由于取消了与前缀列表的绑定,块的剩余部分开始分发给所有前缀,并且路由器开始将其所有 BGP 路由发送到其他骨干网的路由器。 巧合的是,与自动流量优化系统为其他路线设置的优先级 (200) 相比,新路线具有更高的优先级 (本地优先级 100)。 结果,更高优先级的 BGP 路由并没有从骨干网中删除,而是被泄露,导致发送到其他骨干网的流量被发送到亚特兰大,从而导致路由器过载和部分网络崩溃。
为了防止将来发生类似事件,计划周一对 Cloudflare 的 backbon 设置进行一些更改。 将为 BGP 会话添加最大前缀数量 (maximum-prefix) 的限制,如果通过路由的前缀过多,这将阻止有问题的骨干网。 如果较早添加此限制,则相关问题将导致亚特兰大主干网关闭,但不会影响整个网络的运行,因为 Cloudflare 网络的设计允许个别主干网出现故障。 在已经采用的更改中,值得注意的是本地路由优先级(本地优先级)的修订,这将不允许一台路由器影响网络其他部分的流量。
来源: opennet.ru