Chyba konfigurace BGP způsobí pád Cloudflare na 27 minut

Společnost Cloudflare, poskytování síť pro doručování obsahu pro 27 milionů internetových zdrojů a obsluhující provoz 13 % z 1000 největších stránek, nezakryté podrobnosti o incidentu, v jehož důsledku byla na 27 minut přerušena práce mnoha segmentů sítě Cloudflare, včetně těch, kteří jsou zodpovědní za dopravu do Londýna, Chicaga, Los Angeles, Washingtonu, Amsterdamu, Paříže, Moskvy a Petrohradu . Problém byl způsoben nesprávnou změnou konfigurace na routeru Atlanta. Během incidentu, ke kterému došlo 17. července od 21:12 do 21:39 (UTC), se celkový objem provozu na síti Cloudflare snížil přibližně o 50 %.

Chyba konfigurace BGP způsobí pád Cloudflare na 27 minut

Během technických prací, kteří chtěli odstranit část provozu z jedné z páteřních sítí, smazali inženýři v bloku nastavení jeden řádek, který definuje seznam tras přijímaných přes páteř, filtrovaných podle zadaného seznamu prefixů. Bylo by správné deaktivovat celý blok, ale omylem byl smazán pouze řádek se seznamem prefixů.

{master}[edit] atl01# show | porovnat
[edit policy-options policy-statement 6-BBONE-OUT term 6-SITE-LOCAL from] ! neaktivní: prefix-list 6-SITE-LOCAL { … }

Blokovat obsah:

z {
prefix-list 6-SITE-LOCAL;
}
pak {
místní preference 200;
komunita přidat SITE-LOCAL-ROUTE;
komunitní přidání ATL01;
komunita přidat SEVERNÍ AMERIKA;
akceptovat;
}

Z důvodu odstranění vazby na seznam prefixů se zbývající část bloku začala distribuovat na všechny prefixy a router začal posílat všechny své BGP cesty na routery jiných páteřních sítí. Nové trasy měly shodou okolností vyšší prioritu (místní preference 200) ve srovnání s prioritou (100) nastavenou pro ostatní trasy systémem automatické optimalizace provozu. Výsledkem bylo, že namísto odstranění směrování z páteře došlo k úniku BGP cest s vyšší prioritou, v důsledku čehož byl provoz adresovaný na jiné páteřní sítě odeslán do Atlanty, což vedlo k přetížení routeru a kolapsu části sítě.

Chyba konfigurace BGP způsobí pád Cloudflare na 27 minut

Aby k podobným incidentům v budoucnu nedocházelo, plánuje se v pondělí provést několik změn v nastavení páteře Cloudflare. Pro relace BGP bude přidán limit na maximální počet prefixů (maximum-prefix), který zablokuje problematickou páteř, pokud přes ni bude směrováno příliš mnoho prefixů. Pokud by toto omezení bylo přidáno dříve, daný problém by vedl k odstavení páteřní sítě v Atlantě, ale neovlivnil by provoz celé sítě, protože síť Cloudflare je navržena tak, aby umožňovala selhání jednotlivých páteřních sítí. Mezi již přijatými změnami je zaznamenána revize priorit (lokální preference) pro místní trasy, která nedovolí jednomu routeru ovlivňovat provoz v jiných částech sítě.

Zdroj: opennet.ru

Přidat komentář