Chyba konfigurácie BGP spôsobí zlyhanie Cloudflare na 27 minút

Spoločnosť Cloudflare, poskytovanie sieť na doručovanie obsahu pre 27 miliónov internetových zdrojov a obsluhujúca návštevnosť 13 % z 1000 XNUMX najväčších stránok, nekrytý podrobnosti o incidente, v dôsledku ktorého bola na 27 minút prerušená práca mnohých segmentov siete Cloudflare, vrátane tých, ktorí sú zodpovední za dopravu do Londýna, Chicaga, Los Angeles, Washingtonu, Amsterdamu, Paríža, Moskvy a Petrohradu . Problém bol spôsobený nesprávnou zmenou konfigurácie na smerovači Atlanta. Počas incidentu, ku ktorému došlo 17. júla od 21:12 do 21:39 (UTC), sa celkový objem prevádzky na sieti Cloudflare znížil približne o 50 %.

Chyba konfigurácie BGP spôsobí zlyhanie Cloudflare na 27 minút

Počas technických prác, ktorí chceli odstrániť časť prevádzky z jednej z chrbticových sietí, inžinieri vymazali jeden riadok v bloku nastavení, ktorý definuje zoznam trás akceptovaných cez chrbticu, filtrovaných podľa zadaného zoznamu prefixov. Správne by bolo deaktivovať celý blok, no omylom sa vymazal iba riadok so zoznamom prefixov.

{master}[upraviť] atl01# show | porovnať
[upraviť policy-options policy-statement 6-BBONE-OUT term 6-SITE-LOCAL from] ! neaktívne: zoznam prefixov 6-SITE-LOCAL { … }

Blokovať obsah:

od {
prefix-list 6-SITE-LOCAL;
}
potom {
miestna preferencia 200;
komunita pridať SITE-LOCAL-ROUTE;
komunitné pridanie ATL01;
komunita pridať SEVERNÁ AMERIKA;
súhlasiť;
}

Z dôvodu odstránenia väzby na zoznam prefixov sa zvyšná časť bloku začala distribuovať na všetky prefixy a router začal posielať všetky svoje BGP trasy na routery iných chrbticových sietí. Nové trasy mali zhodou okolností vyššiu prioritu (miestna preferencia 200) v porovnaní s prioritou (100) nastavenou pre ostatné trasy systémom automatickej optimalizácie dopravy. Výsledkom bolo, že namiesto odstránenia smerovania z chrbticovej siete unikali BGP cesty s vyššou prioritou, v dôsledku čoho bola prevádzka adresovaná iným chrbticovým sieťam posielaná do Atlanty, čo viedlo k preťaženiu smerovača a kolapsu časti siete.

Chyba konfigurácie BGP spôsobí zlyhanie Cloudflare na 27 minút

Aby v budúcnosti nedochádzalo k podobným incidentom, v pondelok sa plánuje niekoľko zmien v nastaveniach chrbtice Cloudflare. Pre relácie BGP bude pridaný limit na maximálny počet prefixov (maximum-prefix), ktorý zablokuje problematickú chrbticu, ak cez ňu bude smerovať príliš veľa prefixov. Ak by toto obmedzenie bolo pridané skôr, predmetný problém by viedol k odstaveniu chrbticovej siete v Atlante, no neovplyvnil by chod celej siete, keďže sieť Cloudflare je navrhnutá tak, aby umožňovala zlyhanie jednotlivých chrbticových sietí. Medzi už prijatými zmenami je zaznamenaná revízia priorít (lokálna preferencia) pre miestne trasy, ktorá nedovolí jednému smerovaču ovplyvňovať prevádzku v iných častiach siete.

Zdroj: opennet.ru

Pridať komentár