BGP-konfigurationsfel gör att Cloudflare kraschar i 27 minuter

Cloudflare Company, tillhandahålla innehållsleveransnätverk för 27 miljoner internetresurser och betjänar trafiken från 13 % av de 1000 XNUMX största webbplatserna, avtäckt detaljer om incidenten, som ett resultat av vilket arbetet i många segment av Cloudflare-nätverket stördes i 27 minuter, inklusive de som var ansvariga för att leverera trafik till London, Chicago, Los Angeles, Washington, Amsterdam, Paris, Moskva och St. Petersburg . Problemet orsakades av en felaktig konfigurationsändring på Atlanta-routern. Under incidenten, som inträffade den 17 juli från 21:12 till 21:39 (UTC), minskade den totala trafikvolymen på Cloudflare-nätverket med cirka 50 %.

BGP-konfigurationsfel gör att Cloudflare kraschar i 27 minuter

Under det tekniska arbetet, som ville ta bort en del av trafiken från en av ryggraden, tog ingenjörer bort en rad i inställningsblocket som definierar listan över rutter som accepteras genom ryggraden, filtrerad i enlighet med den specificerade listan med prefix. Det hade varit korrekt att avaktivera hela blocket, men av misstag raderades bara raden med prefixlistan.

{master}[redigera] atl01# visa | jämföra
[redigera policy-alternativ policy-uttalande 6-BBONE-OUT term 6-SITE-LOCAL from] ! inaktiv: prefix-lista 6-SITE-LOCAL { … }

Blockera innehåll:

från {
prefix-lista 6-SITE-LOCAL;
}
sedan {
lokal-preferens 200;
community lägg till SITE-LOCAL-ROUTE;
community lägg till ATL01;
gemenskap lägg till NORD-AMERIKA;
acceptera;
}

På grund av borttagandet av bindningen till listan med prefix började den återstående delen av blocket distribueras till alla prefix och routern började skicka alla sina BGP-rutter till routrar med andra stamnät. Av en slump hade de nya rutterna en högre prioritet (lokal preferens 200) jämfört med den prioritet (100) som satts för andra rutter av det automatiska trafikoptimeringssystemet. Som ett resultat, istället för att ta bort routing från stamnätet, läckte högre prioriterade BGP-rutter, vilket ledde till att trafik adresserad till andra stamnät skickades till Atlanta, vilket ledde till överbelastning av routern och kollaps av en del av nätverket.

BGP-konfigurationsfel gör att Cloudflare kraschar i 27 minuter

För att förhindra att liknande incidenter inträffar i framtiden planeras flera ändringar att göras i Cloudflares backbon-inställningar på måndag. En gräns för det maximala antalet prefix (maximalt prefix) kommer att läggas till för BGP-sessioner, vilket kommer att blockera en problematisk ryggrad om för många prefix dirigeras genom den. Om denna begränsning hade lagts till tidigare skulle problemet i fråga ha lett till att stamnätet stängdes av i Atlanta, men det skulle inte ha påverkat driften av hela nätverket, eftersom Cloudflare-nätverket är designat för att tillåta enskilda stamnät att misslyckas. Bland de redan antagna ändringarna noteras en revidering av prioriteringar (lokal-preferens) för lokala rutter, som inte kommer att tillåta en router att påverka trafiken i andra delar av nätverket.

Källa: opennet.ru

Lägg en kommentar