BGP-konfigurationsfejl får Cloudflare til at gå ned i 27 minutter

Cloudflare Company, at sørge for indholdsleveringsnetværk for 27 millioner internetressourcer og betjener trafikken på 13 % af de 1000 største websteder, afdækket detaljer om hændelsen, som resulterede i, at arbejdet i mange segmenter af Cloudflare-netværket blev forstyrret i 27 minutter, inklusive dem, der var ansvarlige for at levere trafik til London, Chicago, Los Angeles, Washington, Amsterdam, Paris, Moskva og St. Petersborg . Problemet var forårsaget af en forkert konfigurationsændring på Atlanta-routeren. Under hændelsen, som fandt sted den 17. juli fra 21:12 til 21:39 (UTC), faldt den samlede trafikmængde på Cloudflare-netværket med cirka 50 %.

BGP-konfigurationsfejl får Cloudflare til at gå ned i 27 minutter

Under det tekniske arbejde, hvor de ønskede at fjerne en del af trafikken fra en af ​​backbones, slettede ingeniører en linje i indstillingsblokken, der definerer listen over ruter, der accepteres gennem backbone, filtreret i overensstemmelse med den specificerede liste over præfikser. Det ville have været korrekt at deaktivere hele blokken, men ved en fejl blev kun linjen med listen over præfikser slettet.

{master}[edit] atl01# vis | sammenligne
[rediger politik-indstillinger politikerklæring 6-BBONE-OUT sigt 6-SITE-LOCAL fra] ! inaktiv: præfiks-liste 6-SITE-LOCAL { … }

Bloker indhold:

fra {
præfiks-liste 6-SITE-LOCAL;
}
derefter {
lokal-præference 200;
fællesskab tilføje SITE-LOKAL-RUTE;
fællesskab tilføje ATL01;
samfund tilføje NORD-AMERIKA;
acceptere;
}

På grund af fjernelsen af ​​bindingen til listen over præfikser, begyndte den resterende del af blokken at blive distribueret til alle præfikser, og routeren begyndte at sende alle sine BGP-ruter til routere med andre backbones. Ved en tilfældighed havde de nye ruter en højere prioritet (lokal præference 200) sammenlignet med den prioritet (100), der er fastsat for andre ruter af det automatiske trafikoptimeringssystem. Som et resultat, i stedet for at fjerne routing fra backbone, blev der lækket højere prioriterede BGP-ruter, som et resultat af, at trafik adresseret til andre backbones blev sendt til Atlanta, hvilket førte til overbelastning af routeren og kollaps af en del af netværket.

BGP-konfigurationsfejl får Cloudflare til at gå ned i 27 minutter

For at forhindre lignende hændelser i at opstå i fremtiden, er der planlagt flere ændringer i Cloudflares backbon-indstillinger på mandag. En grænse for det maksimale antal præfikser (maksimum-præfiks) vil blive tilføjet for BGP-sessioner, hvilket vil blokere en problematisk rygrad, hvis for mange præfikser rutes gennem den. Hvis denne begrænsning var blevet tilføjet tidligere, ville det pågældende problem have ført til nedlukning af backbone i Atlanta, men ville ikke have påvirket driften af ​​hele netværket, da Cloudflare-netværket er designet til at tillade individuelle backbones at svigte. Blandt de allerede vedtagne ændringer bemærkes en revision af prioriteter (lokal-præference) for lokale ruter, som ikke vil tillade én router at påvirke trafikken i andre dele af netværket.

Kilde: opennet.ru

Tilføj en kommentar