BGP-konfigurasjonsfeil får Cloudflare til å krasje i 27 minutter

Cloudflare Company, gir innholdsleveringsnettverk for 27 millioner Internett-ressurser og betjener trafikken til 13 % av de 1000 største nettstedene, avdekket detaljer om hendelsen, som et resultat av at arbeidet til mange segmenter av Cloudflare-nettverket ble forstyrret i 27 minutter, inkludert de som var ansvarlige for å levere trafikk til London, Chicago, Los Angeles, Washington, Amsterdam, Paris, Moskva og St. Petersburg . Problemet var forårsaket av en feil konfigurasjonsendring på Atlanta-ruteren. Under hendelsen, som skjedde 17. juli fra 21:12 til 21:39 (UTC), sank det totale volumet av trafikk på Cloudflare-nettverket med omtrent 50 %.

BGP-konfigurasjonsfeil får Cloudflare til å krasje i 27 minutter

Under det tekniske arbeidet, som ønsket å fjerne en del av trafikken fra en av ryggradene, slettet ingeniører én linje i innstillingsblokken som definerer listen over ruter akseptert gjennom ryggraden, filtrert i samsvar med den spesifiserte listen over prefikser. Det hadde vært riktig å deaktivere hele blokken, men ved en feil ble bare linjen med prefikslisten slettet.

{master}[edit] atl01# vis | sammenligne
[rediger policy-alternativer policy-erklæring 6-BBONE-OUT term 6-SITE-LOCAL fra] ! inaktiv: prefiksliste 6-SITE-LOCAL { … }

Blokker innhold:

fra {
prefiks-liste 6-SITE-LOCAL;
}
deretter {
lokal-preferanse 200;
fellesskap legg til SITE-LOCAL-ROUTE;
fellesskap legg til ATL01;
fellesskap legg til NORD-AMERIKA;
aksepterer;
}

På grunn av fjerningen av bindingen til listen over prefikser, begynte den resterende delen av blokken å bli distribuert til alle prefikser, og ruteren begynte å sende alle BGP-rutene sine til rutere med andre ryggrader. Ved en tilfeldighet hadde de nye rutene høyere prioritet (lokalpreferanse 200) sammenlignet med prioriteten (100) satt for andre ruter av det automatiske trafikkoptimaliseringssystemet. Som et resultat, i stedet for å fjerne ruting fra ryggraden, ble høyere prioriterte BGP-ruter lekket, som et resultat av at trafikk adressert til andre ryggrad ble sendt til Atlanta, noe som førte til overbelastning av ruteren og kollaps av deler av nettverket.

BGP-konfigurasjonsfeil får Cloudflare til å krasje i 27 minutter

For å forhindre at lignende hendelser oppstår i fremtiden, er det planlagt flere endringer i Cloudflares ryggradsinnstillinger på mandag. En grense på maksimalt antall prefikser (maksimalt prefiks) vil bli lagt til for BGP-økter, som vil blokkere en problematisk ryggrad hvis for mange prefikser rutes gjennom den. Hvis denne begrensningen hadde blitt lagt til tidligere, ville det aktuelle problemet ha ført til nedleggelse av ryggraden i Atlanta, men ville ikke ha påvirket driften av hele nettverket, siden Cloudflare-nettverket er designet for å la individuelle ryggrader svikte. Blant endringene som allerede er vedtatt, noteres en revisjon av prioriteringer (lokal-preferanse) for lokale ruter, som ikke vil tillate en ruter å påvirke trafikken i andre deler av nettverket.

Kilde: opennet.ru

Legg til en kommentar