BGP-configuratiefout zorgt ervoor dat Cloudflare gedurende 27 minuten crasht

Cloudflare-bedrijf, het verstrekken van contentleveringsnetwerk voor 27 miljoen internetbronnen en bedient het verkeer van 13% van de 1000 grootste sites, onbedekt details van het incident, waardoor het werk van veel segmenten van het Cloudflare-netwerk gedurende 27 minuten werd verstoord, inclusief degenen die verantwoordelijk waren voor het leveren van verkeer naar Londen, Chicago, Los Angeles, Washington, Amsterdam, Parijs, Moskou en Sint-Petersburg . Het probleem werd veroorzaakt door een onjuiste configuratiewijziging op de Atlanta-router. Tijdens het incident, dat plaatsvond op 17 juli van 21:12 tot 21:39 (UTC), daalde het totale verkeersvolume op het Cloudflare-netwerk met ongeveer 50%.

BGP-configuratiefout zorgt ervoor dat Cloudflare gedurende 27 minuten crasht

Tijdens de technische werkzaamheden, die een deel van het verkeer van een van de backbones wilden verwijderen, hebben ingenieurs één regel verwijderd in het instellingenblok dat de lijst met routes definieert die via de backbone worden geaccepteerd, gefilterd in overeenstemming met de opgegeven lijst met voorvoegsels. Het zou correct zijn geweest om het hele blok te deactiveren, maar per ongeluk werd alleen de regel met de lijst met voorvoegsels verwijderd.

{master}[bewerken] atl01# toon | vergelijken
[bewerk beleidsopties beleidsverklaring 6-BBONE-OUT term 6-SITE-LOCAL van] ! inactief: prefixlijst 6-SITE-LOCAL { … }

Inhoud blokkeren:

van {
voorvoegsellijst 6-SITE-LOCAL;
}
Dan {
lokale voorkeur 200;
gemeenschap voeg SITE-LOCAL-ROUTE toe;
gemeenschap voegt ATL01 toe;
gemeenschap toevoegen NOORD-AMERIKA;
aanvaarden;
}

Vanwege het verwijderen van de binding aan de lijst met voorvoegsels, begon het resterende deel van het blok te worden gedistribueerd naar alle voorvoegsels en begon de router al zijn BGP-routes naar routers van andere backbones te sturen. Toevallig hadden de nieuwe routes een hogere prioriteit (lokale voorkeur 200) vergeleken met de prioriteit (100) die door het automatische verkeersoptimalisatiesysteem voor andere routes was ingesteld. Als gevolg hiervan lekten in plaats van de routing uit de backbone te verwijderen, BGP-routes met hogere prioriteit uit, waardoor verkeer gericht aan andere backbones naar Atlanta werd gestuurd, wat leidde tot overbelasting van de router en het instorten van een deel van het netwerk.

BGP-configuratiefout zorgt ervoor dat Cloudflare gedurende 27 minuten crasht

Om soortgelijke incidenten in de toekomst te voorkomen, zijn er maandag verschillende wijzigingen gepland in de backbon-instellingen van Cloudflare. Er wordt een limiet voor het maximale aantal voorvoegsels (maximum-prefix) toegevoegd voor BGP-sessies, waardoor een problematische backbone wordt geblokkeerd als er te veel voorvoegsels doorheen worden geleid. Als deze beperking eerder was toegevoegd, zou het betreffende probleem hebben geleid tot het afsluiten van de backbone in Atlanta, maar zou het de werking van het hele netwerk niet hebben beïnvloed, aangezien het Cloudflare-netwerk is ontworpen om individuele backbones te laten falen. Onder de reeds aangenomen wijzigingen wordt een herziening van de prioriteiten (lokale voorkeur) voor lokale routes opgemerkt, waardoor één router het verkeer in andere delen van het netwerk niet kan beïnvloeden.

Bron: opennet.ru

Voeg een reactie