Ein BGP-Konfigurationsfehler führt dazu, dass Cloudflare 27 Minuten lang abstürzt

Cloudflare-Unternehmen, bereitstellen Content-Delivery-Netzwerk für 27 Millionen Internetressourcen, das den Datenverkehr von 13 % der 1000 größten Websites bedient, unbedeckt Einzelheiten des Vorfalls, der dazu führte, dass die Arbeit vieler Segmente des Cloudflare-Netzwerks für 27 Minuten unterbrochen wurde, einschließlich derjenigen, die für die Zustellung des Datenverkehrs nach London, Chicago, Los Angeles, Washington, Amsterdam, Paris, Moskau und St. Petersburg verantwortlich waren . Das Problem wurde durch eine falsche Konfigurationsänderung auf dem Atlanta-Router verursacht. Während des Vorfalls, der sich am 17. Juli von 21:12 bis 21:39 Uhr (UTC) ereignete, ging das Gesamtverkehrsvolumen im Cloudflare-Netzwerk um etwa 50 % zurück.

Ein BGP-Konfigurationsfehler führt dazu, dass Cloudflare 27 Minuten lang abstürzt

Während der technischen Arbeit, um einen Teil des Datenverkehrs von einem der Backbones zu entfernen, haben die Ingenieure eine Zeile im Einstellungsblock gelöscht, die die Liste der über den Backbone akzeptierten Routen definiert, gefiltert gemäß der angegebenen Liste von Präfixen. Es wäre richtig gewesen, den gesamten Block zu deaktivieren, aber versehentlich wurde nur die Zeile mit der Liste der Präfixe gelöscht.

{master}[edit] atl01# show | vergleichen
[policy-options Policy-statement 6-BBONE-OUT term 6-SITE-LOCAL bearbeiten von] ! inaktiv: Präfixliste 6-SITE-LOCAL { … }

Inhalte blockieren:

aus {
Präfixliste 6-SITE-LOCAL;
}
Dann {
lokale Präferenz 200;
Community fügt SITE-LOCAL-ROUTE hinzu;
Community ATL01 hinzufügen;
Community hinzufügen NORDAMERIKA;
akzeptieren;
}

Aufgrund der Aufhebung der Bindung an die Präfixliste begann der verbleibende Teil des Blocks auf alle Präfixe verteilt zu werden und der Router begann, alle seine BGP-Routen an Router anderer Backbones zu senden. Zufälligerweise hatten die neuen Routen eine höhere Priorität (Lokalpräferenz 200) im Vergleich zu der Priorität (100), die das automatische Verkehrsoptimierungssystem für andere Routen festgelegt hatte. Anstatt das Routing aus dem Backbone zu entfernen, wurden daher BGP-Routen mit höherer Priorität durchgesickert, wodurch an andere Backbones gerichteter Datenverkehr nach Atlanta gesendet wurde, was zu einer Überlastung des Routers und zum Zusammenbruch eines Teils des Netzwerks führte.

Ein BGP-Konfigurationsfehler führt dazu, dass Cloudflare 27 Minuten lang abstürzt

Um zu verhindern, dass ähnliche Vorfälle in Zukunft auftreten, sind für Montag mehrere Änderungen an den Backbon-Einstellungen von Cloudflare geplant. Für BGP-Sitzungen wird eine Begrenzung der maximalen Anzahl von Präfixen (maximum-prefix) hinzugefügt, die ein problematisches Backbone blockiert, wenn zu viele Präfixe darüber weitergeleitet werden. Wenn diese Einschränkung früher hinzugefügt worden wäre, hätte das betreffende Problem zur Abschaltung des Backbones in Atlanta geführt, aber nicht den Betrieb des gesamten Netzwerks beeinträchtigt, da das Cloudflare-Netzwerk darauf ausgelegt ist, den Ausfall einzelner Backbones zuzulassen. Zu den bereits angenommenen Änderungen gehört eine Überarbeitung der Prioritäten (Local-Preference) für lokale Routen, die es einem Router nicht ermöglicht, den Verkehr in anderen Teilen des Netzwerks zu beeinflussen.

Source: opennet.ru

Kommentar hinzufügen