BGP Konfiguratiounsfehler verursaacht Cloudflare fir 27 Minutten ze crashen

Cloudflare Company, liwweren Inhalt Liwwerungsnetz fir 27 Milliounen Internetressourcen a servéiert de Traffic vun 13% vun den 1000 gréisste Siten, opgedeckt Detailer vum Tëschefall, als Resultat vun deem d'Aarbecht vu ville Segmenter vum Cloudflare-Netzwierk fir 27 Minutten gestéiert gouf, dorënner déi verantwortlech fir de Verkéier op London, Chicago, Los Angeles, Washington, Amsterdam, Paräis, Moskau a St. . De Problem gouf duerch eng falsch Konfiguratiounsännerung am Atlanta Router verursaacht. Wärend dem Tëschefall, deen de 17. Juli vun 21:12 bis 21:39 (UTC) geschitt ass, ass de Gesamtvolumen vum Verkéier um Cloudflare-Netz ëm ongeféier 50% erofgaang.

BGP Konfiguratiounsfehler verursaacht Cloudflare fir 27 Minutten ze crashen

Wärend der technescher Aarbecht, wëllen en Deel vum Verkéier vun engem vun de Backbonen ewechhuelen, hunn d'Ingenieuren eng Zeil an der Astellungsblock geläscht, déi d'Lëscht vun de routes definéiert, déi duerch de Réckgrat akzeptéiert sinn, gefiltert am Aklang mat der spezifizéierter Lëscht vu Präfixe. Et wier richteg gewiescht, de ganze Block auszeschalten, awer duerch Feeler gouf nëmmen d'Linn mat der Lëscht vun de Präfixe geläscht.

{master}[edit] atl01# weisen | vergläichen
[Ännerung Politik-Optiounen Politik-Erklärung 6-BBONE-OUT Begrëff 6-SITE-LOCAL vun]! inaktiv: Präfix-Lëscht 6-SITE-LOCAL { … }

Block Inhalt:

vun {
Präfix-Lëscht 6-SITE-LOCAL;
}
dann {
lokal-Preferenz 200;
Communautéit derbäi SITE-LOCAL-ROUTE;
Communautéit derbäi ATL01;
Communautéit derbäi NORTH-AMERIKA;
akzeptéieren;
}

Wéinst der Entfernung vun der Bindung op d'Lëscht vun de Präfixe, huet de reschtlechen Deel vum Block ugefaang an all Präfixe verdeelt ze ginn an de Router huet ugefaang all seng BGP-Strecken op Router vun anere Backbonen ze schécken. Duerch Zoufall haten déi nei Strecken eng méi héich Prioritéit (lokal Präferenz 200) am Verglach mat der Prioritéit (100), déi fir aner Strecken vum automatesche Verkéiersoptimiséierungssystem festgeluecht gouf. Als Resultat, amplaz d'Routing vum Réckgrat ze läschen, goufen méi héich Prioritéit BGP-Strecken ausgeliwwert, als Resultat vun deem de Verkéier, deen op aner Réckgraten adresséiert gouf, op Atlanta geschéckt gouf, wat zu Iwwerlaascht vum Router an dem Zesummebroch vun engem Deel vum Netz gefouert huet.

BGP Konfiguratiounsfehler verursaacht Cloudflare fir 27 Minutten ze crashen

Fir ze verhënneren datt ähnlech Tëschefäll an Zukunft geschéien, sinn e puer Ännerungen geplangt fir de Backbon-Astellunge vun Cloudflare um Méindeg ze maachen. Eng Limit op déi maximal Unzuel vu Präfixe (maximal Präfix) gëtt fir BGP Sessiounen bäigefüügt, wat e problematesch Réckgrat blockéiert, wann ze vill Präfixe doduerch geréckelt ginn. Wann dës Restriktioun virdru bäigefüügt wier, hätt de Problem zu der Ausschaltung vum Backbone zu Atlanta gefouert, awer net d'Operatioun vum ganzen Netz beaflosst, well de Cloudflare-Netz ass entwéckelt fir individuell Réckgraten ze falen. Ënnert de scho adoptéierte Ännerunge gëtt eng Revisioun vu Prioritéite (lokal Präferenz) fir lokal Strecken bemierkt, wat net erlaabt datt ee Router den Traffic an aneren Deeler vum Netz beaflosse kann.

Source: opennet.ru

Setzt e Commentaire