Greška u BGP konfiguraciji uzrokuje pad Cloudflarea u trajanju od 27 minuta

kompanija Cloudflare, pružanje mreža za isporuku sadržaja za 27 miliona Internet resursa i opsluživanje saobraćaja 13% od 1000 najvećih sajtova, nepokriven detalji incidenta, zbog čega je na 27 minuta poremećen rad mnogih segmenata mreže Cloudflare, uključujući i one koji su odgovorni za isporuku saobraćaja prema Londonu, Čikagu, Los Anđelesu, Vašingtonu, Amsterdamu, Parizu, Moskvi i Sankt Peterburgu . Problem je uzrokovan neispravnom promjenom konfiguracije na ruteru Atlanta. Tokom incidenta, koji se dogodio 17. jula od 21:12 do 21:39 (UTC), ukupan obim saobraćaja na mreži Cloudflare smanjen je za približno 50%.

Greška u BGP konfiguraciji uzrokuje pad Cloudflarea u trajanju od 27 minuta

Tokom tehničkog rada, želeći da uklone deo saobraćaja sa jedne od okosnica, inženjeri su izbrisali jedan red u bloku podešavanja koji definiše listu ruta prihvaćenih kroz kičmu, filtriranu u skladu sa navedenom listom prefiksa. Bilo bi ispravno deaktivirati cijeli blok, ali greškom je obrisan samo red sa listom prefiksa.

{master}[uredi] atl01# emisija | uporedi
[uredi policy-options policy-statement 6-BBONE-OUT termin 6-SITE-LOCAL from] ! neaktivan: prefiks-list 6-SITE-LOCAL { … }

Blokiraj sadržaj:

od {
prefiks-list 6-SITE-LOCAL;
}
onda {
lokalna preferencija 200;
zajednica dodati SITE-LOCAL-ROUTE;
dodatak zajednice ATL01;
zajednica dodati SJEVERNA AMERIKA;
prihvatiti;
}

Zbog uklanjanja vezivanja za listu prefiksa, preostali dio bloka je počeo da se distribuira na sve prefikse i ruter je počeo slati sve svoje BGP rute na rutere drugih okosnica. Igrom slučaja, nove rute su imale veći prioritet (lokalna preferencija 200) u odnosu na prioritet (100) koji je za druge rute postavio automatski sistem za optimizaciju saobraćaja. Kao rezultat toga, umjesto uklanjanja rutiranja iz okosnice, procurile su BGP rute višeg prioriteta, uslijed čega je promet upućen drugim okosnicama poslat u Atlantu, što je dovelo do preopterećenja rutera i kolapsa dijela mreže.

Greška u BGP konfiguraciji uzrokuje pad Cloudflarea u trajanju od 27 minuta

Kako bi se spriječili slični incidenti u budućnosti, planirano je da se u ponedjeljak izvrši nekoliko promjena u postavkama okosnice Cloudflarea. Ograničenje maksimalnog broja prefiksa (maksimalni-prefiks) biće dodato za BGP sesije, što će blokirati problematičnu kičmu ako se preko nje usmerava previše prefiksa. Da je ovo ograničenje dodato ranije, predmetni problem bi doveo do gašenja okosnice u Atlanti, ali ne bi utjecao na rad cijele mreže, budući da je Cloudflare mreža dizajnirana tako da omogući kvar pojedinačnih okosnica. Među već usvojenim izmjenama, uočena je revizija prioriteta (local-preference) za lokalne rute, koja neće dozvoliti da jedan ruter utiče na promet u drugim dijelovima mreže.

izvor: opennet.ru

Dodajte komentar