Gabimi i konfigurimit BGP bën që Cloudflare të rrëzohet për 27 minuta

Kompania Cloudflare, duke siguruar rrjeti i ofrimit të përmbajtjes për 27 milionë burime interneti dhe shërbimi i trafikut të 13% të 1000 faqeve më të mëdha, të pambuluara detajet e incidentit, si rezultat i të cilit puna e shumë segmenteve të rrjetit Cloudflare u ndërpre për 27 minuta, duke përfshirë ata përgjegjës për dërgimin e trafikut në Londër, Çikago, Los Anxhelos, Uashington, Amsterdam, Paris, Moskë dhe Shën Petersburg. . Problemi u shkaktua nga një ndryshim i gabuar i konfigurimit në ruterin e Atlantës. Gjatë incidentit, i cili ndodhi më 17 korrik nga ora 21:12 deri në 21:39 (UTC), vëllimi i përgjithshëm i trafikut në rrjetin Cloudflare u ul me afërsisht 50%.

Gabimi i konfigurimit BGP bën që Cloudflare të rrëzohet për 27 minuta

Gjatë punës teknike, duke dashur të heqin një pjesë të trafikut nga një prej shtyllave, inxhinierët fshinë një rresht në bllokun e cilësimeve që përcakton listën e rrugëve të pranuara përmes shtyllës kurrizore, të filtruar në përputhje me listën e specifikuar të prefikseve. Do të ishte e saktë të çaktivizoni të gjithë bllokun, por gabimisht u fshi vetëm rreshti me listën e parashtesave.

{master}[redakto] atl01# shfaqje | krahasojnë
[redakto politikën-opsionet-deklarata e politikës 6-BBONE-OUT termi 6-SITE-LOKAL nga] ! joaktive: prefiks-lista 6-SITE-LOCAL { … }

Blloko përmbajtjen:

nga {
prefiks-lista 6-SITE-LOKAL;
}
pastaj {
lokale-preferencë 200;
shtimi i komunitetit SITE-LOCAL-ROUTE;
shtoni komunitetin ATL01;
komuniteti shtoj AMERIKEN VERIORE;
pranoj;
}

Për shkak të heqjes së lidhjes në listën e prefikseve, pjesa e mbetur e bllokut filloi të shpërndahej në të gjitha prefikset dhe ruteri filloi të dërgonte të gjitha rrugët e tij BGP te ruterat e shtyllave të tjera. Rastësisht, linjat e reja kishin një prioritet më të lartë (preferenca lokale 200) krahasuar me prioritetin (100) të vendosur për linjat e tjera nga sistemi automatik i optimizimit të trafikut. Si rezultat, në vend që të hiqeshin rrugëzimet nga shtylla kurrizore, u zbuluan rrugë BGP me prioritet më të lartë, si rezultat i së cilës trafiku i adresuar drejt shtyllave të tjera u dërgua në Atlanta, gjë që çoi në mbingarkesë të ruterit dhe kolapsin e një pjese të rrjetit.

Gabimi i konfigurimit BGP bën që Cloudflare të rrëzohet për 27 minuta

Për të parandaluar që incidente të ngjashme të ndodhin në të ardhmen, janë planifikuar të bëhen disa ndryshime në cilësimet e shtyllës kurrizore të Cloudflare të hënën. Një kufi në numrin maksimal të parashtesave (maksimum-prefiks) do të shtohet për seancat BGP, gjë që do të bllokojë një shtyllë problematike nëse kalojnë shumë parashtesa përmes saj. Nëse ky kufizim do të ishte shtuar më herët, problemi në fjalë do të kishte çuar në mbylljen e shtyllës kurrizore në Atlanta, por nuk do të ndikonte në funksionimin e të gjithë rrjetit, pasi rrjeti Cloudflare është krijuar për të lejuar dështimin e shtyllave individuale. Ndër ndryshimet e miratuara tashmë, vërehet një rishikim i prioriteteve (preferenca lokale) për rrugët lokale, të cilat nuk do të lejojnë që një ruter të ndikojë në trafikun në pjesë të tjera të rrjetit.

Burimi: opennet.ru

Shto një koment