BGP konfiguratsioonivea tõttu jookseb Cloudflare 27 minutiks kokku

Cloudflare'i ettevõte, pakkudes sisu edastamise võrk 27 miljoni Interneti-ressursi jaoks ja teenindab 13% liiklust 1000 suurimast saidist, katmata üksikasjad intsidendi kohta, mille tagajärjel katkes 27 minutiks paljude Cloudflare'i võrgu segmentide töö, sealhulgas Londoni, Chicago, Los Angelese, Washingtoni, Amsterdami, Pariisi, Moskva ja Peterburi liikluse eest vastutavate isikute töö. . Probleemi põhjustas Atlanta ruuteri vale konfiguratsioonimuudatus. 17. juulil kell 21-12 (UTC) toimunud intsidendi ajal vähenes Cloudflare'i võrgu liikluse kogumaht ligikaudu 21%.

BGP konfiguratsioonivea tõttu jookseb Cloudflare 27 minutiks kokku

Tehnilise töö käigus, soovides eemaldada osa liiklusest ühest magistraalvõrgust, kustutasid insenerid seadete plokist ühe rea, mis määratleb selgroo kaudu aktsepteeritud marsruutide loendi, filtreerides vastavalt määratud eesliidete loendile. Õige oleks olnud kogu plokk deaktiveerida, kuid kogemata kustutati ainult eesliidete loendiga rida.

{master}[muuda] atl01# saade | võrdlema
[redigeeri poliitika-suvandid poliitika-avaldus 6-BBONE-OUT term 6-SITE-LOCAL alates] ! passiivne: prefix-list 6-SITE-LOCAL { … }

Blokeeri sisu:

alates {
prefix-list 6-SITE-LOCAL;
}
siis {
kohalik-eelistus 200;
kogukonna lisamine SITE-LOCAL-ROUTE;
kogukonna lisamine ATL01;
kogukonna lisamine PÕHJA-AMEERIKA;
vastu võtma;
}

Seoses eesliidete loendiga sidumise eemaldamise tõttu hakati ülejäänud ploki osa jaotama kõigile prefiksitele ja ruuter hakkas saatma kõiki oma BGP-marsruute teiste magistraalide ruuteritele. Juhuslikult oli uutel marsruutidel kõrgem prioriteet (kohalik-eelistus 200) võrreldes automaatse liikluse optimeerimise süsteemi poolt teistele marsruutidele seatud prioriteediga (100). Selle tulemusena lekkisid marsruutimise selgroost eemaldamise asemel kõrgema prioriteediga BGP marsruudid, mille tulemusena suunati teistele magistraalliinidele suunatud liiklus Atlantasse, mis tõi kaasa ruuteri ülekoormuse ja osa võrgu kokkuvarisemise.

BGP konfiguratsioonivea tõttu jookseb Cloudflare 27 minutiks kokku

Et sarnaseid intsidente edaspidi vältida, on esmaspäeval plaanis Cloudflare'i selgroogseadistustesse teha mitmeid muudatusi. BGP-seansside jaoks lisatakse eesliidete maksimaalse arvu piirang (maksimaalne prefiks), mis blokeerib probleemse selgroo, kui selle kaudu suunatakse liiga palju eesliiteid. Kui see piirang oleks lisatud varem, oleks kõnealune probleem viinud Atlanta magistraalvõrgu väljalülitamiseni, kuid ei oleks mõjutanud kogu võrgu tööd, kuna Cloudflare'i võrk on loodud nii, et see võimaldaks üksikutel magistraalliinidel ebaõnnestuda. Juba vastu võetud muudatuste hulgas märgitakse kohalike marsruutide prioriteetide (kohalik eelistus) läbivaatamist, mis ei võimalda ühel ruuteril mõjutada liiklust võrgu teistes osades.

Allikas: opennet.ru

Lisa kommentaar