Dėl BGP konfigūracijos klaidos „Cloudflare“ sugenda 27 minutes

Cloudflare kompanija, teikiant turinio pristatymo tinklas, skirtas 27 milijonams interneto išteklių ir aptarnaujantis 13 % iš 1000 didžiausių svetainių srautą, neuždengtas incidento detalės, dėl kurių 27 minutėms buvo sutrikęs daugelio „Cloudflare“ tinklo segmentų darbas, įskaitant tuos, kurie atsakingi už srauto pristatymą į Londoną, Čikagą, Los Andželą, Vašingtoną, Amsterdamą, Paryžių, Maskvą ir Sankt Peterburgą. . Problema kilo dėl neteisingo Atlantos maršrutizatoriaus konfigūracijos pakeitimo. Per incidentą, įvykusį liepos 17 dieną nuo 21:12 iki 21:39 (UTC), bendras srautas Cloudflare tinkle sumažėjo maždaug 50%.

Dėl BGP konfigūracijos klaidos „Cloudflare“ sugenda 27 minutes

Atliekant techninius darbus, norėdami pašalinti dalį srauto iš vieno iš magistralinių tinklų, inžinieriai nustatymų bloke ištrynė vieną eilutę, kuri apibrėžia per magistralinį tinklą priimtų maršrutų sąrašą, filtruotą pagal nurodytą priešdėlių sąrašą. Būtų buvę teisinga išjungti visą bloką, tačiau per klaidą buvo ištrinta tik eilutė su priešdėlių sąrašu.

{master}[taisyti] atl01# rodyti | palyginti
[redaguoti politikos parinktys policy-statement 6-BBONE-OUT terminas 6-SITE-LOCAL from] ! neaktyvus: priešdėlių sąrašas 6-SITE-LOCAL { … }

Blokuoti turinį:

nuo {
prefiksų sąrašas 6-SITE-LOCAL;
}
tada {
vietinė pirmenybė 200;
bendruomenė pridėti SITE-LOCAL-ROUTE;
bendruomenė pridėti ATL01;
bendruomenė pridėti ŠIAURĖS AMERIKĄ;
priimti;
}

Pašalinus susiejimą su prefiksų sąrašu, likusi bloko dalis buvo pradėta paskirstyti visiems prefiksams ir maršrutizatorius pradėjo siųsti visus savo BGP maršrutus kitų magistralinių tinklų maršrutizatoriams. Atsitiktinai naujieji maršrutai turėjo didesnį prioritetą (200 vietinė nuostata), palyginti su automatinės eismo optimizavimo sistemos kitiems maršrutams nustatytu prioritetu (100). Dėl to, užuot pašalinę maršrutą iš pagrindinio tinklo, buvo nutekėję aukštesnio prioriteto BGP maršrutai, dėl kurių į Atlantą buvo nukreiptas srautas, nukreiptas į kitus magistralinius tinklus, o tai lėmė maršrutizatoriaus perkrovą ir dalies tinklo žlugimą.

Dėl BGP konfigūracijos klaidos „Cloudflare“ sugenda 27 minutes

Siekiant, kad panašūs incidentai nepasikartotų ateityje, pirmadienį planuojama atlikti keletą „Cloudflare“ pagrindinių nustatymų pakeitimų. BGP seansams bus pridėtas maksimalaus priešdėlių skaičiaus apribojimas (maksimalus prefiksas), kuris blokuos probleminį pagrindą, jei per jį nukreipiama per daug priešdėlių. Jei šis apribojimas būtų buvęs įtrauktas anksčiau, dėl aptariamos problemos Atlantoje būtų išjungtas stuburas, tačiau tai neturėtų įtakos viso tinklo veikimui, nes „Cloudflare“ tinklas sukurtas taip, kad sugestų atskiri magistraliniai tinklai. Tarp jau priimtų pakeitimų pažymimas vietinių maršrutų prioritetų (vietinės pirmenybės) peržiūra, kuri neleis vienam maršrutizatoriui daryti įtakos srautui kitose tinklo dalyse.

Šaltinis: opennet.ru

Добавить комментарий