BGP konfigurācijas kļūdas dēļ Cloudflare avarē 27 minūtes

Uzņēmums Cloudflare, nodrošinot satura piegādes tīkls 27 miljoniem interneta resursu un apkalpo 13% no 1000 lielākajām vietnēm, bez pārklājuma sīkāka informācija par incidentu, kā rezultātā uz 27 minūtēm tika traucēts darbs daudzos Cloudflare tīkla segmentos, tostarp tiem, kas atbildīgi par satiksmes nodrošināšanu uz Londonu, Čikāgu, Losandželosu, Vašingtonu, Amsterdamu, Parīzi, Maskavu un Sanktpēterburgu. . Problēmu izraisīja nepareiza konfigurācijas maiņa Atlantas maršrutētājā. Incidenta laikā, kas notika 17.jūlijā no plkst.21 līdz 12 (UTC), kopējais satiksmes apjoms Cloudflare tīklā samazinājies par aptuveni 21%.

BGP konfigurācijas kļūdas dēļ Cloudflare avarē 27 minūtes

Tehniskā darba laikā, vēloties noņemt daļu satiksmes no viena no mugurkauliem, inženieri izdzēsa vienu rindiņu iestatījumu blokā, kas nosaka caur mugurkaulu pieņemto maršrutu sarakstu, kas filtrēts atbilstoši norādītajam prefiksu sarakstam. Būtu pareizi deaktivizēt visu bloku, taču kļūdas dēļ tika izdzēsta tikai rinda ar prefiksu sarakstu.

{master}[rediģēt] atl01# rādīt | salīdzināt
[rediģēt politika-opcijas politikas paziņojums 6-BBONE-OUT termins 6-SITE-LOCAL no] ! neaktīvs: prefiksu saraksts 6-SITE-LOCAL { … }

Bloķēt saturu:

no {
prefiksu saraksts 6-SITE-LOCAL;
}
tad {
vietējā-preference 200;
kopiena pievienot SITE-LOCAL-ROUTE;
kopienas pievienošana ATL01;
kopiena pievienot Ziemeļameriku;
pieņemt;
}

Tā kā prefiksu saraksta saistība tika noņemta, atlikušo bloka daļu sāka izplatīt visiem prefiksiem, un maršrutētājs sāka sūtīt visus savus BGP maršrutus citu mugurkaulu maršrutētājiem. Sakritības dēļ jaunajiem maršrutiem bija augstāka prioritāte (vietējā-preference 200), salīdzinot ar automātiskās satiksmes optimizācijas sistēmas noteikto prioritāti (100) citiem maršrutiem. Rezultātā tā vietā, lai noņemtu maršrutēšanu no mugurkaula, tika nopludināti augstākas prioritātes BGP maršruti, kā rezultātā citiem mugurkauliem adresēta trafika tika nosūtīta uz Atlantu, kas izraisīja maršrutētāja pārslodzi un daļas tīkla sabrukumu.

BGP konfigurācijas kļūdas dēļ Cloudflare avarē 27 minūtes

Lai novērstu līdzīgu incidentu atkārtošanos nākotnē, pirmdien plānots veikt vairākas izmaiņas Cloudflare mugurkaula iestatījumos. BGP sesijām tiks pievienots maksimālā prefiksu skaita ierobežojums (maksimālais prefikss), kas bloķēs problemātisku mugurkaulu, ja caur to tiks novirzīts pārāk daudz prefiksu. Ja šis ierobežojums būtu pievienots agrāk, attiecīgā problēma būtu izraisījusi mugurkaula izslēgšanu Atlantā, taču tā nebūtu ietekmējusi visa tīkla darbību, jo Cloudflare tīkls ir paredzēts, lai ļautu atsevišķiem mugurkauliem nedarboties. Starp jau pieņemtajām izmaiņām tiek atzīmēta vietējo maršrutu prioritāšu pārskatīšana (vietējā izvēle), kas neļaus vienam maršrutētājam ietekmēt satiksmi citās tīkla daļās.

Avots: opennet.ru

Pievieno komentāru