Napaka v konfiguraciji BGP povzroči, da se Cloudflare zruši za 27 minut

Podjetje Cloudflare, zagotavljanje omrežje za dostavo vsebin za 27 milijonov internetnih virov in služi prometu 13 % od 1000 največjih spletnih mest, nepokrit podrobnosti incidenta, zaradi katerega je bilo za 27 minut moteno delo številnih segmentov omrežja Cloudflare, vključno s tistimi, ki so odgovorni za dostavo prometa v London, Chicago, Los Angeles, Washington, Amsterdam, Pariz, Moskvo in St. . Težavo je povzročila nepravilna sprememba konfiguracije na usmerjevalniku Atlanta. Med incidentom, ki se je zgodil 17. julija od 21 do 12 (UTC), se je skupni obseg prometa v omrežju Cloudflare zmanjšal za približno 21 %.

Napaka v konfiguraciji BGP povzroči, da se Cloudflare zruši za 27 minut

Med tehničnim delom so inženirji v želji odstraniti del prometa iz ene od hrbtenic izbrisali eno vrstico v bloku nastavitev, ki določa seznam poti, sprejetih skozi hrbtenico, filtriranih v skladu z določenim seznamom predpon. Pravilno bi bilo deaktivirati celoten blok, vendar je bila po pomoti izbrisana samo vrstica s seznamom predpon.

{master[uredi] atl01# pokaži | primerjati
[uredi politiko-možnosti politike-izjave 6-BBONE-OUT izraz 6-SITE-LOCAL od] ! neaktiven: prefix-list 6-SITE-LOCAL { … }

Blokiraj vsebino:

od {
seznam predpon 6-SITE-LOCAL;
}
nato {
lokalna prednost 200;
skupnost dodaj SITE-LOCAL-ROUTE;
skupnost dodaj ATL01;
skupnost dodaj SEVERNA AMERIKA;
sprejeti;
}

Zaradi odstranitve vezave na seznam predpon se je preostali del bloka začel razdeljevati na vse predpone in usmerjevalnik je začel vse svoje BGP poti pošiljati na usmerjevalnike drugih hrbtenic. Po naključju so nove poti imele višjo prednost (local-preference 200) v primerjavi s prioriteto (100), ki jo je za druge poti nastavil sistem za samodejno optimizacijo prometa. Posledično je namesto odstranitve usmerjanja iz hrbtenice prišlo do uhajanja BGP poti višje prioritete, zaradi česar je bil promet, naslovljen na druge hrbtenice, poslan v Atlanto, kar je povzročilo preobremenitev usmerjevalnika in propad dela omrežja.

Napaka v konfiguraciji BGP povzroči, da se Cloudflare zruši za 27 minut

Da bi preprečili podobne incidente v prihodnosti, je v ponedeljek načrtovanih več sprememb v hrbteničnih nastavitvah Cloudflare. Dodana bo omejitev največjega števila predpon (maximum-prefix) za seje BGP, ki bo blokirala problematično hrbtenico, če bo prek nje usmerjenih preveč predpon. Če bi bila ta omejitev dodana prej, bi zadevna težava povzročila zaustavitev hrbtenice v Atlanti, vendar ne bi vplivala na delovanje celotnega omrežja, saj je omrežje Cloudflare zasnovano tako, da omogoča odpoved posameznih hrbtenic. Med že sprejetimi spremembami je omenjena revizija prioritet (local-preference) za lokalne poti, ki enemu usmerjevalniku ne bo omogočala vplivanja na promet v drugih delih omrežja.

Vir: opennet.ru

Dodaj komentar