Pogreška konfiguracije BGP-a uzrokuje pad Cloudflarea na 27 minuta

Cloudflare tvrtka, pružanje mreža za isporuku sadržaja za 27 milijuna internetskih izvora i opsluživanje prometa 13% od 1000 najvećih stranica, nepokriveni detalji incidenta, uslijed kojeg je rad mnogih segmenata Cloudflare mreže bio prekinut na 27 minuta, uključujući one koji su odgovorni za isporuku prometa u London, Chicago, Los Angeles, Washington, Amsterdam, Pariz, Moskvu i St. . Problem je uzrokovan netočnom promjenom konfiguracije na Atlanta routeru. Tijekom incidenta, koji se dogodio 17. srpnja od 21:12 do 21:39 (UTC), ukupni volumen prometa na mreži Cloudflare smanjio se za približno 50%.

Pogreška konfiguracije BGP-a uzrokuje pad Cloudflarea na 27 minuta

Tijekom tehničkih radova, želeći ukloniti dio prometa s jedne od okosnica, inženjeri su izbrisali jedan redak u bloku postavki koji definira popis ruta prihvaćenih kroz okosnicu, filtriranih u skladu s navedenim popisom prefiksa. Bilo bi ispravno deaktivirati cijeli blok, ali greškom je izbrisan samo redak s popisom prefiksa.

{master[uredi] atl01# prikaži | usporediti
[uređivanje politika-opcija politika-izjava 6-BBONE-OUT izraz 6-SITE-LOCAL od] ! neaktivan: popis-prefiksa 6-SITE-LOCAL { … }

Blokiraj sadržaj:

od {
popis-prefiksa 6-SITE-LOCAL;
}
zatim {
lokalna preferencija 200;
zajednica dodaj SITE-LOCAL-ROUTE;
dodavanje zajednice ATL01;
zajednica dodaj SJEVERNA AMERIKA;
prihvatiti;
}

Zbog uklanjanja vezanja na listu prefiksa, preostali dio bloka počeo se distribuirati na sve prefikse i usmjerivač je počeo slati sve svoje BGP rute na usmjerivače drugih okosnica. Igrom slučaja, nove rute imale su veći prioritet (local-preference 200) u odnosu na prioritet (100) koji je drugim rutama postavio sustav za automatsku optimizaciju prometa. Kao rezultat toga, umjesto uklanjanja usmjeravanja s okosnice, došlo je do curenja BGP ruta višeg prioriteta, uslijed čega je promet upućen na druge okosnice slao u Atlantu, što je dovelo do preopterećenja routera i kolapsa dijela mreže.

Pogreška konfiguracije BGP-a uzrokuje pad Cloudflarea na 27 minuta

Kako bi se spriječilo da se slični incidenti pojave u budućnosti, u ponedjeljak se planira napraviti nekoliko promjena u postavkama okosnice Cloudflarea. Dodat će se ograničenje maksimalnog broja prefiksa (maximum-prefix) za BGP sesije, što će blokirati problematičnu okosnicu ako se preko nje usmjeri previše prefiksa. Da je ovo ograničenje dodano ranije, dotični problem bi doveo do gašenja okosnice u Atlanti, ali ne bi utjecao na rad cijele mreže, budući da je Cloudflare mreža dizajnirana tako da dopušta kvarove pojedinačnih okosnica. Među već usvojenim promjenama ističe se revizija prioriteta (local-preference) za lokalne rute, koja neće dopustiti da jedan router utječe na promet u drugim dijelovima mreže.

Izvor: opennet.ru

Dodajte komentar