A BGP konfigurációs hiba miatt a Cloudflare 27 percig összeomlik

Cloudflare cég, gondoskodás tartalomszolgáltató hálózat 27 millió internetes forrás számára, és az 13 legnagyobb webhely 1000%-ának forgalmát szolgálja ki, fedetlen részletek az incidensről, amelynek következtében a Cloudflare hálózat számos szegmensének munkája 27 percre megszakadt, köztük a London, Chicago, Los Angeles, Washington, Amszterdam, Párizs, Moszkva és Szentpétervár forgalmának továbbításáért felelős személyeknél. . A problémát az Atlanta útválasztó helytelen konfigurációs módosítása okozta. A július 17-én 21:12 és 21:39 között (UTC) történt incidens során a Cloudflare hálózat teljes forgalmi volumene megközelítőleg 50%-kal csökkent.

 A BGP konfigurációs hiba miatt a Cloudflare 27 percig összeomlik

A műszaki munka során, a forgalom egy részét az egyik gerinchálózatról eltávolítani akarták, a mérnökök töröltek egy sort a beállítási blokkban, amely a gerinchálózaton keresztül elfogadott útvonalak listáját határozza meg, a megadott előtaglista szerint szűrve. Helyes lett volna a teljes blokkot deaktiválni, de véletlenül csak az előtagok listáját tartalmazó sort törölték.

{mester}[szerkesztés] atl01# show | összehasonlítani
[szerkessze a házirend-opciók házirend-nyilatkozatát a 6-BBONE-OUT 6-SITE-LOCAL lekérdezésből] ! inaktív: prefix-list 6-SITE-LOCAL { … }

Tartalom letiltása:

tól től {
prefix-list 6-SITE-LOCAL;
}
akkor {
helyi preferencia 200;
közösségi hozzáadása SITE-LOCAL-ROUTE;
közösségi hozzáadása ATL01;
közösség hozzáadása ÉSZAK-AMERIKA;
elfogad;
}

Az előtagok listájához való kötődés eltávolítása miatt a blokk fennmaradó részét elkezdték elosztani az összes előtaghoz, és az útválasztó elkezdte elküldeni az összes BGP-útvonalát más gerinchálózatok útválasztóinak. Az új útvonalak véletlenül magasabb prioritást kaptak (200-as helyi preferencia), mint az automatikus forgalomoptimalizáló rendszer által a többi útvonalra beállított prioritás (100). Ennek eredményeként ahelyett, hogy a gerinchálózatból eltávolították volna az útválasztást, magasabb prioritású BGP-útvonalak szivárogtak ki, aminek következtében a többi gerinchálózathoz címzett forgalom Atlantába érkezett, ami a router túlterheléséhez és a hálózat egy részének összeomlásához vezetett.

 A BGP konfigurációs hiba miatt a Cloudflare 27 percig összeomlik

Annak érdekében, hogy a jövőben ne fordulhassanak elő hasonló esetek, hétfőn több változtatást is terveznek a Cloudflare gerincbeállításaiban. Az előtagok maximális számának korlátozása (maximum-prefix) lesz hozzáadva a BGP-munkamenetekhez, ami blokkolja a problémás gerinchálózatot, ha túl sok előtagot irányítanak át rajta. Ha ezt a korlátozást korábban hozzáadták volna, a kérdéses probléma az atlantai gerinchálózat leállásához vezetett volna, de nem befolyásolta volna a teljes hálózat működését, mivel a Cloudflare hálózatot úgy tervezték, hogy lehetővé tegye az egyes gerinchálózatok meghibásodását. A már elfogadott változtatások között szerepel a helyi útvonalak prioritásainak (helyi preferencia) felülvizsgálata, amely nem teszi lehetővé, hogy egy router befolyásolja a hálózat más részein a forgalmat.

Forrás: opennet.ru

Hozzászólás