Cloudflare cég, tartalomszolgáltató hálózat 27 millió internetes forrás számára, és az 13 legnagyobb webhely 1000%-ának forgalmát szolgálja ki, részletek az incidensről, amelynek következtében a Cloudflare hálózat számos szegmensének munkája 27 percre megszakadt, köztük a London, Chicago, Los Angeles, Washington, Amszterdam, Párizs, Moszkva és Szentpétervár forgalmának továbbításáért felelős személyeknél. . A problémát az Atlanta útválasztó helytelen konfigurációs módosítása okozta. A július 17-én 21:12 és 21:39 között (UTC) történt incidens során a Cloudflare hálózat teljes forgalmi volumene megközelítőleg 50%-kal csökkent.
A műszaki munka során, a forgalom egy részét az egyik gerinchálózatról eltávolítani akarták, a mérnökök töröltek egy sort a beállítási blokkban, amely a gerinchálózaton keresztül elfogadott útvonalak listáját határozza meg, a megadott előtaglista szerint szűrve. Helyes lett volna a teljes blokkot deaktiválni, de véletlenül csak az előtagok listáját tartalmazó sort törölték.
{mester}[szerkesztés] atl01# show | összehasonlítani
[szerkessze a házirend-opciók házirend-nyilatkozatát a 6-BBONE-OUT 6-SITE-LOCAL lekérdezésből] ! inaktív: prefix-list 6-SITE-LOCAL { … }
Tartalom letiltása:
tól től {
prefix-list 6-SITE-LOCAL;
}
akkor {
helyi preferencia 200;
közösségi hozzáadása SITE-LOCAL-ROUTE;
közösségi hozzáadása ATL01;
közösség hozzáadása ÉSZAK-AMERIKA;
elfogad;
}
Az előtagok listájához való kötődés eltávolítása miatt a blokk fennmaradó részét elkezdték elosztani az összes előtaghoz, és az útválasztó elkezdte elküldeni az összes BGP-útvonalát más gerinchálózatok útválasztóinak. Az új útvonalak véletlenül magasabb prioritást kaptak (200-as helyi preferencia), mint az automatikus forgalomoptimalizáló rendszer által a többi útvonalra beállított prioritás (100). Ennek eredményeként ahelyett, hogy a gerinchálózatból eltávolították volna az útválasztást, magasabb prioritású BGP-útvonalak szivárogtak ki, aminek következtében a többi gerinchálózathoz címzett forgalom Atlantába érkezett, ami a router túlterheléséhez és a hálózat egy részének összeomlásához vezetett.
Annak érdekében, hogy a jövőben ne fordulhassanak elő hasonló esetek, hétfőn több változtatást is terveznek a Cloudflare gerincbeállításaiban. Az előtagok maximális számának korlátozása (maximum-prefix) lesz hozzáadva a BGP-munkamenetekhez, ami blokkolja a problémás gerinchálózatot, ha túl sok előtagot irányítanak át rajta. Ha ezt a korlátozást korábban hozzáadták volna, a kérdéses probléma az atlantai gerinchálózat leállásához vezetett volna, de nem befolyásolta volna a teljes hálózat működését, mivel a Cloudflare hálózatot úgy tervezték, hogy lehetővé tegye az egyes gerinchálózatok meghibásodását. A már elfogadott változtatások között szerepel a helyi útvonalak prioritásainak (helyi preferencia) felülvizsgálata, amely nem teszi lehetővé, hogy egy router befolyásolja a hálózat más részein a forgalmat.
Forrás: opennet.ru
