BGP-agorda eraro igas Cloudflare kraŝi dum 27 minutoj

Firmao Cloudflare, havigante enhavlivera reto por 27 milionoj da Interretaj rimedoj kaj servanta la trafikon de 13% de la 1000 plej grandaj retejoj, malkovrita detaloj de la okazaĵo, kiel rezulto de kiuj la laboro de multaj segmentoj de la reto Cloudflare estis interrompita dum 27 minutoj, inkluzive de tiuj, kiuj respondecas pri liverado de trafiko al Londono, Ĉikago, Los-Anĝeleso, Vaŝingtono, Amsterdamo, Parizo, Moskvo kaj Sankt-Peterburgo. . La problemo estis kaŭzita de malĝusta agorda ŝanĝo sur la Atlanta enkursigilo. Dum la okazaĵo, kiu okazis la 17-an de julio de 21:12 ĝis 21:39 (UTC), la totala trafiko en la reto Cloudflare malpliiĝis je proksimume 50%.

BGP-agorda eraro igas Cloudflare kraŝi dum 27 minutoj

Dum la teknika laboro, volante forigi parton de la trafiko de unu el la spinoj, inĝenieroj forigis unu linion en la agorda bloko, kiu difinas la liston de itineroj akceptitaj tra la spino, filtrita laŭ la specifita listo de prefiksoj. Estus ĝuste malaktivigi la tutan blokon, sed erare nur la linio kun la listo de prefiksoj estis forigita.

{majstro}[redakti] atl01# montri | komparu
[redaktu policy-options policy-deklaro 6-BBONE-OUT termino 6-SITE-LOCAL de] ! neaktiva: prefiks-listo 6-EJA-LOKA { … }

Bloki enhavon:

de {
prefikso-listo 6-REJO-LOKA;
}
tiam {
loka-prefero 200;
komunumo aldoni SITE-LOCAL-ROUTE;
komunumo aldoni ATL01;
komunumo aldoni NORD-AMERIKO;
akcepti;
}

Pro la forigo de la ligado al la listo de prefiksoj, la restanta parto de la bloko komencis esti distribuita al ĉiuj prefiksoj kaj la enkursigilo komencis sendi ĉiujn siajn BGP-itinerojn al enkursigiloj de aliaj spinoj. De koincido, la novaj itineroj havis pli altan prioritaton (loka-prefero 200) komparite kun la prioritato (100) metita por aliaj itineroj per la aŭtomata trafikoptimumigsistemo. Kiel rezulto, anstataŭe de forigado de vojigo de la spino, pli alta prioritato BGP-itineroj estis likitaj, kiel rezulto de kiu trafiko adresita al aliaj spinoj estis sendita al Atlanta, kiu kaŭzis troŝarĝon de la enkursigilo kaj la kolapson de parto de la reto.

BGP-agorda eraro igas Cloudflare kraŝi dum 27 minutoj

Por malhelpi similajn okazaĵojn okazi en la estonteco, pluraj ŝanĝoj estas planitaj fari al la spinaj agordoj de Cloudflare lundon. Limo al la maksimuma nombro da prefiksoj (maksimuma-prefikso) estos aldonita por BGP-sesioj, kiu blokos probleman spinon se tro da prefiksoj estas ensenditaj tra ĝi. Se ĉi tiu limigo estus aldonita pli frue, la koncerna problemo kondukus al la haltigo de la spino en Atlanta, sed ne tuŝus la funkciadon de la tuta reto, ĉar la reto Cloudflare estas desegnita por permesi al individuaj spinoj malsukcesi. Inter la ŝanĝoj jam adoptitaj, oni rimarkas revizion de prioritatoj (loka-prefero) por lokaj itineroj, kiu ne permesos al unu enkursigilo influi trafikon en aliaj partoj de la reto.

fonto: opennet.ru

Aldoni komenton