Памылка пры наладзе BGP прывяла да 27-хвіліннага збою ў працы Cloudflare

Кампанія Cloudflare, якая прадстаўляе сетка дастаўкі кантэнту для 27 млн ​​інтэрнэт-рэсурсаў і абслуговая трафік 13% з 1000 найбуйных сайтаў, раскрыла падрабязнасці інцыдэнту, у выніку якога на працягу 27 хвілін была парушана праца шматлікіх сегментаў сеткі Cloudflare, у тым ліку якія адказваюць за дастаўку трафіку ў Лондан, Чыкага, Лос-Анджэлес, Вашынгтон, Амстэрдам, Парыж, Маскву і Санкт-Пецярбург. Праблема была выклікана няправільнай зменай канфігурацыі на маршрутызатары ў Атланце. Падчас інцыдэнту, які адбыўся 17 ліпеня з 21:12 па 21:39 (UTC), агульны аб'ём трафіку ў сетцы Cloudflare знізіўся прыкладна на 50%.

Памылка пры наладзе BGP прывяла да 27-хвіліннага збою ў працы Cloudflare

Падчас правядзенні тэхнічных прац, жадаючы зняць частку трафіку з аднаго з бэкбонаў, інжынеры выдалілі адзін радок у блоку налад, вызначальным спіс прыманых праз бэкбон маршрутаў, якія фільтруюцца ў адпаведнасці з паказаным спісам прэфіксаў. Правільным было б дэактываваць увесь блок, але па памылцы быў толькі выдалены радок са спісам прэфіксаў.

{master}[edit] atl01# show | compare
[edit policy-options policy-statement 6-BBONE-OUT 6-SITE-LOCAL from] ! inactive: prefix-list 6-SITE-LOCAL { … }

Змесціва блока:

ад {
prefix-list 6-SITE-LOCAL;
}
then {
local-preference 200;
community add SITE-LOCAL-ROUTE;
community add ATL01;
community add NORTH-AMERICA;
accept;
}

З-за выдалення прывязкі да спісу прэфіксаў частка блока, якая засталася, стала распаўсюджвацца на ўсе прэфіксы і маршрутызатар стаў рассылаць усе свае BGP-маршруты маршрутызатарам іншых бэкбонаў. Па збегу абставін новыя маршруты мелі больш высокі прыярытэт (local-preference 200) у параўнанні з прыярытэтам (100), выстаўленым для іншых маршрутаў аўтаматычнай сістэмай аптымізацыі трафіку. У выніку замест выдалення маршрутызацыі з бэкбона адбылася ўцечка больш прыярытэтных BGP-маршрутаў, у выніку якой трафік, адрасаваны іншым бэкбонам, накіраваўся ў Атланту, што прывяло да перагрузкі маршрутызатара і калапсу часткі сеткі.

Памылка пры наладзе BGP прывяла да 27-хвіліннага збою ў працы Cloudflare

Для таго каб выключыць узнікненне падобных інцыдэнтаў у будучыні ў панядзелак плануецца ўнесці некалькі змен у налады бэкбонаў Cloudflare. Для BGP-сеансаў будзе дададзена абмежаванне на максімальную колькасць прэфіксаў (maximum-prefix), якое будзе блакаваць праблемны бэкбон у выпадку накіравання праз яго занадта вялікай колькасці прэфіксаў. Калі б дадзенае абмежаванне было дададзена раней, то разгляданая праблема прывяла б да адключэння бэкбона ў Атланце, але не адбілася на працы ўсёй сеткі, бо сетка Cloudflare разлічана на магчымасць выхаду са строю асобных бэкбонаў. З ужо прынятых зменаў адзначаецца перагляд прыярытэтаў (local-preference) для лакальных маршрутаў, які не дазволіць аднаму маршрутызатару ўплываць на трафік у іншых частках сеткі.

Крыніца: opennet.ru

Дадаць каментар