Грешката во конфигурацијата на BGP предизвикува Cloudflare да падне 27 минути

Компанијата Cloudflare, обезбедување мрежа за испорака на содржина за 27 милиони интернет ресурси и опслужување на сообраќајот на 13% од 1000-те најголеми сајтови, непокриен детали за инцидентот, како резултат на кој работата на многу сегменти од мрежата Cloudflare беше нарушена 27 минути, вклучително и оние кои се одговорни за испорака на сообраќај до Лондон, Чикаго, Лос Анџелес, Вашингтон, Амстердам, Париз, Москва и Санкт Петербург . Проблемот беше предизвикан од неправилна промена на конфигурацијата на рутерот во Атланта. За време на инцидентот, кој се случи на 17 јули од 21:12 до 21:39 (UTC), вкупниот обем на сообраќај на мрежата Cloudflare се намали за приближно 50%.

Грешката во конфигурацијата на BGP предизвикува Cloudflare да падне 27 минути

За време на техничката работа, сакајќи да отстранат дел од сообраќајот од еден од столбовите, инженерите избришаа една линија во блокот за поставки што ја дефинира листата на правци прифатени преку столбот, филтрирани во согласност со наведената листа на префикси. Ќе беше точно да се деактивира целиот блок, но по грешка беше избришана само линијата со списокот со префикси.

{мајстор[уреди] atl01# шоу | спореди
[уреди политика-опции-изјава за политика 6-BBONE-OUT термин 6-SITE-LOCAL од] ! неактивни: префикс-листа 6-SITE-LOCAL { … }

Блокирај содржина:

од {
префикс-листа 6-САЈТО-ЛОКАЛНО;
}
тогаш {
локално-преференци 200;
заедница додадете SITE-LOCAL-ROUTE;
заедница додадете ATL01;
заедница додадете СЕВЕР-АМЕРИКА;
прифати;
}

Поради отстранувањето на врзувањето за списокот со префикси, преостанатиот дел од блокот почна да се дистрибуира до сите префикси и рутерот почна да ги испраќа сите свои BGP рути до рутери од други столбови. Случајно, новите рути имаа поголем приоритет (локално-преференци 200) во споредба со приоритетот (100) поставен за другите правци од системот за автоматска оптимизација на сообраќајот. Како резултат на тоа, наместо да се отстрани рутирањето од 'рбетот, протекоа маршрути со повисок приоритет BGP, како резултат на што сообраќајот адресиран до други столбови беше испратен во Атланта, што доведе до преоптоварување на рутерот и колапс на дел од мрежата.

Грешката во конфигурацијата на BGP предизвикува Cloudflare да падне 27 минути

Со цел да се спречат слични инциденти да се случат во иднина, во понеделник се планирани да се направат неколку промени во поставките за backbon на Cloudflare. За BGP сесиите ќе се додаде ограничување на максималниот број префикси (maximum-prefix), што ќе го блокира проблематичниот 'рбет ако преку него се пренасочат премногу префикси. Ако ова ограничување беше додадено порано, проблемот за кој станува збор ќе доведеше до исклучување на 'рбетот во Атланта, но немаше да влијае на работата на целата мрежа, бидејќи мрежата Cloudflare е дизајнирана да дозволи поединечни 'рбетни столбови да откажат. Помеѓу веќе усвоените измени, забележана е ревизија на приоритетите (локално-преференци) за локалните рути, што нема да дозволи еден рутер да влијае на сообраќајот во другите делови на мрежата.

Извор: opennet.ru

Додадете коментар