Помилка при налаштуванні BGP призвела до 27-хвилинного збою в роботі Cloudflare

Компанія Cloudflare, надає мережа доставки контенту для 27 млн ​​інтернет-ресурсів та обслуговуюча трафік 13% з 1000 найбільших сайтів, розкрила подробиці інциденту, внаслідок якого протягом 27 хвилин було порушено роботу багатьох сегментів мережі Cloudflare, у тому числі відповідальних за доставку трафіку до Лондона, Чикаго, Лос-Анджелеса, Вашингтона, Амстердама, Парижа, Москви та Санкт-Петербурга. Проблема була викликана неправильною зміною конфігурації на маршрутизаторі в Атланті. Під час інциденту, який стався 17 липня з 21:12 до 21:39 (UTC), загальний обсяг трафіку в мережі Cloudflare знизився приблизно на 50%.

Помилка при налаштуванні BGP призвела до 27-хвилинного збою в роботі Cloudflare

У процесі проведення технічних робіт, бажаючи зняти частину трафіку з одного з бекбонів, інженери видалили один рядок у блоці налаштувань, що визначає список маршрутів, що приймаються через бекбон, що фільтруються відповідно до зазначеного списку префіксів. Правильним було б деактивувати весь блок, але помилково було лише видалено рядок зі списком префіксів.

{master}[edit] atl01# show | compare
[edit policy-options policy-statement 6-BBONE-OUT 6-SITE-LOCAL from] ! inactive: prefix-list 6-SITE-LOCAL { … }

Вміст блоку:

від {
prefix-list 6-SITE-LOCAL;
}
тоді {
local-preference 200;
community add SITE-LOCAL-ROUTE;
community add ATL01;
community add NORTH-AMERICA;
прийняти;
}

Через видалення прив'язки до списку префіксів частина блоку, що залишилася, стала поширюватися на всі префікси і маршрутизатор став розсилати всі свої BGP-маршрути маршрутизаторам інших бекбонів. За збігом обставин нові маршрути мали більший пріоритет (local-preference 200) порівняно з пріоритетом (100), виставленим для інших маршрутів автоматичною системою оптимізації трафіку. У результаті замість видалення маршрутизації з бекбона стався витік більш пріоритетних BGP-маршрутів, внаслідок якого трафік, адресований іншим бекбонам, попрямував до Атланти, що призвело до перевантаження маршрутизатора та колапсу частини мережі.

Помилка при налаштуванні BGP призвела до 27-хвилинного збою в роботі Cloudflare

Для того щоб унеможливити виникнення подібних інцидентів у майбутньому в понеділок планується внести кілька змін до налаштувань бекбонів Cloudflare. Для BGP-сеансів буде додано обмеження на максимальну кількість префіксів (maximum-prefix), яке блокуватиме проблемний бекбон у разі надсилання через нього занадто великої кількості префіксів. Якби це обмеження було додано раніше, то проблема, що розглядається, призвела б до відключення бекбона в Атланті, але не позначилася на роботі всієї мережі, так як мережа Cloudflare розрахована на можливість виходу з ладу окремих бекбонів. З уже прийнятих змін зазначається перегляд пріоритетів (local-preference) для локальних маршрутів, який дозволить одному маршрутизатору впливатиме на трафік в інших частинах мережі.

Джерело: opennet.ru

Додати коментар або відгук