Компанія Cloudflare,
У процесі проведення технічних робіт, бажаючи зняти частину трафіку з одного з бекбонів, інженери видалили один рядок у блоці налаштувань, що визначає список маршрутів, що приймаються через бекбон, що фільтруються відповідно до зазначеного списку префіксів. Правильним було б деактивувати весь блок, але помилково було лише видалено рядок зі списком префіксів.
{master}[edit] atl01# show | compare
[edit policy-options policy-statement 6-BBONE-OUT 6-SITE-LOCAL from] ! inactive: prefix-list 6-SITE-LOCAL { … }
Вміст блоку:
від {
prefix-list 6-SITE-LOCAL;
}
тоді {
local-preference 200;
community add SITE-LOCAL-ROUTE;
community add ATL01;
community add NORTH-AMERICA;
прийняти;
}
Через видалення прив'язки до списку префіксів частина блоку, що залишилася, стала поширюватися на всі префікси і маршрутизатор став розсилати всі свої BGP-маршрути маршрутизаторам інших бекбонів. За збігом обставин нові маршрути мали більший пріоритет (local-preference 200) порівняно з пріоритетом (100), виставленим для інших маршрутів автоматичною системою оптимізації трафіку. У результаті замість видалення маршрутизації з бекбона стався витік більш пріоритетних BGP-маршрутів, внаслідок якого трафік, адресований іншим бекбонам, попрямував до Атланти, що призвело до перевантаження маршрутизатора та колапсу частини мережі.
Для того щоб унеможливити виникнення подібних інцидентів у майбутньому в понеділок планується внести кілька змін до налаштувань бекбонів Cloudflare. Для BGP-сеансів буде додано обмеження на максимальну кількість префіксів (maximum-prefix), яке блокуватиме проблемний бекбон у разі надсилання через нього занадто великої кількості префіксів. Якби це обмеження було додано раніше, то проблема, що розглядається, призвела б до відключення бекбона в Атланті, але не позначилася на роботі всієї мережі, так як мережа Cloudflare розрахована на можливість виходу з ладу окремих бекбонів. З уже прийнятих змін зазначається перегляд пріоритетів (local-preference) для локальних маршрутів, який дозволить одному маршрутизатору впливатиме на трафік в інших частинах мережі.
Джерело: opennet.ru