خطأ في تكوين BGP يتسبب في تعطل Cloudflare لمدة 27 دقيقة

شركة كلاود فلير, توفير شبكة توصيل محتوى لـ 27 مليون من موارد الإنترنت وتخدم حركة مرور 13% من أكبر 1000 موقع، مكشوفة تفاصيل الحادثة التي نتج عنها تعطل عمل العديد من قطاعات شبكة Cloudflare لمدة 27 دقيقة، بما في ذلك تلك المسؤولة عن توصيل حركة المرور إلى لندن وشيكاغو ولوس أنجلوس وواشنطن وأمستردام وباريس وموسكو وسانت بطرسبرغ . سبب المشكلة هو تغيير تكوين غير صحيح على جهاز التوجيه Atlanta. خلال الحادث الذي وقع في 17 يوليو من الساعة 21:12 إلى الساعة 21:39 (التوقيت العالمي المنسق)، انخفض إجمالي حجم حركة المرور على شبكة Cloudflare بنسبة 50٪ تقريبًا.

خطأ في تكوين BGP يتسبب في تعطل Cloudflare لمدة 27 دقيقة

أثناء العمل الفني، ورغبة في إزالة جزء من حركة المرور من أحد العمود الفقري، قام المهندسون بحذف سطر واحد في كتلة الإعدادات التي تحدد قائمة المسارات المقبولة من خلال العمود الفقري، والتي تمت تصفيتها وفقًا لقائمة البادئات المحددة. سيكون من الصحيح إلغاء تنشيط الكتلة بأكملها، ولكن عن طريق الخطأ تم حذف السطر الذي يحتوي على قائمة البادئات فقط.

{ماستر[عدل] عرض atl01# | يقارن
[تحرير بيان سياسة خيارات السياسة 6-BBONE-OUT مصطلح 6-SITE-LOCAL من]! غير نشط: قائمة البادئات 6-SITE-LOCAL { … }

حظر المحتوى:

من {
قائمة البادئات 6-SITE-LOCAL؛
}
ثم {
التفضيل المحلي 200؛
إضافة المجتمع SITE-LOCAL-ROUTE؛
إضافة المجتمع ATL01؛
إضافة المجتمع أمريكا الشمالية؛
يقبل؛
}

نظرًا لإزالة الارتباط بقائمة البادئات، بدأ توزيع الجزء المتبقي من الكتلة على جميع البادئات وبدأ جهاز التوجيه في إرسال جميع مسارات BGP الخاصة به إلى أجهزة التوجيه الخاصة بالعمود الفقري الأخرى. وبالصدفة، كانت للمسارات الجديدة أولوية أعلى (التفضيل المحلي 200) مقارنة بالأولوية (100) المحددة للمسارات الأخرى بواسطة نظام تحسين حركة المرور التلقائي. ونتيجة لذلك، بدلاً من إزالة التوجيه من العمود الفقري، تم تسريب مسارات BGP ذات الأولوية الأعلى، ونتيجة لذلك تم إرسال حركة المرور الموجهة إلى العمود الفقري الأخرى إلى أتلانتا، مما أدى إلى التحميل الزائد على جهاز التوجيه وانهيار جزء من الشبكة.

خطأ في تكوين BGP يتسبب في تعطل Cloudflare لمدة 27 دقيقة

من أجل منع وقوع حوادث مماثلة في المستقبل، من المقرر إجراء العديد من التغييرات على إعدادات العمود الفقري لـ Cloudflare يوم الاثنين. ستتم إضافة حد للحد الأقصى لعدد البادئات (الحد الأقصى للبادئات) لجلسات BGP، مما سيؤدي إلى حظر العمود الفقري الذي به مشكلات إذا تم توجيه عدد كبير جدًا من البادئات عبره. إذا تمت إضافة هذا القيد في وقت سابق، فإن المشكلة المعنية كانت ستؤدي إلى إغلاق العمود الفقري في أتلانتا، لكنها لن تؤثر على تشغيل الشبكة بأكملها، حيث أن شبكة Cloudflare مصممة للسماح للعمود الفقري الفردي بالفشل. من بين التغييرات المعتمدة بالفعل، تمت الإشارة إلى مراجعة الأولويات (التفضيل المحلي) للمسارات المحلية، والتي لن تسمح لجهاز توجيه واحد بالتأثير على حركة المرور في أجزاء أخرى من الشبكة.

المصدر: opennet.ru

إضافة تعليق