Ralat konfigurasi BGP menyebabkan Cloudflare ranap selama 27 minit

Syarikat Cloudflare, menyediakan rangkaian penghantaran kandungan untuk 27 juta sumber Internet dan melayani trafik 13% daripada 1000 tapak terbesar, terbongkar butiran kejadian, akibatnya kerja banyak segmen rangkaian Cloudflare telah terganggu selama 27 minit, termasuk mereka yang bertanggungjawab menghantar trafik ke London, Chicago, Los Angeles, Washington, Amsterdam, Paris, Moscow dan St. Petersburg . Masalahnya disebabkan oleh perubahan konfigurasi yang salah pada penghala Atlanta. Semasa kejadian, yang berlaku pada 17 Julai dari 21:12 hingga 21:39 (UTC), jumlah volum trafik pada rangkaian Cloudflare menurun kira-kira 50%.

Ralat konfigurasi BGP menyebabkan Cloudflare ranap selama 27 minit

Semasa kerja teknikal, ingin mengalih keluar sebahagian trafik dari salah satu tulang belakang, jurutera memadamkan satu baris dalam blok tetapan yang mentakrifkan senarai laluan yang diterima melalui tulang belakang, ditapis mengikut senarai awalan yang ditentukan. Adalah betul untuk menyahaktifkan keseluruhan blok, tetapi secara tidak sengaja hanya baris dengan senarai awalan telah dipadamkan.

{master}[edit] atl01# rancangan | bandingkan
[edit dasar-pilihan-kenyataan-dasar 6-BBONE-OUT penggal 6-TAPAK-TEMPATAN daripada] ! tidak aktif: prefix-list 6-SITE-LOCAL { … }

Sekat kandungan:

daripada {
senarai awalan 6-TAPAK-TEMPATAN;
}
kemudian {
pilihan tempatan 200;
komuniti tambah LALUAN TAPAK-TEMPATAN;
komuniti menambah ATL01;
komuniti tambah UTARA-AMERIKA;
terima;
}

Disebabkan penyingkiran pengikatan pada senarai awalan, baki bahagian blok mula diedarkan kepada semua awalan dan penghala mula menghantar semua laluan BGPnya ke penghala tulang belakang lain. Secara kebetulan, laluan baharu mempunyai keutamaan yang lebih tinggi (keutamaan tempatan 200) berbanding keutamaan (100) yang ditetapkan untuk laluan lain oleh sistem pengoptimuman trafik automatik. Akibatnya, daripada mengalih keluar penghalaan dari tulang belakang, laluan BGP keutamaan yang lebih tinggi telah dibocorkan, akibatnya lalu lintas yang dialamatkan ke tulang belakang lain dihantar ke Atlanta, yang menyebabkan beban berlebihan penghala dan keruntuhan sebahagian rangkaian.

Ralat konfigurasi BGP menyebabkan Cloudflare ranap selama 27 minit

Bagi mengelakkan kejadian serupa daripada berlaku pada masa hadapan, beberapa perubahan dirancang untuk dibuat pada tetapan backbon Cloudflare pada hari Isnin. Had bilangan awalan maksimum (awalan-maksimum) akan ditambahkan untuk sesi BGP, yang akan menyekat tulang belakang yang bermasalah jika terlalu banyak awalan dihalakan melaluinya. Jika sekatan ini telah ditambah lebih awal, masalah yang dipersoalkan akan membawa kepada penutupan tulang belakang di Atlanta, tetapi tidak akan menjejaskan operasi keseluruhan rangkaian, kerana rangkaian Cloudflare direka untuk membenarkan tulang belakang individu gagal. Antara perubahan yang telah diterima pakai, semakan keutamaan (keutamaan tempatan) untuk laluan tempatan dicatatkan, yang tidak akan membenarkan satu penghala mempengaruhi trafik di bahagian lain rangkaian.

Sumber: opennet.ru

Tambah komen