Lỗi cấu hình BGP khiến Cloudflare bị treo trong 27 phút

Công ty đám mây, cung cấp mạng phân phối nội dung cho 27 triệu tài nguyên Internet và phục vụ lưu lượng truy cập của 13% trong số 1000 trang web lớn nhất, không che đậy chi tiết về vụ việc, do đó công việc của nhiều phân đoạn của mạng Cloudflare bị gián đoạn trong 27 phút, bao gồm cả những phân đoạn chịu trách nhiệm phân phối lưu lượng truy cập đến London, Chicago, Los Angeles, Washington, Amsterdam, Paris, Moscow và St. . Sự cố xảy ra do thay đổi cấu hình không chính xác trên bộ định tuyến Atlanta. Trong sự cố xảy ra vào ngày 17 tháng 21 từ 12:21 đến 39:50 (UTC), tổng lưu lượng truy cập trên mạng Cloudflare đã giảm khoảng XNUMX%.

Lỗi cấu hình BGP khiến Cloudflare bị treo trong 27 phút

Trong quá trình làm việc kỹ thuật, muốn loại bỏ một phần lưu lượng truy cập khỏi một trong các đường trục, các kỹ sư đã xóa một dòng trong khối cài đặt xác định danh sách các tuyến được chấp nhận qua đường trục, được lọc theo danh sách tiền tố đã chỉ định. Việc hủy kích hoạt toàn bộ khối là đúng, nhưng do nhầm lẫn, chỉ có dòng có danh sách tiền tố bị xóa.

{master[sửa] atl01# hiển thị | so sánh
[sửa chính sách-tùy chọn chính sách-tuyên bố 6-BBONE-OUT thuật ngữ 6-SITE-LOCAL từ] ! không hoạt động: danh sách tiền tố 6-SITE-LOCAL { … }

Chặn nội dung:

từ {
danh sách tiền tố 6-SITE-LOCAL;
}
sau đó {
ưu tiên địa phương 200;
cộng đồng thêm SITE-LOCAL-ROUTE;
cộng đồng thêm ATL01;
cộng đồng thêm BẮC-Mỹ;
Chấp nhận;
}

Do việc loại bỏ liên kết với danh sách các tiền tố, phần còn lại của khối bắt đầu được phân phối cho tất cả các tiền tố và bộ định tuyến bắt đầu gửi tất cả các tuyến BGP của nó đến các bộ định tuyến của các đường trục khác. Thật trùng hợp, các tuyến đường mới có mức độ ưu tiên cao hơn (ưu tiên cục bộ 200) so với mức độ ưu tiên (100) do hệ thống tối ưu hóa giao thông tự động đặt cho các tuyến đường khác. Kết quả là, thay vì loại bỏ định tuyến khỏi đường trục, các tuyến BGP có mức ưu tiên cao hơn đã bị rò rỉ, do đó lưu lượng truy cập đến các đường trục khác đã được gửi đến Atlanta, dẫn đến tình trạng quá tải của bộ định tuyến và sự cố một phần mạng.

Lỗi cấu hình BGP khiến Cloudflare bị treo trong 27 phút

Để ngăn chặn những sự cố tương tự xảy ra trong tương lai, một số thay đổi dự kiến ​​sẽ được thực hiện đối với cài đặt nền tảng của Cloudflare vào thứ Hai. Giới hạn về số lượng tiền tố tối đa (tiền tố tối đa) sẽ được thêm vào cho các phiên BGP, điều này sẽ chặn đường trục có vấn đề nếu có quá nhiều tiền tố được định tuyến qua nó. Nếu hạn chế này được thêm vào trước đó, thì sự cố được đề cập sẽ dẫn đến việc ngừng hoạt động đường trục ở Atlanta, nhưng sẽ không ảnh hưởng đến hoạt động của toàn bộ mạng vì mạng Cloudflare được thiết kế để cho phép các đường trục riêng lẻ bị lỗi. Trong số những thay đổi đã được thông qua, có một bản sửa đổi về mức độ ưu tiên (ưu tiên cục bộ) cho các tuyến cục bộ, điều này sẽ không cho phép một bộ định tuyến ảnh hưởng đến lưu lượng truy cập trong các phần khác của mạng.

Nguồn: opennet.ru

Thêm một lời nhận xét