Sự cố lớn ở trung tâm dữ liệu: nguyên nhân và hậu quả

Các trung tâm dữ liệu hiện đại rất đáng tin cậy, nhưng bất kỳ thiết bị nào cũng có lúc bị hỏng. Trong bài viết ngắn này, chúng tôi đã tổng hợp những sự cố quan trọng nhất năm 2018.

Sự cố lớn ở trung tâm dữ liệu: nguyên nhân và hậu quả

Ảnh hưởng của công nghệ kỹ thuật số đối với nền kinh tế ngày càng tăng, khối lượng thông tin được xử lý ngày càng tăng, các cơ sở mới đang được xây dựng và điều này là tốt miễn là mọi thứ đều hoạt động tốt. Thật không may, tác động kinh tế của sự cố trung tâm dữ liệu cũng ngày càng gia tăng kể từ khi mọi người bắt đầu lưu trữ cơ sở hạ tầng CNTT quan trọng trong kinh doanh như một hệ quả tất yếu của quá trình số hóa. Chúng tôi đang xuất bản một tuyển tập nhỏ về những vụ tai nạn đáng chú ý nhất đã xảy ra ở các quốc gia khác nhau trong năm ngoái.

Hoa Kỳ

Đất nước này được công nhận là quốc gia đi đầu trong lĩnh vực xây dựng trung tâm dữ liệu. Hoa Kỳ có số lượng trung tâm dữ liệu thương mại và doanh nghiệp lớn nhất phục vụ các dịch vụ toàn cầu, do đó hậu quả của các sự cố ở đó là đáng kể nhất. Đầu tháng XNUMX, bốn cơ sở của Equinix bị mất điện do lốc xoáy mạnh. Không gian được sử dụng cho thiết bị Amazon Web Services (AWS); vụ tai nạn đã dẫn đến việc không có sẵn nhiều dịch vụ phổ biến: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio và mCapital One, cũng như trợ lý ảo Amazon Alexa, bị ảnh hưởng.

Vào tháng XNUMX, thời tiết bất thường đã tấn công các trung tâm dữ liệu của Microsoft đặt tại Texas, sau đó do giông bão nên hệ thống cấp điện của toàn khu vực bị gián đoạn, trung tâm dữ liệu chuyển sang cấp điện từ tổ máy phát điện diesel, không rõ nguyên nhân. việc làm mát đã tắt. Phải mất vài ngày để loại bỏ hậu quả của vụ tai nạn và mặc dù nhờ cân bằng tải, lỗi này không trở nên nghiêm trọng nhưng người dùng trên toàn thế giới đã nhận thấy sự chậm lại nhẹ trong hoạt động của các dịch vụ đám mây của Microsoft.

Nga

Vụ tai nạn nghiêm trọng nhất xảy ra vào ngày 20/66 tại một trong những trung tâm dữ liệu của Rostelecom. Do đó, các máy chủ của Cơ quan Đăng ký Bất động sản Bang Thống nhất đã ngừng hoạt động trong 3 giờ và do đó chúng phải được chuyển đến một trang web dự phòng. Rosreestr chỉ có thể khôi phục quá trình xử lý các ứng dụng nhận được qua tất cả các kênh vào ngày XNUMX tháng XNUMX - tổ chức chính phủ đang cố gắng thu hồi một số tiền lớn từ Rostelecom vì vi phạm thỏa thuận cấp độ dịch vụ.

Ngày 16/1, do mạng của Lenenergo gặp sự cố nên hệ thống cấp điện dự phòng tại trung tâm dữ liệu Xelnet (St. Petersburg) đã được bật. Sự gián đoạn ngắn hạn của sóng hình sin dẫn đến hoạt động của nhiều dịch vụ bị gián đoạn: đặc biệt, nhà cung cấp đám mây lớn 12cloud bị ảnh hưởng, nhưng vấn đề đáng chú ý nhất đối với khán giả Internet Nga là không thể truy cập trang mạng xã hội VKontakte . Điều thú vị nhất là phải mất khoảng XNUMX giờ đồng hồ mới loại bỏ hoàn toàn hậu quả của sự cố mất điện ngắn hạn.

EU

Một số sự cố nghiêm trọng đã được ghi nhận ở EU vào năm 2018. Hồi tháng 10, trung tâm dữ liệu của hãng hàng không KLM gặp sự cố: nguồn điện bị cắt trong XNUMX phút, nguồn điện của các tổ máy phát điện diesel không đủ để vận hành thiết bị. Một số máy chủ ngừng hoạt động và hãng hàng không phải hủy hoặc dời lại hàng chục chuyến bay.

Đây không phải là sự cố duy nhất liên quan đến du lịch hàng không - vào tháng 5, đã xảy ra sự cố trong hệ thống cung cấp điện của trung tâm dữ liệu Eurocontrol. Tổ chức này kiểm soát chuyển động của máy bay ở Liên minh Châu Âu và trong khi các chuyên gia dành XNUMX giờ để giải quyết hậu quả của vụ tai nạn, hành khách lại phải chịu đựng sự chậm trễ và các chuyến bay bị dời lại.

Những vấn đề rất nghiêm trọng phát sinh do sự cố ở các trung tâm dữ liệu phục vụ lĩnh vực tài chính. Chi phí do gián đoạn giao dịch ở đây thường cao và mức độ tin cậy của cơ sở vật chất ở mức phù hợp nhưng điều này không ngăn ngừa được sự cố. Vào ngày 18 tháng XNUMX, sàn giao dịch chứng khoán NASDAQ Bắc Âu (Helsinki, Phần Lan) không thể giao dịch trên khắp Bắc Âu trong ngày do hệ thống chữa cháy bằng khí kích hoạt trái phép trong trung tâm dữ liệu thương mại DigiPlex đột nhiên bị mất điện.

Vào ngày 7 tháng XNUMX, sự cố ngừng hoạt động của trung tâm dữ liệu đã buộc Sở giao dịch chứng khoán Luân Đôn (LSE) phải trì hoãn việc bắt đầu giao dịch trong một giờ. Ngoài ra, vào tháng XNUMX, tại Châu Âu, do sự cố ở trung tâm dữ liệu, các dịch vụ của hệ thống thanh toán quốc tế VISA đã bị ngừng hoạt động cả ngày và chi tiết về vụ việc không bao giờ được tiết lộ.

sơn mài Nhật

Mùa hè năm 2018, một vụ hỏa hoạn đã xảy ra ở tầng ngầm của một trung tâm dữ liệu Amazon đang được xây dựng ở ngoại ô Tokyo, khiến 5 công nhân thiệt mạng và ít nhất 50 người bị thương. Vụ cháy đã thiêu rụi khoảng 5000 m2 cơ sở. Điều tra cho thấy nguyên nhân vụ cháy là do lỗi của con người: do thao tác bất cẩn với đèn pin axetylen nên lớp cách nhiệt đã bốc cháy.

Lý do thất bại

Danh sách các sự cố trên vẫn chưa đầy đủ; do sự cố ở trung tâm dữ liệu, khách hàng của ngân hàng và nhà khai thác viễn thông bị ảnh hưởng, dịch vụ của nhà cung cấp đám mây không hoạt động và thậm chí công việc của các dịch vụ khẩn cấp cũng bị gián đoạn. Theo Viện Uptime, một sự cố ngừng dịch vụ nhỏ có thể dẫn đến tổn thất lớn và phần lớn các trường hợp ngừng hoạt động (39%) có liên quan đến hệ thống điện. Đứng thứ hai (24%) là yếu tố con người, thứ ba (15%) là hệ thống điều hòa không khí. Chỉ 12% số vụ tai nạn ở trung tâm dữ liệu có thể là do hiện tượng tự nhiên và chỉ 10% trong số đó xảy ra vì những lý do khác ngoài những lý do đã liệt kê.

Mặc dù có các tiêu chuẩn an toàn và độ tin cậy nghiêm ngặt nhưng không có cơ sở nào tránh khỏi sự cố. Hầu hết chúng xảy ra do mất điện hoặc lỗi của con người. Chủ sở hữu trung tâm dữ liệu và phòng máy chủ trước hết nên chú ý đến hai yếu tố này và khách hàng nên hiểu: ngay cả những người dẫn đầu thị trường cũng không thể đảm bảo độ tin cậy tuyệt đối. Nếu thiết bị hoặc dịch vụ đám mây phục vụ các quy trình quan trọng trong kinh doanh, bạn nên nghĩ đến một trang web dự phòng.

Nguồn ảnh: Telecomblogger.ru

Nguồn: www.habr.com

Thêm một lời nhận xét