Nguyên nhân chính gây ra tai nạn ở trung tâm dữ liệu là miếng đệm giữa máy tính và ghế

Chủ đề về những sự cố lớn trong các trung tâm dữ liệu hiện đại đặt ra những câu hỏi chưa được giải đáp trong bài viết đầu tiên - chúng tôi quyết định phát triển nó.

Nguyên nhân chính gây ra tai nạn ở trung tâm dữ liệu là miếng đệm giữa máy tính và ghế

Theo thống kê của Uptime Institute, phần lớn các sự cố ở trung tâm dữ liệu đều liên quan đến lỗi hệ thống cung cấp điện—chúng chiếm tới 39% số sự cố. Tiếp theo là yếu tố con người, nguyên nhân chiếm 24% số vụ tai nạn. Nguyên nhân quan trọng thứ ba (15%) là do hệ thống điều hòa không khí bị hỏng và ở vị trí thứ tư (12%) là do thiên tai. Tổng tỷ lệ của những rắc rối khác chỉ là 10%. Không đặt câu hỏi về dữ liệu của một tổ chức có uy tín, chúng tôi sẽ nêu bật điểm chung trong các vụ tai nạn khác nhau và cố gắng tìm hiểu xem liệu chúng có thể tránh được hay không. spoiler: có thể xảy ra trong hầu hết các trường hợp.

Khoa học về Liên hệ

Nói một cách đơn giản, chỉ có hai vấn đề với nguồn điện: hoặc không có tiếp điểm ở nơi cần có, hoặc có tiếp điểm ở nơi lẽ ra không có tiếp điểm. Bạn có thể nói rất lâu về độ tin cậy của các hệ thống cung cấp điện liên tục hiện đại, nhưng không phải lúc nào chúng cũng cứu được bạn. Lấy trường hợp nổi bật nhất là trung tâm dữ liệu được British Airways sử dụng, thuộc sở hữu của công ty mẹ International Airlines Group. Có hai bất động sản như vậy nằm gần Sân bay Heathrow - Boadicea House và Comet House. Vụ đầu tiên vào ngày 27/2017/XNUMX đã xảy ra sự cố mất điện đột ngột dẫn đến hệ thống UPS quá tải và hỏng hóc. Kết quả là một số thiết bị CNTT đã bị hư hỏng vật lý và thảm họa mới nhất phải mất ba ngày mới được giải quyết.

Hãng đã phải hủy hoặc dời hơn một nghìn chuyến bay, khoảng 75 nghìn hành khách không thể bay đúng giờ - 128 triệu USD đã được chi để bồi thường, chưa tính chi phí cần thiết để khôi phục chức năng của các trung tâm dữ liệu. Lịch sử của lý do mất điện không rõ ràng. Nếu bạn tin vào kết quả điều tra nội bộ do Giám đốc điều hành Tập đoàn Hàng không Quốc tế Willie Walsh công bố thì đó là do lỗi của các kỹ sư. Tuy nhiên, hệ thống cung cấp điện liên tục phải chịu được tình trạng ngừng hoạt động như vậy - đó là lý do tại sao nó được lắp đặt. Trung tâm dữ liệu được quản lý bởi các chuyên gia từ công ty gia công CBRE Managed Services, vì vậy British Airways đã cố gắng bồi thường thiệt hại thông qua tòa án London.

Nguyên nhân chính gây ra tai nạn ở trung tâm dữ liệu là miếng đệm giữa máy tính và ghế

Mất điện xảy ra theo các kịch bản tương tự: đầu tiên là mất điện do lỗi của nhà cung cấp điện, có khi do thời tiết xấu hoặc do sự cố bên trong (bao gồm cả lỗi của con người), sau đó là hệ thống cung cấp điện liên tục không thể đáp ứng được phụ tải hoặc chập điện. - Sự gián đoạn sóng hình sin có thời hạn gây ra sự cố nhiều dịch vụ, khiến việc khôi phục mất rất nhiều thời gian và tiền bạc. Có thể tránh được những tai nạn như vậy không? Không còn nghi ngờ gì nữa. Nếu bạn thiết kế hệ thống một cách chính xác, ngay cả những người tạo ra các trung tâm dữ liệu lớn cũng không tránh khỏi những sai sót.

Yếu tố con người

Khi nguyên nhân trực tiếp của sự cố là do hành động không chính xác của nhân viên trung tâm dữ liệu, thì sự cố thường xảy ra nhất (nhưng không phải luôn luôn) ảnh hưởng đến phần mềm của cơ sở hạ tầng CNTT. Những tai nạn như vậy xảy ra ngay cả ở những tập đoàn lớn. Vào tháng 2017 năm 3, do một thành viên trong nhóm vận hành kỹ thuật của một trong các trung tâm dữ liệu được tuyển dụng không chính xác, một phần của máy chủ Amazon Web Services đã bị vô hiệu hóa. Đã xảy ra lỗi khi gỡ lỗi quy trình thanh toán cho khách hàng lưu trữ đám mây Amazon Simple Storage Service (SXNUMX). Một nhân viên đã cố xóa một số máy chủ ảo được hệ thống thanh toán sử dụng nhưng lại gặp phải một cụm lớn hơn.

Nguyên nhân chính gây ra tai nạn ở trung tâm dữ liệu là miếng đệm giữa máy tính và ghế

Do lỗi kỹ sư, các máy chủ chạy mô-đun phần mềm lưu trữ đám mây quan trọng của Amazon đã bị xóa. Bị ảnh hưởng đầu tiên là hệ thống con lập chỉ mục, chứa thông tin về siêu dữ liệu và vị trí của tất cả các đối tượng S3 ở khu vực US-EAST-1 của Mỹ. Sự cố cũng ảnh hưởng đến hệ thống con được sử dụng để lưu trữ dữ liệu và quản lý không gian có sẵn để lưu trữ. Sau khi xóa các máy ảo, hai hệ thống con này yêu cầu khởi động lại hoàn toàn và sau đó các kỹ sư của Amazon đã gặp bất ngờ - trong một thời gian dài, bộ lưu trữ đám mây công cộng không thể đáp ứng yêu cầu của khách hàng.

Tác động lan rộng vì nhiều tài nguyên lớn sử dụng Amazon S3. Việc ngừng hoạt động đã ảnh hưởng đến Trello, Coursera, IFTTT và khó chịu nhất là dịch vụ của các đối tác lớn của Amazon trong danh sách S&P 500. Thiệt hại trong những trường hợp như vậy rất khó để tính toán, nhưng nó lên tới hàng trăm triệu đô la Mỹ. Như bạn có thể thấy, một lệnh sai cũng đủ để vô hiệu hóa dịch vụ của nền tảng đám mây lớn nhất. Đây không phải là trường hợp cá biệt, vào ngày 16 tháng 2019 năm XNUMX, trong quá trình bảo trì, dịch vụ Yandex.Cloud đã xóa máy ảo của người dùng trong vùng ru-central1-c ở trạng thái TẠM NGỪ ít nhất một lần. Dữ liệu khách hàng ở đây đã bị hỏng, một số dữ liệu đã bị mất không thể cứu vãn được. Tất nhiên, con người là không hoàn hảo, nhưng các hệ thống bảo mật thông tin hiện đại từ lâu đã có thể giám sát hành động của những người dùng có đặc quyền trước khi thực thi các lệnh họ nhập vào. Nếu các giải pháp như vậy được triển khai trong Yandex hoặc Amazon thì có thể tránh được những sự cố như vậy.

Nguyên nhân chính gây ra tai nạn ở trung tâm dữ liệu là miếng đệm giữa máy tính và ghế

Làm mát đông lạnh

Vào tháng 2017 năm 35, một vụ tai nạn lớn đã xảy ra tại trung tâm dữ liệu Dmitrov của công ty Megafon. Sau đó, nhiệt độ ở khu vực Moscow giảm xuống -30°C, dẫn đến hệ thống làm mát của cơ sở bị hỏng. Dịch vụ báo chí của nhà điều hành không đặc biệt nói về nguyên nhân của vụ việc - các công ty Nga cực kỳ miễn cưỡng nói về các vụ tai nạn tại cơ sở mà họ sở hữu; về mặt công khai, chúng ta thua xa phương Tây. Có một phiên bản lan truyền trên mạng xã hội về việc đóng băng chất làm mát trong các đường ống đặt dọc đường và rò rỉ ethylene glycol. Theo bà, dịch vụ vận hành không thể nhanh chóng có được XNUMX tấn nước làm mát do nghỉ lễ dài ngày và phải rút lui bằng phương tiện ngẫu hứng, tổ chức làm mát tự do ngẫu hứng vi phạm nội quy vận hành hệ thống. Cái lạnh dữ dội càng làm vấn đề trở nên trầm trọng hơn - vào tháng XNUMX, mùa đông bất ngờ ập đến ở Nga, mặc dù không ai ngờ tới điều đó. Kết quả là nhân viên đã phải tắt nguồn một phần của giá đỡ máy chủ, đó là lý do tại sao một số dịch vụ của nhà điều hành không hoạt động trong hai ngày.

Nguyên nhân chính gây ra tai nạn ở trung tâm dữ liệu là miếng đệm giữa máy tính và ghế

Có lẽ chúng ta có thể nói về sự bất thường của thời tiết ở đây, nhưng những đợt sương giá như vậy không phải là điều bất thường đối với khu vực thủ đô. Nhiệt độ vào mùa đông ở khu vực Moscow có thể giảm xuống mức thấp hơn, vì vậy các trung tâm dữ liệu được xây dựng với kỳ vọng hoạt động ổn định ở −42°C. Thông thường, hệ thống làm mát bị hỏng trong thời tiết lạnh do nồng độ glycol không đủ cao và lượng nước dư thừa trong dung dịch làm mát. Cũng có những vấn đề trong việc lắp đặt đường ống hoặc tính toán sai lầm trong thiết kế và thử nghiệm hệ thống, chủ yếu liên quan đến mong muốn tiết kiệm tiền. Kết quả là một tai nạn nghiêm trọng xảy ra bất ngờ mà lẽ ra có thể ngăn chặn được.

Thảm họa thiên nhiên

Thông thường, giông bão và/hoặc bão làm gián đoạn cơ sở hạ tầng kỹ thuật của trung tâm dữ liệu, dẫn đến gián đoạn dịch vụ và/hoặc hư hỏng vật lý đối với thiết bị. Sự cố do thời tiết xấu xảy ra khá thường xuyên. Năm 2012, cơn bão Sandy quét qua Bờ Tây nước Mỹ với lượng mưa lớn. Tọa lạc trong một tòa nhà cao tầng ở Lower Manhattan, trung tâm dữ liệu Peer 1 mất nguồn điện bên ngoài, sau khi nước biển mặn tràn ngập các tầng hầm. Máy phát điện khẩn cấp của cơ sở được đặt trên tầng 18 và nguồn cung cấp nhiên liệu của chúng bị hạn chế - các quy định được đưa ra ở New York sau vụ khủng bố 9/11 cấm lưu trữ số lượng lớn nhiên liệu ở các tầng trên.

Máy bơm nhiên liệu cũng bị hỏng nên các nhân viên phải mất nhiều ngày để vận chuyển dầu diesel đến máy phát điện bằng tay. Chủ nghĩa anh hùng của đội đã cứu trung tâm dữ liệu khỏi một tai nạn nghiêm trọng, nhưng liệu điều đó có thực sự cần thiết? Chúng ta sống trên một hành tinh có bầu không khí chứa nitơ-oxy và rất nhiều nước. Sấm sét và bão thường xuyên xảy ra ở đây (đặc biệt là ở các vùng ven biển). Các nhà thiết kế có lẽ nên xem xét những rủi ro liên quan và xây dựng một hệ thống cung cấp điện liên tục thích hợp. Hoặc ít nhất hãy chọn một vị trí phù hợp cho trung tâm dữ liệu hơn là một tòa nhà cao tầng trên một hòn đảo.

Mọi thứ khác

Viện Uptime xác định nhiều sự cố khác nhau trong danh mục này, trong đó rất khó để chọn ra một sự cố điển hình. Trộm cáp đồng, ô tô đâm vào trung tâm dữ liệu, trụ đỡ đường dây điện và trạm biến áp, hỏa hoạn, người vận hành máy xúc làm hư hỏng hệ thống quang học, động vật gặm nhấm (chuột, thỏ và thậm chí cả thú có túi, thực chất là thú có túi), cũng như những người thích tập bắn vào dây - menu rất phong phú. Sự cố mất điện thậm chí có thể gây ra ăn trộm điện trồng cần sa trái phép. Trong hầu hết các trường hợp, những người cụ thể trở thành thủ phạm của vụ việc, tức là chúng ta lại xử lý yếu tố con người, khi vấn đề có tên và họ. Ngay cả khi thoạt nhìn, tai nạn có liên quan đến trục trặc kỹ thuật hoặc thiên tai, vẫn có thể tránh được nếu cơ sở được thiết kế phù hợp và vận hành chính xác. Ngoại lệ duy nhất là các trường hợp cơ sở hạ tầng của trung tâm dữ liệu bị hư hại nghiêm trọng hoặc các tòa nhà và công trình bị phá hủy do thiên tai. Đây thực sự là những trường hợp bất khả kháng và tất cả các sự cố khác đều do miếng đệm giữa máy tính và ghế gây ra - có lẽ đây là bộ phận không đáng tin cậy nhất của bất kỳ hệ thống phức tạp nào.

Nguồn: www.habr.com

Thêm một lời nhận xét