Đám mây có khả năng phục hồi thảm họa: Cách thức hoạt động

Này Habr!

Sau kỳ nghỉ Tết, chúng tôi đã khởi chạy lại đám mây chống thiên tai dựa trên hai trang web. Hôm nay, chúng tôi sẽ cho bạn biết cách hoạt động và hiển thị điều gì sẽ xảy ra với các máy ảo của khách hàng khi các thành phần riêng lẻ của cụm bị lỗi và toàn bộ trang web gặp sự cố (spoiler – mọi thứ đều ổn với chúng).

Đám mây có khả năng phục hồi thảm họa: Cách thức hoạt động
Hệ thống lưu trữ đám mây chống thiên tai trên trang OST.

Bên trong là gì

Bên trong, cụm này có các máy chủ Cisco UCS với bộ ảo hóa VMware ESXi, hai hệ thống lưu trữ INFINIDAT InfiniBox F2240, thiết bị mạng Cisco Nexus và thiết bị chuyển mạch Brocade SAN. Cụm được chia thành hai địa điểm - OST và NORD, tức là mỗi trung tâm dữ liệu có một bộ thiết bị giống hệt nhau. Trên thực tế, đây chính là lý do khiến nó có khả năng chống chịu thảm họa.

Trong một trang web, các thành phần chính cũng được sao chép (máy chủ, bộ chuyển mạch SAN, mạng).
Hai địa điểm được kết nối bằng các tuyến cáp quang chuyên dụng, cũng được đặt trước.

Một vài lời về hệ thống lưu trữ. Chúng tôi đã xây dựng phiên bản đầu tiên của đám mây chống thiên tai trên NetApp. Ở đây chúng tôi đã chọn INFINIDAT và đây là lý do:

  • Tùy chọn sao chép Active-Active. Nó cho phép máy ảo duy trì hoạt động ngay cả khi một trong các hệ thống lưu trữ bị lỗi hoàn toàn. Tôi sẽ nói với bạn nhiều hơn về việc sao chép sau.
  • Ba bộ điều khiển đĩa để tăng khả năng chịu lỗi hệ thống. Thông thường có hai.
  • Giải pháp sẵn sàng. Chúng tôi đã nhận được một giá lắp ráp sẵn, chỉ cần kết nối với mạng và định cấu hình.
  • Hỗ trợ kỹ thuật chu đáo. Các kỹ sư của INFINIDAT liên tục phân tích nhật ký và sự kiện của hệ thống lưu trữ, cài đặt các phiên bản chương trình cơ sở mới và trợ giúp về cấu hình.

Dưới đây là một số hình ảnh khi giải nén:

Đám mây có khả năng phục hồi thảm họa: Cách thức hoạt động

Đám mây có khả năng phục hồi thảm họa: Cách thức hoạt động

Làm thế nào nó hoạt động

Bản thân đám mây đã có khả năng chịu lỗi. Nó bảo vệ khách hàng khỏi các lỗi phần cứng và phần mềm. Khả năng chống thảm họa sẽ giúp bảo vệ khỏi các lỗi lớn trong một trang web: ví dụ: lỗi hệ thống lưu trữ (hoặc cụm SDS, xảy ra khá thường xuyên 🙂), lỗi lớn trong mạng lưu trữ, v.v. Chà, và quan trọng nhất: một đám mây như vậy sẽ cứu được khi toàn bộ địa điểm không thể truy cập được do hỏa hoạn, mất điện, tiếp quản của kẻ đột kích hoặc cuộc đổ bộ của người ngoài hành tinh.

Trong tất cả các trường hợp này, máy ảo máy khách vẫn tiếp tục hoạt động và đây là lý do.

Thiết kế cụm được thiết kế sao cho bất kỳ máy chủ ESXi nào có máy ảo máy khách đều có thể truy cập vào bất kỳ hệ thống lưu trữ nào trong hai hệ thống lưu trữ. Nếu hệ thống lưu trữ trên trang OST bị lỗi, các máy ảo sẽ tiếp tục hoạt động: các máy chủ mà chúng đang chạy sẽ truy cập vào hệ thống lưu trữ trên NORD để lấy dữ liệu.

Đám mây có khả năng phục hồi thảm họa: Cách thức hoạt động
Sơ đồ kết nối trong một cụm trông như thế này.

Điều này có thể thực hiện được do thực tế là Liên kết giữa các Switch được định cấu hình giữa các loại vải SAN của hai địa điểm: bộ chuyển mạch Fabric A OST SAN được kết nối với bộ chuyển mạch Fabric A NORD SAN và tương tự đối với các bộ chuyển mạch Fabric B SAN.

Chà, để tất cả những điều phức tạp này của các nhà máy SAN trở nên hợp lý, bản sao Active-Active được định cấu hình giữa hai hệ thống lưu trữ: thông tin gần như được ghi đồng thời vào hệ thống lưu trữ cục bộ và từ xa, RPO = 0. Hóa ra dữ liệu gốc được lưu trữ trên một hệ thống lưu trữ và bản sao của nó được lưu trữ trên hệ thống kia. Dữ liệu được sao chép ở mức dung lượng lưu trữ và dữ liệu VM (đĩa, tệp cấu hình, tệp hoán đổi, v.v.) được lưu trữ trên chúng.

Máy chủ ESXi xem ổ đĩa chính và bản sao của nó dưới dạng một thiết bị đĩa (Thiết bị lưu trữ). Có 24 đường dẫn từ máy chủ ESXi đến từng thiết bị đĩa:

12 đường dẫn kết nối nó với hệ thống lưu trữ cục bộ (đường dẫn tối ưu) và 12 đường còn lại với hệ thống lưu trữ từ xa (đường dẫn không tối ưu). Trong tình huống bình thường, ESXi truy cập dữ liệu trên hệ thống lưu trữ cục bộ bằng các đường dẫn “tối ưu”. Khi hệ thống lưu trữ này bị lỗi, ESXi sẽ mất các đường dẫn tối ưu và chuyển sang các đường dẫn “không tối ưu”. Đây là những gì nó trông giống như trên sơ đồ.

Đám mây có khả năng phục hồi thảm họa: Cách thức hoạt động
Sơ đồ cụm chống thiên tai.

Tất cả các mạng khách hàng được kết nối với cả hai trang web thông qua một kết cấu mạng chung. Mỗi trang web chạy một Provider Edge (PE), trên đó mạng của khách hàng sẽ bị chấm dứt. PE được hợp nhất thành một cụm chung. Nếu PE bị lỗi tại một trang, tất cả lưu lượng truy cập sẽ được chuyển hướng đến trang thứ hai. Nhờ đó, các máy ảo từ trang web không có PE vẫn có thể truy cập được qua mạng đối với máy khách.

Bây giờ chúng ta hãy xem điều gì sẽ xảy ra với các máy ảo của khách hàng khi xảy ra nhiều lỗi khác nhau. Hãy bắt đầu với những lựa chọn nhẹ nhàng nhất và kết thúc bằng sự cố nghiêm trọng nhất - lỗi toàn bộ trang web. Trong các ví dụ, nền tảng chính sẽ là OST và nền tảng dự phòng với các bản sao dữ liệu sẽ là NORD.

Điều gì xảy ra với máy ảo của khách hàng nếu...

Liên kết sao chép không thành công. Việc sao chép giữa các hệ thống lưu trữ của hai trang web dừng lại.
ESXi sẽ chỉ hoạt động với các thiết bị đĩa cục bộ (thông qua các đường dẫn tối ưu).
Máy ảo tiếp tục hoạt động.

Đám mây có khả năng phục hồi thảm họa: Cách thức hoạt động

ISL (Liên kết chuyển mạch liên kết) bị hỏng. Một sự kiện khó có thể xảy ra. Trừ khi một số máy xúc điên cuồng đào lên một số tuyến đường quang học cùng một lúc, chạy trên các tuyến đường độc lập và được đưa đến địa điểm thông qua các đầu vào khác nhau. Nhưng dù sao. Trong trường hợp này, máy chủ ESXi mất một nửa đường dẫn và chỉ có thể truy cập hệ thống lưu trữ cục bộ của chúng. Các bản sao được thu thập nhưng máy chủ sẽ không thể truy cập chúng.

Máy ảo đang hoạt động bình thường.

Đám mây có khả năng phục hồi thảm họa: Cách thức hoạt động

Chuyển đổi SAN không thành công trên một trong các trang web. Máy chủ ESXi mất một số đường dẫn đến hệ thống lưu trữ. Trong trường hợp này, các máy chủ tại nơi chuyển đổi bị lỗi sẽ chỉ hoạt động thông qua một trong các HBA của chúng.

Các máy ảo vẫn hoạt động bình thường.

Đám mây có khả năng phục hồi thảm họa: Cách thức hoạt động

Tất cả các công tắc SAN trên một trong các trang web đều không thành công. Giả sử một thảm họa như vậy đã xảy ra trên trang OST. Trong trường hợp này, máy chủ ESXi trên trang này sẽ mất tất cả đường dẫn đến thiết bị đĩa của chúng. Cơ chế VMware vSphere HA tiêu chuẩn bắt đầu hoạt động: nó sẽ khởi động lại tất cả các máy ảo của trang OST trong NORD trong tối đa 140 giây.

Các máy ảo chạy trên máy chủ của trang NORD đang hoạt động bình thường.

Đám mây có khả năng phục hồi thảm họa: Cách thức hoạt động

Máy chủ ESXi bị lỗi trên một trang web. Tại đây cơ chế vSphere HA hoạt động trở lại: các máy ảo từ máy chủ bị lỗi được khởi động lại trên các máy chủ khác - trên cùng một trang web hoặc từ xa. Thời gian khởi động lại máy ảo lên tới 1 phút.

Nếu tất cả các máy chủ ESXi trên trang OST đều bị lỗi thì không có tùy chọn nào: các máy ảo sẽ được khởi động lại trên một máy chủ khác. Thời gian khởi động lại là như nhau.

Đám mây có khả năng phục hồi thảm họa: Cách thức hoạt động

Hệ thống lưu trữ bị lỗi tại một địa điểm. Giả sử hệ thống lưu trữ bị lỗi ở trang OST. Sau đó, máy chủ ESXi của trang OST chuyển sang làm việc với các bản sao lưu trữ trong NORD. Sau khi hệ thống lưu trữ bị lỗi quay trở lại hoạt động, quá trình sao chép bắt buộc sẽ xảy ra và các máy chủ ESXi OST sẽ lại bắt đầu truy cập vào hệ thống lưu trữ cục bộ.

Máy ảo vẫn hoạt động bình thường trong thời gian qua.

Đám mây có khả năng phục hồi thảm họa: Cách thức hoạt động

Một trong những trang web bị lỗi. Trong trường hợp này, tất cả các máy ảo sẽ được khởi động lại trên site sao lưu thông qua cơ chế vSphere HA. Thời gian khởi động lại VM là 140 giây. Trong trường hợp này, tất cả cài đặt mạng của máy ảo sẽ được lưu và máy khách vẫn có thể truy cập được qua mạng.

Để đảm bảo quá trình khởi động lại các máy tại địa điểm sao lưu diễn ra suôn sẻ, mỗi địa điểm chỉ đầy một nửa. Nửa thứ hai là phần dự trữ trong trường hợp tất cả các máy ảo di chuyển từ trang thứ hai bị hỏng.

Đám mây có khả năng phục hồi thảm họa: Cách thức hoạt động

Một đám mây chống thảm họa dựa trên hai trung tâm dữ liệu sẽ bảo vệ khỏi những sự cố như vậy.

Niềm vui này không hề rẻ, vì ngoài nguồn tài nguyên chính, còn cần có một khoản dự trữ trên địa điểm thứ hai. Do đó, các dịch vụ quan trọng trong kinh doanh được đặt trong một đám mây như vậy, thời gian ngừng hoạt động lâu dài sẽ gây ra tổn thất lớn về tài chính và danh tiếng hoặc nếu hệ thống thông tin phải tuân theo các yêu cầu về khả năng phục hồi sau thảm họa từ cơ quan quản lý hoặc quy định nội bộ của công ty.

Nguồn:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

Nguồn: www.habr.com

Thêm một lời nhận xét