Cách chọn nơi lưu trữ mà không tự bắn vào chân mình

Giới thiệu

Đã đến lúc mua dung lượng lưu trữ. Chọn cái nào, nghe ai? Nhà cung cấp A nói về nhà cung cấp B, sau đó có nhà tích hợp C, người này nói ngược lại và tư vấn cho nhà cung cấp D. Trong tình huống như vậy, ngay cả một kiến ​​trúc sư lưu trữ có kinh nghiệm cũng sẽ quay cuồng, đặc biệt là với tất cả các nhà cung cấp mới, SDS và siêu hội tụ đang là mốt Hôm nay.

Vì vậy, làm thế nào để bạn tìm ra tất cả và không trở thành một kẻ ngốc? Chúng tôi (Antonảo Anton Zhbankov và tập đoàn Evgeniy Elizarov) hãy thử nói về vấn đề này bằng tiếng Nga.
Bài viết có nhiều điểm tương đồng và thực chất là phần mở rộng của “Thiết kế trung tâm dữ liệu ảo hóa” về việc lựa chọn hệ thống lưu trữ và xem xét công nghệ lưu trữ. Chúng tôi sẽ xem xét ngắn gọn lý thuyết chung, nhưng chúng tôi khuyên bạn cũng nên đọc bài viết này.

Tại sao

Bạn thường có thể thấy tình huống khi một người mới đến diễn đàn hoặc một cuộc trò chuyện chuyên biệt, chẳng hạn như Thảo luận về bộ nhớ và đặt câu hỏi: “ở đây họ cung cấp cho tôi hai tùy chọn bộ nhớ - ABC SuperStorage S600 và XYZ HyperOcean 666v4, bạn đề xuất gì ?”

Và sự nhầm lẫn bắt đầu về việc ai có những đặc điểm gì trong việc thực hiện các tính năng khủng khiếp và khó hiểu, mà đối với một người chưa chuẩn bị hoàn toàn là người Trung Quốc.

Vì vậy, câu hỏi quan trọng và đầu tiên mà bạn cần phải tự hỏi mình rất lâu trước khi so sánh các thông số kỹ thuật trong các đề xuất thương mại là TẠI SAO? Tại sao hệ thống lưu trữ này cần thiết?

Cách chọn nơi lưu trữ mà không tự bắn vào chân mình

Câu trả lời sẽ bất ngờ và rất phong cách Tony Robbins - để lưu trữ dữ liệu. Cảm ơn, thuyền trưởng! Tuy nhiên, đôi khi chúng ta quá tập trung vào việc so sánh các chi tiết đến mức quên mất lý do tại sao ngay từ đầu chúng ta lại làm tất cả những điều này.

Vì vậy, nhiệm vụ của hệ thống lưu trữ dữ liệu là lưu trữ và cung cấp quyền truy cập vào DỮ LIỆU với hiệu suất nhất định. Chúng ta sẽ bắt đầu với dữ liệu.

Dữ liệu

Loại dữ liệu

Chúng tôi dự định lưu trữ loại dữ liệu nào? Một câu hỏi rất quan trọng có thể loại bỏ nhiều hệ thống lưu trữ khỏi sự cân nhắc. Ví dụ: bạn dự định lưu trữ video và ảnh. Bạn có thể loại bỏ ngay các hệ thống được thiết kế để truy cập ngẫu nhiên theo khối nhỏ hoặc các hệ thống có tính năng nén / sao chép độc quyền. Đây có thể đơn giản là những hệ thống xuất sắc, chúng tôi không muốn nói điều gì xấu. Nhưng trong trường hợp này, điểm mạnh của chúng sẽ trở nên yếu đi (video và ảnh không được nén) hoặc đơn giản là giá thành của hệ thống sẽ tăng đáng kể.

Ngược lại, nếu mục đích sử dụng là một DBMS giao dịch bận rộn thì các hệ thống truyền phát đa phương tiện xuất sắc có khả năng cung cấp gigabyte mỗi giây sẽ là một lựa chọn tồi.

Khối lượng dữ liệu

Chúng tôi dự định lưu trữ bao nhiêu dữ liệu? Số lượng luôn phát triển thành chất lượng; điều này không bao giờ được quên, đặc biệt là trong thời đại khối lượng dữ liệu tăng trưởng theo cấp số nhân. Các hệ thống loại Petabyte không còn phổ biến nữa, nhưng dung lượng petabyte càng lớn thì hệ thống càng trở nên cụ thể thì chức năng thông thường của các hệ thống truy cập ngẫu nhiên quy mô vừa và nhỏ sẽ càng khó tiếp cận. Điều này không quan trọng vì chỉ riêng bảng thống kê truy cập khối đã lớn hơn dung lượng RAM có sẵn trên bộ điều khiển. Chưa kể đến việc nén/phân lớp. Giả sử chúng ta muốn chuyển thuật toán nén sang thuật toán mạnh hơn và nén 20 petabyte dữ liệu. Sẽ mất bao lâu: sáu tháng, một năm?

Mặt khác, tại sao phải bận tâm nếu bạn cần lưu trữ và xử lý 500 GB dữ liệu? Chỉ có 500. Ổ SSD gia dụng (có DWPD thấp) ở kích thước này không mất phí. Tại sao phải xây dựng nhà máy Fibre Channel và mua hệ thống lưu trữ bên ngoài cao cấp có giá tương đương một cây cầu gang?

Bao nhiêu phần trăm trong tổng số dữ liệu nóng? Tải không đồng đều về khối lượng dữ liệu như thế nào? Đây là lúc công nghệ lưu trữ theo cấp độ hoặc Flash Cache có thể rất hữu ích nếu lượng dữ liệu nóng rất nhỏ so với tổng số. Hoặc ngược lại, với tải đồng đều trên toàn bộ khối, thường thấy trong các hệ thống phát trực tuyến (giám sát video, một số hệ thống phân tích), những công nghệ như vậy sẽ không cung cấp bất cứ thứ gì và sẽ chỉ làm tăng chi phí/độ phức tạp của hệ thống.

IP

Mặt khác của dữ liệu là hệ thống thông tin sử dụng dữ liệu. IS có một bộ yêu cầu kế thừa dữ liệu. Để biết thêm thông tin về IS, hãy xem “Thiết kế trung tâm dữ liệu ảo hóa”.

Yêu cầu về khả năng phục hồi/sẵn có

Các yêu cầu về khả năng chịu lỗi/tính khả dụng của dữ liệu được kế thừa từ IS sử dụng chúng và được biểu thị bằng ba số - RPO, RTO, sẵn có.

Sẵn có — phần chia sẻ trong một khoảng thời gian nhất định trong đó dữ liệu có sẵn để làm việc với chúng. Thường được biểu thị bằng số 9. Ví dụ: hai số chín mỗi năm có nghĩa là khả năng sẵn sàng là 99%, hoặc nói cách khác là cho phép 95 giờ không sẵn sàng mỗi năm. Ba số chín - 9,5 giờ mỗi năm.

RPO/RTO không phải là các chỉ số tổng thể mà dành cho từng sự cố (tai nạn), trái ngược với tính sẵn có.

RPO — lượng dữ liệu bị mất trong một sự cố (tính bằng giờ). Ví dụ: nếu sao lưu diễn ra mỗi ngày một lần thì RPO = 24 giờ. Những thứ kia. Trong trường hợp xảy ra thảm họa và mất hoàn toàn hệ thống lưu trữ, dữ liệu có thể bị mất tới 24 giờ (kể từ thời điểm sao lưu). Ví dụ: dựa trên RPO được chỉ định cho IS, các quy định dự phòng được viết ra. Ngoài ra, dựa trên RPO, bạn có thể hiểu mức độ sao chép dữ liệu đồng bộ/không đồng bộ là cần thiết.

RTO — thời gian khôi phục dịch vụ (truy cập dữ liệu) sau thảm họa. Dựa trên giá trị RTO đã cho, chúng ta có thể hiểu liệu có cần một cụm metro hay không hoặc liệu sao chép một chiều có đủ hay không. Bạn có cần một hệ thống lưu trữ đa bộ điều khiển cao cấp không?

Cách chọn nơi lưu trữ mà không tự bắn vào chân mình

Các yêu cầu thực hiện

Mặc dù đây là một câu hỏi rất rõ ràng nhưng đây lại là lúc nảy sinh hầu hết các khó khăn. Tùy thuộc vào việc bạn đã có cơ sở hạ tầng nào đó hay chưa, các cách để thu thập số liệu thống kê cần thiết sẽ được xây dựng.

Bạn đã có một hệ thống lưu trữ và đang tìm một hệ thống thay thế hoặc muốn mua một hệ thống khác để mở rộng. Mọi thứ đều đơn giản ở đây. Bạn hiểu những dịch vụ nào bạn đã có và những dịch vụ nào bạn dự định triển khai trong tương lai gần. Dựa trên các dịch vụ hiện tại, bạn có cơ hội thu thập số liệu thống kê hiệu suất. Quyết định số lượng IOPS hiện tại và độ trễ hiện tại - những chỉ số này là gì và chúng có đủ cho nhiệm vụ của bạn không? Điều này có thể được thực hiện cả trên chính hệ thống lưu trữ dữ liệu và từ các máy chủ được kết nối với nó.

Hơn nữa, bạn không chỉ cần xem xét tải hiện tại mà còn trong một khoảng thời gian nhất định (tốt nhất là một tháng). Xem mức cao nhất trong ngày là bao nhiêu, mức tải mà bản sao lưu tạo ra, v.v. Nếu hệ thống lưu trữ hoặc phần mềm của nó không cung cấp cho bạn bộ dữ liệu này hoàn chỉnh, bạn có thể sử dụng RRDtool miễn phí. Công cụ này có thể hoạt động với hầu hết các hệ thống lưu trữ và bộ chuyển mạch phổ biến nhất, đồng thời có thể cung cấp cho bạn số liệu thống kê hiệu suất chi tiết. Cũng cần xem xét tải trên các máy chủ hoạt động với hệ thống lưu trữ này, đối với các máy ảo cụ thể hoặc chính xác những gì đang chạy trên máy chủ này.

Cách chọn nơi lưu trữ mà không tự bắn vào chân mình

Điều cần lưu ý riêng là nếu độ trễ trên ổ đĩa và kho dữ liệu nằm trên ổ đĩa này khác nhau khá đáng kể, thì bạn nên chú ý đến mạng SAN của mình, có khả năng cao là đã xảy ra sự cố với nó và trước khi mua một mạng mới. hệ thống, cần xem xét vấn đề này vì có khả năng rất cao sẽ tăng hiệu suất của hệ thống hiện tại.

Bạn đang xây dựng cơ sở hạ tầng từ đầu hoặc mua một hệ thống cho một số dịch vụ mới mà bạn chưa biết về khối lượng của chúng. Có một số tùy chọn: liên hệ với đồng nghiệp về các tài nguyên chuyên biệt để cố gắng tìm hiểu và dự đoán tải, liên hệ với nhà tích hợp có kinh nghiệm triển khai các dịch vụ tương tự và người có thể tính toán tải cho bạn. Và tùy chọn thứ ba (thường là khó khăn nhất, đặc biệt nếu liên quan đến các ứng dụng tự viết hoặc hiếm) là cố gắng tìm hiểu các yêu cầu về hiệu suất từ ​​​​các nhà phát triển hệ thống.

Và xin lưu ý, lựa chọn đúng đắn nhất xét từ quan điểm ứng dụng thực tế là thí điểm trên thiết bị hiện tại hoặc thiết bị được nhà cung cấp/nhà tích hợp cung cấp để thử nghiệm.

Yêu cầu đặc biệt

Yêu cầu đặc biệt là mọi thứ không thuộc yêu cầu về hiệu suất, khả năng chịu lỗi và chức năng để xử lý và cung cấp dữ liệu trực tiếp.

Một trong những yêu cầu đặc biệt đơn giản nhất đối với hệ thống lưu trữ dữ liệu có thể được gọi là “phương tiện lưu trữ có thể chuyển nhượng được”. Và ngay lập tức rõ ràng là hệ thống lưu trữ dữ liệu này phải bao gồm một thư viện băng từ hoặc đơn giản là một ổ băng từ để lưu bản sao lưu vào đó. Sau đó, một người được đào tạo đặc biệt sẽ ký vào cuộn băng và tự hào mang nó đến một chiếc két sắt đặc biệt.
Một ví dụ khác về yêu cầu đặc biệt là thiết kế chống sốc được bảo vệ.

Где

Thành phần chính thứ hai trong việc lựa chọn một hệ thống lưu trữ cụ thể là thông tin về Hệ thống lưu trữ này sẽ được đặt ở đâu. Bắt đầu từ điều kiện địa lý hoặc khí hậu, và kết thúc với nhân sự.

khách hàng

Hệ thống lưu trữ này được lên kế hoạch cho ai? Câu hỏi có những lý do sau:

Khách hàng chính phủ/thương mại.
Khách hàng thương mại không bị hạn chế và thậm chí không có nghĩa vụ phải tổ chức đấu thầu, ngoại trừ theo quy định nội bộ của mình.

Một khách hàng chính phủ là một vấn đề khác. 44 Luật Liên bang và những thú vui khác với đấu thầu và thông số kỹ thuật có thể bị thách thức.

Khách hàng đang bị trừng phạt
Chà, câu hỏi ở đây rất đơn giản - sự lựa chọn chỉ bị giới hạn bởi những ưu đãi dành cho một khách hàng nhất định.

Quy định nội bộ/nhà cung cấp/mẫu mã được phép mua hàng
Câu hỏi cũng vô cùng đơn giản nhưng bạn cần phải ghi nhớ.

Ở đâu về thể chất

Trong phần này, chúng tôi xem xét tất cả các vấn đề về địa lý, kênh liên lạc và vi khí hậu trong cơ sở lưu trú.

nhân viên

Ai sẽ làm việc với hệ thống lưu trữ này? Điều này không kém phần quan trọng so với những gì hệ thống lưu trữ có thể làm được.
Cho dù hệ thống lưu trữ của nhà cung cấp A hứa hẹn, tuyệt vời và tuyệt vời đến đâu, có lẽ việc lắp đặt nó sẽ chẳng có ý nghĩa gì nếu nhân viên chỉ biết cách làm việc với nhà cung cấp B và không có kế hoạch mua thêm cũng như hợp tác liên tục với A.

Và tất nhiên, mặt còn lại của câu hỏi là làm thế nào có sẵn nhân lực được đào tạo ở một vị trí địa lý nhất định trực tiếp trong công ty và có khả năng có mặt trên thị trường lao động. Đối với các khu vực, việc lựa chọn hệ thống lưu trữ có giao diện đơn giản hoặc khả năng quản lý tập trung từ xa có thể rất có ý nghĩa. Nếu không, đến một lúc nào đó nó có thể trở nên đau đớn tột cùng. Internet tràn ngập những câu chuyện về việc một nhân viên mới đến, sinh viên ngày hôm qua, đã cấu hình một thứ khiến toàn bộ văn phòng bị giết.

Cách chọn nơi lưu trữ mà không tự bắn vào chân mình

Môi trường

Và tất nhiên, một câu hỏi quan trọng là hệ thống lưu trữ này sẽ hoạt động trong môi trường nào.

  • Còn nguồn điện/làm mát thì sao?
  • Kết nối gì
  • Nó sẽ được cài đặt ở đâu?
  • Vân vân.

Thông thường, những câu hỏi này được coi là đương nhiên và không được quan tâm đặc biệt, nhưng đôi khi chúng lại là những câu hỏi có thể xoay chuyển mọi thứ.

Đó

Người bán

Tính đến hôm nay (giữa năm 2019), thị trường lưu trữ ở Nga có thể được chia thành 5 loại:

  1. Bộ phận cao nhất là các công ty có uy tín với nhiều loại kệ đĩa từ đơn giản nhất đến cao cấp (HPE, DellEMC, Hitachi, NetApp, IBM / Lenovo)
  2. Bộ phận thứ hai - các công ty có dòng sản phẩm hạn chế, người chơi thích hợp, nhà cung cấp SDS nghiêm túc hoặc những công ty mới nổi (Fujitsu, Datacore, Infinidat, Huawei, Pure, v.v.)
  3. Phân khu thứ ba - các giải pháp thích hợp ở cấp thấp, SDS giá rẻ, các sản phẩm tiên tiến dựa trên ceph và các dự án mở khác (Infortrend, Starwind, v.v.)
  4. Phân khúc SOHO - hệ thống lưu trữ nhỏ và siêu nhỏ ở cấp độ gia đình/văn phòng nhỏ (Synology, QNAP, v.v.)
  5. Hệ thống lưu trữ thay thế nhập khẩu - bao gồm cả phần cứng của bộ phận thứ nhất có nhãn được dán nhãn lại và đại diện hiếm hoi của bộ phận thứ hai (RAIDIX, chúng tôi sẽ cung cấp trước cho họ bộ phận thứ hai), nhưng chủ yếu đây là bộ phận thứ ba (Aerodisk, Baum, Depo, v.v.)

Việc phân chia khá tùy tiện và hoàn toàn không có nghĩa là phân đoạn thứ ba hoặc SOHO xấu và không thể sử dụng được. Trong các dự án cụ thể có tập dữ liệu và hồ sơ tải được xác định rõ ràng, chúng có thể hoạt động rất tốt, vượt xa phân khúc đầu tiên về tỷ lệ giá/chất lượng. Điều quan trọng trước tiên là phải quyết định mục tiêu, triển vọng tăng trưởng và chức năng cần thiết của bạn - sau đó Synology sẽ phục vụ bạn một cách trung thành và tóc của bạn sẽ trở nên mềm và mượt.

Một trong những yếu tố quan trọng khi lựa chọn nhà cung cấp là môi trường hiện tại. Bạn đã có bao nhiêu hệ thống lưu trữ và kỹ sư của bạn có thể làm việc với hệ thống lưu trữ nào. Bạn có cần một nhà cung cấp khác, một đầu mối liên hệ khác, bạn có chuyển dần toàn bộ công việc từ nhà cung cấp A sang nhà cung cấp B không?

Người ta không nên tạo ra những thực thể vượt quá những gì cần thiết.

iSCSI/FC/Tập tin

Không có sự đồng thuận giữa các kỹ sư về vấn đề giao thức truy cập và cuộc tranh luận giống như các cuộc thảo luận mang tính thần học hơn là các cuộc tranh luận về kỹ thuật. Nhưng nhìn chung có thể lưu ý những điểm sau:

FCoE chết nhiều hơn sống.

FC vs iSCSI. Một trong những lợi thế chính của FC trong năm 2019 so với lưu trữ IP, một nhà máy chuyên dụng để truy cập dữ liệu, được bù đắp bằng mạng IP chuyên dụng. FC không có lợi thế toàn cầu so với mạng IP và IP có thể được sử dụng để xây dựng hệ thống lưu trữ ở mọi cấp độ tải, cho đến hệ thống DBMS nặng cho hệ thống ngân hàng lõi của một ngân hàng lớn. Mặt khác, cái chết của FC đã được tiên tri từ vài năm nay nhưng có điều gì đó liên tục ngăn cản điều đó. Ví dụ: ngày nay, một số người tham gia thị trường lưu trữ đang tích cực phát triển tiêu chuẩn NVMEoF. Liệu anh ấy có chia sẻ số phận của FCoE hay không - thời gian sẽ trả lời.

Truy cập file cũng không phải là điều đáng quan tâm. NFS/CIFS hoạt động tốt trong môi trường năng suất và nếu được thiết kế chính xác thì sẽ không có nhiều khiếu nại hơn các giao thức chặn.

Hỗn hợp / Tất cả mảng Flash

Hệ thống lưu trữ cổ điển có 2 loại:

  1. AFA (All Flash Array) - hệ thống được tối ưu hóa để sử dụng SSD.
  2. Kết hợp - cho phép bạn sử dụng cả HDD và SSD hoặc kết hợp chúng.

Sự khác biệt chính của chúng là các công nghệ hiệu quả lưu trữ được hỗ trợ và mức hiệu suất tối đa (IOPS cao và độ trễ thấp). Cả hai hệ thống (trong hầu hết các kiểu máy của chúng, không tính phân khúc cấp thấp) đều có thể hoạt động như cả thiết bị khối và thiết bị tập tin. Chức năng được hỗ trợ tùy thuộc vào cấp độ của hệ thống và đối với các kiểu máy trẻ hơn, chức năng này thường được giảm xuống mức tối thiểu. Điều này đáng chú ý khi bạn nghiên cứu các đặc điểm của một mô hình cụ thể chứ không chỉ khả năng của toàn bộ dây chuyền. Tất nhiên, các đặc tính kỹ thuật của nó, chẳng hạn như bộ xử lý, dung lượng bộ nhớ, bộ đệm, số lượng và loại cổng, v.v., cũng phụ thuộc vào cấp độ của hệ thống. Từ quan điểm quản lý, AFA chỉ khác với các hệ thống lai (đĩa) ở việc thực hiện các cơ chế làm việc với ổ SSD và ngay cả khi bạn sử dụng SSD trong hệ thống lai, điều này không có nghĩa là bạn sẽ có thể để đạt được mức hiệu suất ở cấp độ của hệ thống AFA. Ngoài ra, trong hầu hết các trường hợp, cơ chế lưu trữ hiệu quả nội tuyến bị vô hiệu hóa trên các hệ thống kết hợp và việc đưa chúng vào dẫn đến giảm hiệu suất.

Hệ thống lưu trữ đặc biệt

Ngoài các hệ thống lưu trữ đa năng, tập trung chủ yếu vào xử lý dữ liệu vận hành, còn có các hệ thống lưu trữ đặc biệt với các nguyên tắc chính khác biệt cơ bản so với các hệ thống thông thường (độ trễ thấp, IOPS cao):

Phương tiện truyền thông.

Các hệ thống này được thiết kế để lưu trữ và xử lý các tệp phương tiện lớn. đáp lại độ trễ thực tế trở nên không còn quan trọng và khả năng gửi và nhận dữ liệu ở băng tần rộng ở nhiều luồng song song trở nên nổi bật.

Chống trùng lặp hệ thống lưu trữ để sao lưu.

Vì các bản sao lưu được phân biệt bởi sự giống nhau của chúng, điều này hiếm khi xảy ra trong điều kiện bình thường (bản sao lưu trung bình khác với bản sao của ngày hôm qua 1-2%), loại hệ thống này đóng gói dữ liệu được ghi trên chúng một cách cực kỳ hiệu quả trong một phạm vi khá nhỏ. số phương tiện vật lý. Ví dụ: trong một số trường hợp, tỷ lệ nén dữ liệu có thể đạt tới 200:1.

Hệ thống lưu trữ đối tượng

Các hệ thống lưu trữ này không có khối lượng truy cập khối và chia sẻ tệp thông thường và hầu hết chúng giống với một cơ sở dữ liệu khổng lồ. Việc truy cập vào một đối tượng được lưu trữ trong hệ thống như vậy được thực hiện bằng mã định danh duy nhất hoặc bằng siêu dữ liệu (ví dụ: tất cả các đối tượng có định dạng JPEG có ngày tạo trong khoảng XX-XX-XXXX và YY-YY-YYYY).

Hệ thống tuân thủ.

Ngày nay chúng không quá phổ biến ở Nga, nhưng chúng rất đáng được nhắc đến. Mục đích của các hệ thống lưu trữ như vậy là đảm bảo lưu trữ dữ liệu tuân thủ các chính sách bảo mật hoặc các yêu cầu pháp lý. Một số hệ thống (ví dụ như EMC Centera) đã triển khai chức năng cấm xóa dữ liệu - ngay khi bật phím và hệ thống chuyển sang chế độ này, cả quản trị viên và bất kỳ ai khác đều không thể xóa dữ liệu đã được ghi lại một cách vật lý.

Công nghệ độc quyền

bộ nhớ cache flash

Flash Cache là tên chung cho tất cả các công nghệ độc quyền để sử dụng bộ nhớ flash làm bộ đệm cấp hai. Khi sử dụng bộ đệm flash, hệ thống lưu trữ thường được tính toán để cung cấp tải ổn định từ các đĩa từ, trong khi bộ nhớ đệm phục vụ mức cao nhất.

Trong trường hợp này, cần phải hiểu cấu hình tải và mức độ bản địa hóa quyền truy cập vào các khối dung lượng lưu trữ. Bộ đệm flash là công nghệ dành cho khối lượng công việc có truy vấn được bản địa hóa cao và trên thực tế không thể áp dụng cho các khối lượng được tải đồng đều (chẳng hạn như đối với hệ thống phân tích).

Có hai cách triển khai bộ đệm flash hiện có trên thị trường:

  • Chỉ đọc. Trong trường hợp này, chỉ dữ liệu đọc được lưu vào bộ đệm và việc ghi sẽ trực tiếp vào đĩa. Một số nhà sản xuất, chẳng hạn như NetApp, tin rằng việc ghi vào hệ thống lưu trữ của họ đã là tối ưu và bộ đệm sẽ không giúp ích gì cả.
  • Đọc viết. Không chỉ đọc mà cả ghi cũng được lưu vào bộ nhớ đệm, cho phép bạn đệm luồng và giảm tác động của Hình phạt RAID, đồng thời nhờ đó tăng hiệu suất tổng thể cho các hệ thống lưu trữ có cơ chế ghi kém tối ưu hơn.

Phân tầng

Lưu trữ đa cấp (mệt mỏi) là công nghệ kết hợp các cấp độ với các mức hiệu suất khác nhau, chẳng hạn như SSD và HDD, vào một nhóm đĩa đơn. Trong trường hợp có sự không đồng đều rõ rệt trong việc truy cập vào các khối dữ liệu, hệ thống sẽ có thể tự động cân bằng các khối dữ liệu, chuyển các khối dữ liệu đã tải sang mức hiệu suất cao và ngược lại, các khối dữ liệu nguội sang mức chậm hơn.

Các hệ thống kết hợp giữa tầng lớp thấp và trung lưu sử dụng bộ lưu trữ đa cấp với dữ liệu di chuyển giữa các cấp theo lịch trình. Đồng thời, kích thước của khối lưu trữ đa cấp đối với các mẫu tốt nhất là 256 MB. Những tính năng này không cho phép chúng ta coi công nghệ lưu trữ theo cấp độ là công nghệ giúp tăng năng suất như nhiều người lầm tưởng. Lưu trữ đa cấp trong các hệ thống cấp thấp và trung bình là công nghệ giúp tối ưu hóa chi phí lưu trữ cho các hệ thống có tải không đồng đều rõ rệt.

Ảnh chụp

Cho dù chúng ta có nói nhiều đến mức nào về độ tin cậy của hệ thống lưu trữ thì vẫn có rất nhiều khả năng bị mất dữ liệu không phụ thuộc vào vấn đề phần cứng. Đây có thể là vi-rút, tin tặc hoặc bất kỳ hành vi xóa/làm hỏng dữ liệu ngoài ý muốn nào khác. Vì lý do này, việc sao lưu dữ liệu sản xuất là một phần không thể thiếu trong công việc của kỹ sư.

Ảnh chụp nhanh là ảnh chụp nhanh của một ổ đĩa tại một thời điểm nào đó. Khi làm việc với hầu hết các hệ thống, chẳng hạn như ảo hóa, cơ sở dữ liệu, v.v. chúng tôi cần chụp một ảnh chụp nhanh để từ đó chúng tôi sẽ sao chép dữ liệu sang bản sao lưu, trong khi IS của chúng tôi có thể tiếp tục hoạt động với ổ đĩa này một cách an toàn. Nhưng cần nhớ rằng không phải tất cả ảnh chụp nhanh đều hữu ích như nhau. Các nhà cung cấp khác nhau có những cách tiếp cận khác nhau để tạo ảnh chụp nhanh liên quan đến kiến ​​trúc của họ.

CoW (Sao chép khi ghi). Khi bạn cố gắng ghi một khối dữ liệu, nội dung ban đầu của nó sẽ được sao chép vào một khu vực đặc biệt, sau đó quá trình ghi diễn ra bình thường. Điều này ngăn ngừa hỏng dữ liệu bên trong ảnh chụp nhanh. Đương nhiên, tất cả các thao tác dữ liệu "ký sinh" này đều gây ra tải bổ sung cho hệ thống lưu trữ và vì lý do này, các nhà cung cấp có cách triển khai tương tự không khuyến nghị sử dụng hơn chục ảnh chụp nhanh và hoàn toàn không sử dụng chúng trên khối lượng được tải cao.

RoW (Chuyển hướng khi ghi). Trong trường hợp này, ổ đĩa gốc tự nhiên bị đóng băng và khi cố gắng ghi một khối dữ liệu, hệ thống lưu trữ sẽ ghi dữ liệu vào một vùng đặc biệt trong không gian trống, thay đổi vị trí của khối này trong bảng siêu dữ liệu. Điều này cho phép bạn giảm số lượng thao tác ghi lại, điều này cuối cùng giúp loại bỏ tình trạng giảm hiệu suất và loại bỏ các hạn chế đối với ảnh chụp nhanh và số lượng của chúng.

Ảnh chụp nhanh cũng có hai loại liên quan đến ứng dụng:

Tính nhất quán của ứng dụng. Tại thời điểm tạo ảnh chụp nhanh, hệ thống lưu trữ sẽ kéo một tác nhân trong hệ điều hành của người tiêu dùng, tác nhân này buộc phải xóa bộ đệm đĩa từ bộ nhớ sang đĩa và buộc ứng dụng thực hiện việc này. Trong trường hợp này, khi khôi phục từ ảnh chụp nhanh, dữ liệu sẽ nhất quán.

Sự cố nhất quán. Trong trường hợp này, không có gì giống như vậy xảy ra và ảnh chụp nhanh vẫn được tạo. Trong trường hợp khôi phục từ ảnh chụp nhanh như vậy, hình ảnh giống hệt với những gì sẽ xảy ra nếu nguồn bị tắt đột ngột và có thể mất một số dữ liệu, bị kẹt trong bộ nhớ đệm và không bao giờ tiếp cận được đĩa. Những ảnh chụp nhanh như vậy dễ thực hiện hơn và không gây suy giảm hiệu suất trong các ứng dụng nhưng lại kém tin cậy hơn.

Tại sao cần có ảnh chụp nhanh trên hệ thống lưu trữ?

  • Sao lưu không cần tác nhân trực tiếp từ hệ thống lưu trữ
  • Tạo môi trường thử nghiệm dựa trên dữ liệu thực
  • Trong trường hợp hệ thống lưu trữ tệp, nó có thể được sử dụng để tạo môi trường VDI thông qua việc sử dụng ảnh chụp nhanh hệ thống lưu trữ thay vì bộ ảo hóa
  • Đảm bảo RPO thấp bằng cách tạo ảnh chụp nhanh theo lịch ở tần suất cao hơn đáng kể so với tần suất dự phòng

Nhân bản

Nhân bản khối lượng - hoạt động theo nguyên tắc tương tự như ảnh chụp nhanh, nhưng không chỉ được sử dụng để đọc dữ liệu mà còn để làm việc hoàn toàn với dữ liệu đó. Chúng tôi có thể nhận được một bản sao chính xác của tập của mình, với tất cả dữ liệu trên đó mà không cần tạo một bản sao vật lý, điều này sẽ tiết kiệm dung lượng. Thông thường, nhân bản ổ đĩa được sử dụng trong Test&Dev hoặc nếu bạn muốn kiểm tra chức năng của một số bản cập nhật trên IS của mình. Nhân bản sẽ cho phép bạn thực hiện việc này nhanh chóng và tiết kiệm nhất có thể về mặt tài nguyên đĩa, bởi vì Chỉ các khối dữ liệu đã thay đổi mới được ghi.

Sao chép / ghi nhật ký

Sao chép là một cơ chế tạo bản sao dữ liệu trên một hệ thống lưu trữ vật lý khác. Thông thường, mỗi nhà cung cấp có một công nghệ độc quyền chỉ hoạt động trong dòng sản phẩm riêng của mình. Nhưng cũng có các giải pháp của bên thứ ba, bao gồm cả những giải pháp hoạt động ở cấp độ ảo hóa, chẳng hạn như VMware vSphere Replication.

Chức năng của các công nghệ độc quyền và tính dễ sử dụng của chúng thường vượt trội hơn nhiều so với các công nghệ phổ thông, nhưng chúng không thể áp dụng được, chẳng hạn như khi cần tạo một bản sao từ NetApp sang HP MSA.

Bản sao được chia thành hai loại phụ:

Đồng bộ. Trong trường hợp sao chép đồng bộ, thao tác ghi sẽ được gửi ngay đến hệ thống lưu trữ thứ hai và việc thực thi không được xác nhận cho đến khi hệ thống lưu trữ từ xa xác nhận. Do đó, độ trễ truy cập tăng lên nhưng chúng tôi có bản sao chính xác của dữ liệu. Những thứ kia. RPO = 0 trong trường hợp mất hệ thống lưu trữ chính.

không đồng bộ. Hoạt động ghi chỉ được thực hiện trên hệ thống lưu trữ chính và được xác nhận ngay lập tức, đồng thời tích lũy trong bộ đệm để truyền hàng loạt tới hệ thống lưu trữ từ xa. Kiểu sao chép này phù hợp với dữ liệu ít giá trị hơn hoặc đối với các kênh có băng thông thấp hoặc độ trễ cao (điển hình cho khoảng cách trên 100 km). Theo đó, RPO = tần suất gửi gói.

Thông thường, cùng với việc sao chép, có một cơ chế khai thác gỗ hoạt động của đĩa. Trong trường hợp này, một khu vực đặc biệt được phân bổ để ghi nhật ký và ghi lại các hoạt động ở một độ sâu nhất định về thời gian hoặc bị giới hạn bởi khối lượng nhật ký được lưu trữ. Đối với một số công nghệ độc quyền nhất định, chẳng hạn như EMC RecoverPoint, có sự tích hợp với phần mềm hệ thống cho phép bạn liên kết các dấu trang nhất định với một mục nhật ký cụ thể. Nhờ đó, có thể quay ngược trạng thái của một ổ đĩa (hoặc tạo một bản sao) không chỉ về ngày 23 tháng 11, 59 giờ 13 giây XNUMX mili giây mà còn về thời điểm trước khi “DROP ALL TABLES; LÀM."

Cụm tàu ​​điện ngầm

Cụm Metro là công nghệ cho phép bạn tạo bản sao đồng bộ hai chiều giữa hai hệ thống lưu trữ theo cách mà nhìn từ bên ngoài, cặp này trông giống như một hệ thống lưu trữ. Nó được sử dụng để tạo các cụm có các nhánh tách biệt về mặt địa lý ở khoảng cách đô thị (dưới 100 km).

Dựa trên ví dụ về việc sử dụng trong môi trường ảo hóa, metrocluster cho phép bạn tạo kho dữ liệu bằng máy ảo, có thể truy cập để ghi từ hai trung tâm dữ liệu cùng một lúc. Trong trường hợp này, một cụm được tạo ở cấp độ ảo hóa, bao gồm các máy chủ ở các trung tâm dữ liệu vật lý khác nhau, được kết nối với kho dữ liệu này. Điều này cho phép bạn thực hiện những việc sau:

  • Tự động hóa hoàn toàn quá trình phục hồi sau khi một trong các trung tâm dữ liệu bị hỏng. Nếu không có thêm bất kỳ khoản tiền nào, tất cả các máy ảo đang chạy trong trung tâm dữ liệu đã ngừng hoạt động sẽ tự động được khởi động lại ở trung tâm còn lại. RTO = thời gian chờ của cụm có tính sẵn sàng cao (15 giây đối với VMware) + thời gian tải hệ điều hành và khởi động dịch vụ.
  • Tránh thiên tai hoặc trong tiếng Nga là tránh thảm họa. Nếu công việc cung cấp điện được lên kế hoạch ở trung tâm dữ liệu 1, thì chúng ta có cơ hội di chuyển toàn bộ phụ tải quan trọng sang trung tâm dữ liệu 2 không ngừng nghỉ trước khi công việc bắt đầu.

Ảo hóa

Ảo hóa lưu trữ về mặt kỹ thuật là việc sử dụng các ổ đĩa từ hệ thống lưu trữ khác dưới dạng đĩa. Trình ảo hóa lưu trữ có thể chỉ cần chuyển ổ đĩa của người khác sang ổ đĩa của người tiêu dùng, đồng thời phản chiếu ổ đĩa đó sang hệ thống lưu trữ khác hoặc thậm chí tạo RAID từ ổ đĩa bên ngoài.
Đại diện cổ điển trong lớp ảo hóa lưu trữ là EMC VPLEX và IBM SVC. Và tất nhiên, hệ thống lưu trữ có chức năng ảo hóa - NetApp, Hitachi, IBM / Lenovo Storwize.

Tại sao nó có thể cần thiết?

  • Dự phòng ở cấp độ hệ thống lưu trữ. Một bản sao được tạo giữa các tập và một nửa có thể ở trên HP 3Par và nửa còn lại trên NetApp. Và bộ ảo hóa là của EMC.
  • Di chuyển dữ liệu với thời gian ngừng hoạt động tối thiểu giữa các hệ thống lưu trữ từ các nhà sản xuất khác nhau. Giả sử rằng dữ liệu cần được di chuyển từ 3Par cũ sang Dell mới. Trong trường hợp này, người tiêu dùng bị ngắt kết nối khỏi 3Par, khối lượng được chuyển trong VPLEX và được trình bày lại cho người tiêu dùng. Vì âm lượng không thay đổi chút nào nên công việc vẫn tiếp tục. Quá trình phản chiếu âm lượng sang Dell mới bắt đầu ở chế độ nền và sau khi hoàn thành, gương bị hỏng và 3Par bị tắt.
  • Tổ chức các cụm đô thị.

Nén/khử trùng lặp

Nén và chống trùng lặp là những công nghệ cho phép bạn tiết kiệm dung lượng ổ đĩa trên hệ thống lưu trữ của mình. Điều đáng nói ngay là về nguyên tắc không phải tất cả dữ liệu đều có thể nén và/hoặc chống trùng lặp, trong khi một số loại dữ liệu được nén và chống trùng lặp tốt hơn, và một số - ngược lại.

Có 2 loại nén và chống trùng lặp:

Nội tuyến — việc nén và sao chép các khối dữ liệu xảy ra trước khi ghi dữ liệu này vào đĩa. Do đó, hệ thống chỉ tính toán hàm băm của khối và so sánh nó trong bảng với khối hiện có. Thứ nhất, nó nhanh hơn việc chỉ ghi vào đĩa và thứ hai, chúng tôi không lãng phí thêm dung lượng đĩa.

Bài đăng - khi các thao tác này được thực hiện trên dữ liệu đã được ghi trên đĩa. Theo đó, dữ liệu đầu tiên được ghi vào đĩa, sau đó chỉ sau đó hàm băm mới được tính toán và các khối không cần thiết sẽ bị xóa và tài nguyên đĩa được giải phóng.

Điều đáng nói là hầu hết các nhà cung cấp đều sử dụng cả hai loại, điều này cho phép họ tối ưu hóa các quy trình này và do đó tăng hiệu quả của chúng. Hầu hết các nhà cung cấp dịch vụ lưu trữ đều có tiện ích cho phép bạn phân tích tập dữ liệu của mình. Các tiện ích này hoạt động theo cùng một logic được triển khai trong hệ thống lưu trữ nên mức độ hiệu quả ước tính sẽ giống nhau. Ngoài ra, hãy nhớ rằng nhiều nhà cung cấp có các chương trình đảm bảo hiệu suất hứa hẹn ít nhất là có hiệu suất tốt đối với một số (hoặc tất cả) loại dữ liệu nhất định. Và bạn không nên bỏ qua chương trình này, vì bằng cách tính toán hệ thống cho các nhiệm vụ của mình, có tính đến hệ số hiệu quả của một hệ thống cụ thể, bạn có thể tiết kiệm khối lượng. Cũng cần lưu ý rằng các chương trình này được thiết kế cho hệ thống AFA, nhưng nhờ việc mua dung lượng SSD nhỏ hơn HDD trong các hệ thống cổ điển, điều này sẽ giảm giá thành của chúng và nếu không bằng giá thành của hệ thống đĩa thì đến khá gần nó.

kiểu mẫu

Và ở đây chúng ta đã đến câu hỏi đúng.

“Họ cung cấp cho tôi hai tùy chọn lưu trữ - ABC SuperStorage S600 và XYZ HyperOcean 666v4, bạn đề xuất gì?”

Chuyển thành “Ở đây họ cung cấp cho tôi hai tùy chọn lưu trữ - ABC SuperStorage S600 và XYZ HyperOcean 666v4, bạn đề xuất gì?

Tải mục tiêu là các máy ảo VMware hỗn hợp với các vòng lặp sản xuất/thử nghiệm/phát triển. Kiểm tra = hiệu quả. Mỗi ổ 150 TB với hiệu suất cao nhất là 80 IOPS khối 000kb Truy cập ngẫu nhiên 8% tốc độ đọc-ghi 50/80. 20 TB để phát triển, 300 IOPS là đủ, 50 ngẫu nhiên, 000 ghi.

Năng suất có lẽ ở Metrocluster RPO = 15 phút RTO = 1 giờ, phát triển trong sao chép không đồng bộ RPO = 3 giờ, thử nghiệm trên một địa điểm.

Sẽ có một DBMS 50TB, việc ghi nhật ký sẽ rất tốt cho họ.

Chúng tôi có máy chủ Dell ở khắp mọi nơi, hệ thống lưu trữ cũ của Hitachi, chúng gần như không thể đáp ứng được, chúng tôi dự định tăng tải thêm 50% về khối lượng và hiệu suất.”

Như người ta nói, một câu hỏi được xây dựng đúng sẽ chứa đựng 80% câu trả lời.

thêm thông tin

Những gì bạn nên đọc thêm theo tác giả

sách

  • Olife và Olife “Mạng máy tính”. Cuốn sách sẽ giúp hệ thống hóa và có lẽ hiểu rõ hơn về cách thức hoạt động của phương tiện truyền dữ liệu cho hệ thống lưu trữ IP / Ethernet
  • “Quản lý và lưu trữ thông tin EMC.” Một cuốn sách tuyệt vời về những kiến ​​thức cơ bản về hệ thống lưu trữ, các lý do tại sao, thế nào và vì sao.

Diễn đàn và trò chuyện

Khuyến nghị chung

Цены

Bây giờ, về giá cả - nói chung, nếu có giá cho hệ thống lưu trữ, thì đó thường là Giá niêm yết, từ đó mỗi khách hàng sẽ được giảm giá riêng. Quy mô chiết khấu bao gồm một số lượng lớn các tham số, vì vậy không thể dự đoán mức giá cuối cùng mà công ty bạn sẽ nhận được nếu không hỏi nhà phân phối. Nhưng đồng thời, gần đây các mẫu máy cấp thấp đã bắt đầu xuất hiện trong các cửa hàng máy tính thông thường, chẳng hạn như nix.ru hoặc xcom-shop.ru. Tại đây, bạn có thể mua ngay hệ thống mà bạn quan tâm với mức giá cố định, giống như bất kỳ linh kiện máy tính nào.

Nhưng tôi muốn lưu ý ngay rằng so sánh trực tiếp bằng TB/$ là không chính xác. Nếu chúng ta tiếp cận nó từ quan điểm này, thì giải pháp rẻ nhất sẽ là một máy chủ JBOD + đơn giản, sẽ không cung cấp tính linh hoạt hoặc độ tin cậy mà một hệ thống lưu trữ bộ điều khiển kép, chính thức cung cấp. Điều này hoàn toàn không có nghĩa là JBOD là một trò lừa bẩn thỉu và kinh tởm, bạn chỉ cần hiểu rất rõ ràng cách thức và mục đích sử dụng giải pháp này. Bạn thường có thể nghe nói rằng không có gì để phá vỡ trong JBOD, chỉ có một bảng nối đa năng. Tuy nhiên, backplanes đôi khi cũng bị lỗi. Mọi chuyện sớm muộn gì cũng tan vỡ.

trong tổng số

Cần phải so sánh các hệ thống với nhau không chỉ bằng giá cả, không chỉ bằng hiệu suất mà bằng tổng thể tất cả các chỉ số.

Chỉ mua ổ cứng nếu bạn chắc chắn rằng mình cần ổ cứng. Đối với mức tải thấp và loại dữ liệu không thể nén, nếu không, bạn nên chuyển sang các chương trình đảm bảo hiệu quả lưu trữ SSD, chương trình mà hầu hết các nhà cung cấp hiện nay đều có (và chúng thực sự hoạt động, ngay cả ở Nga), nhưng tất cả phụ thuộc vào ứng dụng và dữ liệu sẽ được định vị trên hệ thống lưu trữ này.

Đừng ham rẻ. Đôi khi những điều này ẩn giấu rất nhiều khoảnh khắc khó chịu, một trong số đó Evgeniy Elizarov đã mô tả trong các bài báo của mình về xu hướng. Và cuối cùng, sự rẻ tiền này có thể gây phản tác dụng cho bạn. Đừng quên - “kẻ keo kiệt phải trả gấp đôi.”

Nguồn: www.habr.com

Thêm một lời nhận xét