🥇Số liệu lưu trữ đối tượng mới

Pháo đài bay của Nele-Diel

Lệnh lưu trữ đối tượng S3 Lưu trữ đám mây Mail.ru đã dịch một bài viết về những tiêu chí quan trọng khi lựa chọn một đối tượng lưu trữ. Sau đây là bài viết dưới góc nhìn của tác giả.

Khi nói đến lưu trữ đối tượng, mọi người thường chỉ nghĩ đến một điều: giá mỗi TB/GB. Tất nhiên, số liệu này rất quan trọng, nhưng nó làm cho cách tiếp cận trở nên phiến diện và đánh đồng việc lưu trữ đối tượng với một công cụ lưu trữ lưu trữ. Ngoài ra, cách tiếp cận này làm giảm tầm quan trọng của việc lưu trữ đối tượng đối với kho công nghệ doanh nghiệp.

Khi chọn lưu trữ đối tượng, bạn nên chú ý đến năm đặc điểm:

hiệu suất;
khả năng mở rộng;
Tương thích với S3;
phản ứng với những thất bại;
chính trực.

Năm đặc điểm này là số liệu mới cho việc lưu trữ đối tượng, cùng với chi phí. Chúng ta hãy nhìn vào tất cả chúng.

Năng suất

Cửa hàng đối tượng truyền thống thiếu hiệu suất. Các nhà cung cấp dịch vụ liên tục hy sinh nó để theo đuổi mức giá thấp. Tuy nhiên, với việc lưu trữ đối tượng hiện đại thì mọi chuyện lại khác.

Các hệ thống lưu trữ khác nhau tiếp cận hoặc thậm chí vượt quá tốc độ của Hadoop. Yêu cầu hiện đại về tốc độ đọc và ghi: từ 10 GB/s cho ổ cứng, lên đến 35 GB/s cho NVMe.

Thông lượng này đủ cho Spark, Presto, Tensorflow, Teradata, Vertica, Splunk và các khung điện toán hiện đại khác trong ngăn xếp phân tích. Thực tế là cơ sở dữ liệu MPP đang được cấu hình để lưu trữ đối tượng cho thấy rằng nó ngày càng được sử dụng làm bộ lưu trữ chính.

Nếu hệ thống lưu trữ của bạn không cung cấp tốc độ bạn cần, bạn không thể sử dụng dữ liệu và trích xuất giá trị từ nó. Ngay cả khi bạn truy xuất dữ liệu từ bộ lưu trữ đối tượng vào cấu trúc xử lý trong bộ nhớ, bạn vẫn sẽ cần băng thông để truyền dữ liệu đến và đi từ bộ nhớ. Các cửa hàng đồ vật cũ không có đủ thứ đó.

Đây là điểm mấu chốt: thước đo hiệu suất mới là thông lượng chứ không phải độ trễ. Nó cần thiết cho dữ liệu trên quy mô lớn và là tiêu chuẩn trong cơ sở hạ tầng dữ liệu hiện đại.

Mặc dù điểm chuẩn là một cách tốt để xác định hiệu suất nhưng không thể đo lường chính xác trước khi chạy ứng dụng trong môi trường. Chỉ sau đó, bạn mới có thể nói chính xác nút cổ chai nằm ở đâu: trong phần mềm, ổ đĩa, mạng hoặc ở cấp độ tính toán.

Khả năng mở rộng

Khả năng mở rộng đề cập đến số petabyte phù hợp với một không gian tên. Điều mà các nhà cung cấp tuyên bố là khả năng mở rộng dễ dàng, điều họ không nói là khi mở rộng quy mô, các hệ thống nguyên khối khổng lồ trở nên mỏng manh, phức tạp, không ổn định và đắt tiền.

Số liệu mới về khả năng mở rộng là số lượng không gian tên hoặc ứng dụng khách bạn có thể phục vụ. Số liệu này được lấy trực tiếp từ các công cụ siêu tỷ lệ, trong đó các khối xây dựng lưu trữ tuy nhỏ nhưng có quy mô lên tới hàng tỷ đơn vị. Nói chung, đây là số liệu đám mây.

Khi các khối xây dựng nhỏ, chúng sẽ dễ dàng tối ưu hóa hơn để bảo mật, kiểm soát quyền truy cập, quản lý chính sách, quản lý vòng đời và các bản cập nhật không gây gián đoạn. Và cuối cùng là đảm bảo năng suất. Kích thước của khối xây dựng là một chức năng của khả năng kiểm soát vùng sự cố, đó là cách xây dựng các hệ thống có khả năng phục hồi cao.

Multi-tenancy có nhiều đặc điểm. Mặc dù khía cạnh này đề cập đến cách các tổ chức cung cấp quyền truy cập vào dữ liệu và ứng dụng, nhưng nó cũng đề cập đến chính các ứng dụng và logic đằng sau việc tách biệt chúng với nhau.

Đặc điểm của cách tiếp cận hiện đại với nhiều khách hàng:

Trong thời gian ngắn, số lượng khách hàng có thể tăng từ vài trăm đến vài triệu.
Khách hàng hoàn toàn bị cô lập với nhau. Điều này cho phép họ chạy các phiên bản khác nhau của cùng một phần mềm và lưu trữ các đối tượng với cấu hình, quyền, tính năng, mức độ bảo mật và bảo trì khác nhau. Điều này là cần thiết khi mở rộng sang các máy chủ, bản cập nhật và khu vực địa lý mới.
Bộ lưu trữ có khả năng mở rộng linh hoạt, tài nguyên được cung cấp theo yêu cầu.
Mỗi hoạt động được điều khiển bởi API và được tự động hóa mà không cần sự can thiệp của con người.
Phần mềm có thể được lưu trữ trong các thùng chứa và sử dụng các hệ thống điều phối tiêu chuẩn như Kubernetes.

Tương thích với S3

API Amazon S3 là tiêu chuẩn thực tế cho việc lưu trữ đối tượng. Mọi nhà cung cấp phần mềm lưu trữ đối tượng đều khẳng định khả năng tương thích với nó. Khả năng tương thích với S3 là nhị phân: nó được triển khai đầy đủ hoặc không.

Trong thực tế, có hàng trăm hoặc hàng nghìn tình huống phức tạp xảy ra sự cố khi sử dụng bộ lưu trữ đối tượng. Đặc biệt là từ các nhà cung cấp phần mềm và dịch vụ độc quyền. Các trường hợp sử dụng chính của nó là lưu trữ hoặc sao lưu trực tiếp, vì vậy có rất ít lý do để gọi API, các trường hợp sử dụng đều đồng nhất.

Phần mềm nguồn mở có những lợi thế đáng kể. Nó bao gồm hầu hết các kịch bản biên, dựa trên quy mô và sự đa dạng của các ứng dụng, hệ điều hành và kiến trúc phần cứng.

Tất cả điều này đều quan trọng đối với các nhà phát triển ứng dụng, vì vậy rất đáng để thử nghiệm ứng dụng với các nhà cung cấp dịch vụ lưu trữ. Nguồn mở giúp quá trình này trở nên dễ dàng hơn—việc hiểu nền tảng nào phù hợp với ứng dụng của bạn sẽ dễ dàng hơn. Nhà cung cấp có thể được sử dụng như một điểm truy cập duy nhất vào bộ lưu trữ, nghĩa là nó sẽ đáp ứng nhu cầu của bạn.

Nguồn mở có nghĩa là: các ứng dụng không bị ràng buộc với nhà cung cấp và minh bạch hơn. Điều này đảm bảo vòng đời ứng dụng dài.

Và một số lưu ý nữa về mã nguồn mở và S3.

Nếu bạn đang chạy một ứng dụng dữ liệu lớn, S3 SELECT sẽ cải thiện hiệu năng và hiệu quả lên rất nhiều. Nó thực hiện điều này bằng cách sử dụng SQL để chỉ truy xuất các đối tượng bạn cần từ bộ lưu trữ.

Điểm mấu chốt là hỗ trợ thông báo nhóm. Thông báo nhóm hỗ trợ tính toán không có máy chủ, một thành phần quan trọng của mọi kiến trúc vi dịch vụ được phân phối dưới dạng dịch vụ. Do lưu trữ đối tượng là lưu trữ đám mây một cách hiệu quả nên khả năng này trở nên quan trọng khi lưu trữ đối tượng được các ứng dụng dựa trên đám mây sử dụng.

Cuối cùng, việc triển khai S3 phải hỗ trợ các API mã hóa phía máy chủ Amazon S3: SSE-C, SSE-S3, SSE-KMS. Thậm chí tốt hơn nữa, S3 còn hỗ trợ tính năng chống giả mạo thực sự an toàn.

Phản ứng với thất bại

Một thước đo có lẽ thường bị bỏ qua là cách hệ thống xử lý lỗi. Lỗi xảy ra vì nhiều lý do và bộ lưu trữ đối tượng phải xử lý tất cả các lỗi đó.

Ví dụ: có một điểm lỗi duy nhất, số liệu của điểm này bằng XNUMX.

Thật không may, nhiều hệ thống lưu trữ đối tượng sử dụng các nút đặc biệt phải được kích hoạt để cụm hoạt động bình thường. Chúng bao gồm các nút tên hoặc máy chủ siêu dữ liệu - điều này tạo ra một điểm lỗi duy nhất.

Ngay cả khi có nhiều điểm sai sót, khả năng chống chọi với sự cố thảm khốc vẫn là điều tối quan trọng. Đĩa bị lỗi, máy chủ bị lỗi. Điều quan trọng là tạo ra phần mềm được thiết kế để xử lý lỗi như một điều kiện bình thường. Nếu một đĩa hoặc nút bị lỗi, phần mềm đó sẽ tiếp tục hoạt động mà không có thay đổi nào.

Tính năng bảo vệ tích hợp chống lại việc xóa dữ liệu và suy giảm dữ liệu đảm bảo rằng bạn có thể mất số lượng đĩa hoặc nút tương ứng với số khối chẵn lẻ—thường là một nửa số đĩa. Chỉ khi đó phần mềm mới không thể trả về dữ liệu.

Sự cố hiếm khi được kiểm tra dưới tải, nhưng việc kiểm tra như vậy là bắt buộc. Mô phỏng sự cố tải sẽ hiển thị tổng chi phí phát sinh sau sự cố.

Tính nhất quán

Điểm nhất quán 100% còn được gọi là tính nhất quán nghiêm ngặt. Tính nhất quán là thành phần chính của bất kỳ hệ thống lưu trữ nào, nhưng tính nhất quán cao là rất hiếm. Ví dụ: Amazon S3 ListObject không nhất quán hoàn toàn, nó chỉ nhất quán ở phần cuối.

Tính nhất quán nghiêm ngặt có nghĩa là gì? Đối với tất cả các hoạt động theo sau hoạt động PUT đã được xác nhận, những điều sau đây phải xảy ra:

Giá trị cập nhật hiển thị khi đọc từ bất kỳ nút nào.
Bản cập nhật được bảo vệ chống lại sự dư thừa của lỗi nút.

Điều này có nghĩa là nếu bạn rút phích cắm vào giữa bản ghi thì sẽ không có gì bị mất. Hệ thống không bao giờ trả về dữ liệu bị hỏng hoặc lỗi thời. Đây là tiêu chuẩn cao đóng vai trò quan trọng trong nhiều tình huống, từ ứng dụng giao dịch đến sao lưu và phục hồi.

Kết luận

Đây là các số liệu lưu trữ đối tượng mới phản ánh mô hình sử dụng trong các tổ chức ngày nay, trong đó hiệu suất, tính nhất quán, khả năng mở rộng, miền lỗi và khả năng tương thích S3 là nền tảng cho các ứng dụng đám mây và phân tích dữ liệu lớn. Tôi khuyên bạn nên sử dụng danh sách này ngoài giá khi xây dựng ngăn xếp dữ liệu hiện đại.

Giới thiệu về bộ lưu trữ đối tượng của Mail.ru Cloud Solutions: Kiến trúc S3. 3 năm phát triển của Mail.ru Cloud Storage.

Những gì khác để đọc:

Nguồn: www.habr.com