Phát hành công cụ lưu trữ TileDB 2.0

Опубликовано lưu trữ NgóiDB 2.0, được tối ưu hóa để lưu trữ mảng đa chiều và dữ liệu được sử dụng trong tính toán khoa học. Các hệ thống khác nhau để xử lý thông tin di truyền, dữ liệu không gian và tài chính được đề cập là các lĩnh vực ứng dụng cho TileDB, tức là. các hệ điều hành thưa thớt hoặc mảng đa chiều được lấp đầy liên tục. TileDB cung cấp thư viện C++ để truy cập trừu tượng một cách minh bạch vào dữ liệu và siêu dữ liệu trong các ứng dụng, xử lý tất cả công việc cấp thấp để lưu trữ hiệu quả. Mã dự án được viết bằng C++ và phân phối bởi theo giấy phép MIT. Hỗ trợ hoạt động trên Linux, macOS và Windows.

Các tính năng chính của TileDB:

  • Các phương pháp hiệu quả để lưu trữ các mảng thưa thớt, dữ liệu trong đó không liên tục; mảng chứa đầy các đoạn và hầu hết các phần tử vẫn trống hoặc có cùng giá trị.
  • Khả năng truy cập dữ liệu ở định dạng khóa-giá trị hoặc tập hợp cột (Khung dữ liệu);

    Phát hành công cụ lưu trữ TileDB 2.0

  • Hỗ trợ tích hợp với lưu trữ đám mây AWS S3, Google Cloud Storage và Azure Blob Storage;
  • Hỗ trợ mảng xếp chồng (khối);
  • Khả năng sử dụng các thuật toán nén và mã hóa dữ liệu khác nhau;
  • Hỗ trợ kiểm tra tính toàn vẹn bằng cách sử dụng tổng kiểm tra;
  • Làm việc ở chế độ đa luồng với đầu vào/đầu ra song song;
  • Hỗ trợ lập phiên bản dữ liệu được lưu trữ, bao gồm truy xuất trạng thái tại một thời điểm nhất định trong quá khứ hoặc cập nhật nguyên tử của toàn bộ tập hợp lớn.
  • Khả năng liên kết siêu dữ liệu;
  • Hỗ trợ nhóm dữ liệu;
  • Các mô-đun tích hợp để sử dụng làm công cụ lưu trữ cấp thấp trong Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF và PrestoDB;
  • Thư viện liên kết cho API C++ cho Python, R, Java và Go.

Phiên bản 2.0 đáng chú ý vì nó hỗ trợ khái niệm “DataFrame”, cho phép dữ liệu được lưu trữ dưới dạng các cột giá trị có độ dài tùy ý, gắn với các thuộc tính nhất định. Bộ lưu trữ cũng được tối ưu hóa để xử lý các mảng thưa thớt có kích thước không đồng nhất (các ô có thể lưu trữ dữ liệu thuộc nhiều loại khác nhau và có thể thực hiện các thao tác hợp nhất trên các cột thuộc các loại khác nhau, chẳng hạn như lưu trữ tên, thời gian và giá cả). Đã thêm hỗ trợ cho các cột có dữ liệu chuỗi. Đã thêm các mô-đun để tích hợp với Google Cloud Storage và Azure Blob Storage. API cho ngôn ngữ R đã được thiết kế lại.

Nguồn: opennet.ru

Thêm một lời nhận xét