TileDB 2.0儲存引擎發布

Опубликовано 知識庫 磁貼資料庫2.0,針對儲存科學計算中使用的多維數組和數據進行了最佳化。 TileDB 的應用領域包括用於處理遺傳資訊、空間和金融資料的各種系統,即作業系統 或連續填充的多維數組。 TileDB 提供了一個 C++ 庫,用於透明地抽象化對應用程式中的資料和元資料的訪問​​,並處理所有低階工作以實現高效儲存。 專案程式碼是用C++寫的 分發者 根據麻省理工學院的許可。 支援在 Linux、macOS 和 Windows 上工作。

TileDB的主要特點:

  • 儲存稀疏數組的有效方法,其中的資料不連續;數組中充滿了碎片,並且大多數元素保持為空或取相同的值。
  • 能夠存取鍵值格式或列集的資料(數據框);

    TileDB 2.0儲存引擎發布

  • 支援與雲端儲存AWS S3、Google Cloud Storage和Azure Blob Storage整合;
  • 支援平鋪(塊)數組;
  • 能夠使用不同的資料壓縮和加密演算法;
  • 支援使用校驗和進行完整性檢查;
  • 以多執行緒模式工作,並行輸入/輸出;
  • 支援對儲存的資料進行版本控制,包括檢索過去某個時刻的狀態或整個大型集合的原子更新。
  • 連結元資料的能力;
  • 支援數據分組;
  • 用作 Spark、Dask、MariaDB、GDAL、PDAL、Rasterio、gVCF 和 PrestoDB 中低階儲存引擎的整合模組;
  • 適用於 Python、R、Java 和 Go 的 C++ API 的綁定函式庫。

2.0 版以其對「DataFrame」概念的支援而聞名,該概念允許資料以任意長度的值列的形式存儲,並與某些屬性相關聯。 儲存還針對處理異質大小的稀疏數組進行了最佳化(單元格可以存儲不同類型的數據,並且可以對不同類型的列執行合併操作,例如存儲名稱、時間和價格的列)。 新增了對包含字串資料的列的支援。 新增了與 Google Cloud Storage 和 Azure Blob Storage 整合的模組。 R 語言的 API 已重新設計。

來源: opennet.ru

添加評論