TileDB的主要特點:
- 儲存稀疏數組的有效方法,其中的資料不連續;數組中充滿了碎片,並且大多數元素保持為空或取相同的值。
- 能夠存取鍵值格式或列集的資料(
數據框 ); - 支援與雲端儲存AWS S3、Google Cloud Storage和Azure Blob Storage整合;
- 支援平鋪(塊)數組;
- 能夠使用不同的資料壓縮和加密演算法;
- 支援使用校驗和進行完整性檢查;
- 以多執行緒模式工作,並行輸入/輸出;
- 支援對儲存的資料進行版本控制,包括檢索過去某個時刻的狀態或整個大型集合的原子更新。
- 連結元資料的能力;
- 支援數據分組;
- 用作 Spark、Dask、MariaDB、GDAL、PDAL、Rasterio、gVCF 和 PrestoDB 中低階儲存引擎的整合模組;
- 適用於 Python、R、Java 和 Go 的 C++ API 的綁定函式庫。
2.0 版以其對「DataFrame」概念的支援而聞名,該概念允許資料以任意長度的值列的形式存儲,並與某些屬性相關聯。 儲存還針對處理異質大小的稀疏數組進行了最佳化(單元格可以存儲不同類型的數據,並且可以對不同類型的列執行合併操作,例如存儲名稱、時間和價格的列)。 新增了對包含字串資料的列的支援。 新增了與 Google Cloud Storage 和 Azure Blob Storage 整合的模組。 R 語言的 API 已重新設計。
來源: opennet.ru