TileDB的主要特点:
- 存储稀疏数组的有效方法,其中的数据不连续;数组中充满了碎片,并且大多数元素保持为空或取相同的值。
- 能够访问键值格式或列集的数据(
数据框 ); - 支持与云存储AWS S3、Google Cloud Storage和Azure Blob Storage集成;
- 支持平铺(块)数组;
- 能够使用不同的数据压缩和加密算法;
- 支持使用校验和进行完整性检查;
- 以多线程模式工作,并行输入/输出;
- 支持对存储的数据进行版本控制,包括检索过去某个时刻的状态或整个大型集的原子更新。
- 链接元数据的能力;
- 支持数据分组;
- 用作 Spark、Dask、MariaDB、GDAL、PDAL、Rasterio、gVCF 和 PrestoDB 中低级存储引擎的集成模块;
- 适用于 Python、R、Java 和 Go 的 C++ API 的绑定库。
2.0 版以其对“DataFrame”概念的支持而闻名,该概念允许数据以任意长度的值列的形式存储,并与某些属性相关联。 存储还针对处理异构大小的稀疏数组进行了优化(单元格可以存储不同类型的数据,并且可以对不同类型的列执行合并操作,例如存储名称、时间和价格的列)。 添加了对包含字符串数据的列的支持。 添加了与 Google Cloud Storage 和 Azure Blob Storage 集成的模块。 R 语言的 API 已重新设计。
来源: opennet.ru