TileDB 2.0存储引擎发布

添加 知识库 磁贴数据库2.0,针对存储科学计算中使用的多维数组和数据进行了优化。 TileDB 的应用领域包括用于处理遗传信息、空间和金融数据的各种系统,即操作系统 或连续填充的多维数组。 TileDB 提供了一个 C++ 库,用于透明地抽象对应用程序中的数据和元数据的访问,并处理所有低级工作以实现高效存储。 项目代码是用C++编写的 分发者 根据麻省理工学院的许可。 支持在 Linux、macOS 和 Windows 上工作。

TileDB的主要特点:

  • 存储稀疏数组的有效方法,其中的数据不连续;数组中充满了碎片,并且大多数元素保持为空或取相同的值。
  • 能够访问键值格式或列集的数据(数据框);

    TileDB 2.0存储引擎发布

  • 支持与云存储AWS S3、Google Cloud Storage和Azure Blob Storage集成;
  • 支持平铺(块)数组;
  • 能够使用不同的数据压缩和加密算法;
  • 支持使用校验和进行完整性检查;
  • 以多线程模式工作,并行输入/输出;
  • 支持对存储的数据进行版本控制,包括检索过去某个时刻的状态或整个大型集的原子更新。
  • 链接元数据的能力;
  • 支持数据分组;
  • 用作 Spark、Dask、MariaDB、GDAL、PDAL、Rasterio、gVCF 和 PrestoDB 中低级存储引擎的集成模块;
  • 适用于 Python、R、Java 和 Go 的 C++ API 的绑定库。

2.0 版以其对“DataFrame”概念的支持而闻名,该概念允许数据以任意长度的值列的形式存储,并与某些属性相关联。 存储还针对处理异构大小的稀疏数组进行了优化(单元格可以存储不同类型的数据,并且可以对不同类型的列执行合并操作,例如存储名称、时间和价格的列)。 添加了对包含字符串数据的列的支持。 添加了与 Google Cloud Storage 和 Azure Blob Storage 集成的模块。 R 语言的 API 已重新设计。

来源: opennet.ru

添加评论