TileDB 2.0 ストレージ エンジンのリリース

Опубликовано リポジトリ タイルDB 2.0、科学計算で使用される多次元配列とデータを保存するために最適化されています。 TileDB の応用分野としては、遺伝情報、空間データ、金融データを処理するためのさまざまなシステムが挙げられています。 オペレーティングシステム まばらな または連続的に埋められる多次元配列。 TileDB は、アプリケーション内のデータおよびメタデータへのアクセスを透過的に抽象化し、効率的なストレージのためのすべての低レベルの作業を処理するための C++ ライブラリを提供します。 プロジェクトのコードは C++ で書かれており、 によって配布 MITライセンスの下で。 Linux、macOS、Windows での作業をサポートします。

TileDB の主な機能:

  • スパース配列 (連続的ではないデータ) を格納するための効率的な方法。配列はフラグメントで満たされ、ほとんどの要素は空のままか、同じ値になります。
  • キー/値形式または列セットのデータにアクセスする機能 (データフレーム);

    TileDB 2.0 ストレージ エンジンのリリース

  • クラウド ストレージ AWS S3、Google Cloud Storage、Azure Blob Storage との統合をサポートします。
  • タイル化された (ブロック) 配列のサポート。
  • さまざまなデータ圧縮および暗号化アルゴリズムを使用する機能。
  • チェックサムを使用した整合性チェックのサポート。
  • パラレル入出力を備えたマルチスレッド モードで動作します。
  • 過去の特定の時点での状態の取得や大規模なセット全体のアトミックな更新など、保存されたデータのバージョン管理のサポート。
  • メタデータをリンクする機能。
  • データのグループ化のサポート。
  • Spark、Dask、MariaDB、GDAL、PDAL、Rasterio、gVCF、PrestoDB で低レベルのストレージ エンジンとして使用するための統合モジュール。
  • Python、R、Java、Go 用の C++ API のバインディング ライブラリ。

リリース 2.0 は、特定の属性に関連付けられた任意の長さの値の列の形式でデータを保存できる「DataFrame」概念のサポートで注目に値します。 このストレージは、異種サイズのスパース配列を処理するためにも最適化されています (セルはさまざまなタイプのデータを保管でき、さまざまなタイプの列 (名前、時刻、価格を保管する列など) に対してマージ操作を実行できます)。 文字列データを含む列のサポートが追加されました。 Google Cloud Storage および Azure Blob Storage と統合するためのモジュールが追加されました。 R 言語の API が再設計されました。

出所: オープンネット.ru

コメントを追加します