TileDB の主な機能:
- スパース配列 (連続的ではないデータ) を格納するための効率的な方法。配列はフラグメントで満たされ、ほとんどの要素は空のままか、同じ値になります。
- キー/値形式または列セットのデータにアクセスする機能 (
データフレーム ); - クラウド ストレージ AWS S3、Google Cloud Storage、Azure Blob Storage との統合をサポートします。
- タイル化された (ブロック) 配列のサポート。
- さまざまなデータ圧縮および暗号化アルゴリズムを使用する機能。
- チェックサムを使用した整合性チェックのサポート。
- パラレル入出力を備えたマルチスレッド モードで動作します。
- 過去の特定の時点での状態の取得や大規模なセット全体のアトミックな更新など、保存されたデータのバージョン管理のサポート。
- メタデータをリンクする機能。
- データのグループ化のサポート。
- Spark、Dask、MariaDB、GDAL、PDAL、Rasterio、gVCF、PrestoDB で低レベルのストレージ エンジンとして使用するための統合モジュール。
- Python、R、Java、Go 用の C++ API のバインディング ライブラリ。
リリース 2.0 は、特定の属性に関連付けられた任意の長さの値の列の形式でデータを保存できる「DataFrame」概念のサポートで注目に値します。 このストレージは、異種サイズのスパース配列を処理するためにも最適化されています (セルはさまざまなタイプのデータを保管でき、さまざまなタイプの列 (名前、時刻、価格を保管する列など) に対してマージ操作を実行できます)。 文字列データを含む列のサポートが追加されました。 Google Cloud Storage および Azure Blob Storage と統合するためのモジュールが追加されました。 R 言語の API が再設計されました。
出所: オープンネット.ru