Vydanie úložiska TileDB 2.0

Опубликовано sklad TileDB 2.0, optimalizované na ukladanie viacrozmerných polí a údajov používaných vo vedeckých výpočtoch. Ako oblasti použitia pre TileDB sa uvádzajú rôzne systémy na spracovanie genetických informácií, priestorových a finančných údajov, t.j. operačné systémy riedke alebo kontinuálne vyplnené viacrozmerné polia. TileDB ponúka knižnicu C++ na transparentné abstrahovanie prístupu k údajom a metaúdajom v aplikáciách, pričom sa stará o všetku prácu na nízkej úrovni pre efektívne ukladanie. Kód projektu je napísaný v C++ a distribuovaný pod licenciou MIT. Podporuje prácu v systémoch Linux, MacOS a Windows.

Hlavné vlastnosti TileDB:

  • Efektívne metódy na ukladanie riedkych polí, v ktorých údaje nie sú súvislé; pole je vyplnené fragmentmi a väčšina prvkov zostáva prázdna alebo má rovnakú hodnotu.
  • Schopnosť pristupovať k údajom vo formáte kľúč – hodnota alebo k súborom stĺpcov (DataFrame);

    Vydanie úložiska TileDB 2.0

  • Podporuje integráciu s cloudovým úložiskom AWS S3, Google Cloud Storage a Azure Blob Storage;
  • Podpora pre dlaždicové (blokové) polia;
  • Schopnosť používať rôzne komprimačné a šifrovacie algoritmy;
  • Podpora kontroly integrity pomocou kontrolných súčtov;
  • Práca vo viacvláknovom režime s paralelným vstupom/výstupom;
  • Podpora pre verzovanie uložených údajov vrátane obnovenia stavu v určitom bode v minulosti alebo atómových aktualizácií celých veľkých súborov.
  • Schopnosť prepojiť metadáta;
  • Podpora pre zoskupovanie údajov;
  • Integračné moduly na použitie ako nízkoúrovňový ukladací modul v Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF a PrestoDB;
  • Knižnice viazania pre C++ API pre Python, R, Java a Go.

Vydanie 2.0 je pozoruhodné svojou podporou konceptu „DataFrame“, ktorý umožňuje ukladať údaje vo forme stĺpcov hodnôt ľubovoľnej dĺžky, viazaných na určité atribúty. Úložisko je tiež optimalizované na spracovanie riedkych polí heterogénnych veľkostí (bunky môžu ukladať údaje rôznych typov a môžu vykonávať operácie zlučovania v stĺpcoch rôznych typov, napríklad v stĺpcoch s názvom, časom a cenou). Pridaná podpora pre stĺpce s údajmi reťazca. Pridané moduly pre integráciu s Google Cloud Storage a Azure Blob Storage. Rozhranie API pre jazyk R bolo prepracované.

Zdroj: opennet.ru

Pridať komentár