Release van TileDB 2.0-opslagengine

Опубликовано bewaarplaats TileDB 2.0, geoptimaliseerd voor het opslaan van multidimensionale arrays en gegevens die worden gebruikt in wetenschappelijke berekeningen. Als toepassingsgebieden voor TileDB worden verschillende systemen voor het verwerken van genetische informatie, ruimtelijke en financiële gegevens genoemd, te weten: besturingssystemen schaars of continu gevulde multidimensionale arrays. TileDB biedt een C++-bibliotheek voor het transparant abstraheren van de toegang tot gegevens en metadata in applicaties, waarbij al het werk op laag niveau voor efficiënte opslag wordt verzorgd. De projectcode is geschreven in C++ en gedistribueerd door onder MIT-licentie. Ondersteunt werk op Linux, macOS en Windows.

Belangrijkste kenmerken van TileDB:

  • Efficiënte methoden voor het opslaan van schaarse arrays, waarbij de gegevens niet continu zijn; de array is gevuld met fragmenten en de meeste elementen blijven leeg of nemen dezelfde waarde aan.
  • Mogelijkheid om toegang te krijgen tot gegevens in sleutelwaarde-indeling of kolommensets (dataframe);

    Release van TileDB 2.0-opslagengine

  • Ondersteunt integratie met cloudopslag AWS S3, Google Cloud Storage en Azure Blob Storage;
  • Ondersteuning voor betegelde (blok)arrays;
  • Mogelijkheid om verschillende datacompressie- en encryptie-algoritmen te gebruiken;
  • Ondersteuning voor integriteitscontrole met behulp van checksums;
  • Werk in multi-threaded modus met parallelle invoer/uitvoer;
  • Ondersteuning voor versiebeheer van opgeslagen gegevens, inclusief voor het ophalen van de status op een bepaald punt in het verleden of atomaire updates van hele grote sets.
  • Mogelijkheid om metadata te koppelen;
  • Ondersteuning voor gegevensgroepering;
  • Integratiemodules voor gebruik als opslagengine op laag niveau in Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF en PrestoDB;
  • Bindende bibliotheken voor de C++ API voor Python, R, Java en Go.

Release 2.0 valt op door zijn ondersteuning voor het ‘DataFrame’-concept, waarmee gegevens kunnen worden opgeslagen in de vorm van kolommen met waarden van willekeurige lengte, gekoppeld aan bepaalde attributen. De opslag is ook geoptimaliseerd voor het verwerken van verspreide arrays van heterogene grootte (cellen kunnen gegevens van verschillende typen opslaan en kunnen samenvoegbewerkingen uitvoeren op kolommen van verschillende typen, bijvoorbeeld kolommen waarin naam, tijd en prijs worden opgeslagen). Ondersteuning toegevoegd voor kolommen met tekenreeksgegevens. Modules toegevoegd voor integratie met Google Cloud Storage en Azure Blob Storage. De API voor de R-taal is opnieuw ontworpen.

Bron: opennet.ru

Voeg een reactie