Udgivelse af TileDB 2.0-lagringsmotor

Опубликовано repository TileDB 2.0, optimeret til lagring af multidimensionelle arrays og data brugt i videnskabelige beregninger. Forskellige systemer til behandling af genetisk information, rumlige og økonomiske data nævnes som anvendelsesområder for TileDB, dvs. operativsystemer sparsom eller kontinuerligt udfyldte multidimensionelle arrays. TileDB tilbyder et C++-bibliotek til gennemsigtigt at abstrahere adgang til data og metadata i applikationer, og tager sig af alt det lave niveau for effektiv lagring. Projektkoden er skrevet i C++ og distribueret af under MIT-licens. Understøtter arbejde på Linux, macOS og Windows.

Hovedtræk ved TileDB:

  • Effektive metoder til lagring af sparsomme arrays, hvor dataene ikke er kontinuerlige; arrayet er fyldt med fragmenter, og de fleste af elementerne forbliver tomme eller har samme værdi.
  • Mulighed for at få adgang til data i nøgleværdiformat eller kolonnesæt (DataFrame);

    Udgivelse af TileDB 2.0-lagringsmotor

  • Understøtter integration med cloud storage AWS S3, Google Cloud Storage og Azure Blob Storage;
  • Understøttelse af flisebelagte (blok)arrays;
  • Evne til at bruge forskellige datakomprimerings- og krypteringsalgoritmer;
  • Understøttelse af integritetskontrol ved hjælp af kontrolsummer;
  • Arbejd i multi-threaded mode med parallel input/output;
  • Understøttelse af versionering af lagrede data, herunder til at hente tilstand på et bestemt tidspunkt i fortiden eller atomare opdateringer af hele store sæt.
  • Evne til at linke metadata;
  • Understøttelse af datagruppering;
  • Integrationsmoduler til brug som en lav-niveau lagermotor i Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF og PrestoDB;
  • Bindende biblioteker til C++ API til Python, R, Java og Go.

Release 2.0 er bemærkelsesværdig for sin understøttelse af "DataFrame"-konceptet, som tillader data at blive lagret i form af kolonner med værdier af vilkårlig længde, bundet til visse attributter. Lagringen er også optimeret til at behandle sparsomme arrays af heterogene størrelser (celler kan lagre data af forskellige typer og kan udføre fletteoperationer på kolonner af forskellige typer, for eksempel dem, der gemmer navn, tid og pris). Tilføjet understøttelse af kolonner med strengdata. Tilføjede moduler til integration med Google Cloud Storage og Azure Blob Storage. API'et til R-sproget er blevet redesignet.

Kilde: opennet.ru

Tilføj en kommentar