Utgivelse av TileDB 2.0 lagringsmotor

Опубликовано repository TileDB 2.0, optimalisert for lagring av flerdimensjonale matriser og data brukt i vitenskapelige beregninger. Ulike systemer for behandling av genetisk informasjon, romlige og økonomiske data er nevnt som bruksområder for TileDB, d.v.s. operativsystemer sparsom eller kontinuerlig fylte flerdimensjonale arrays. TileDB tilbyr et C++-bibliotek for transparent abstrahering av tilgang til data og metadata i applikasjoner, og tar seg av alt lavnivåarbeidet for effektiv lagring. Prosjektkoden er skrevet i C++ og distribuert av under MIT-lisens. Støtter arbeid på Linux, macOS og Windows.

Hovedtrekkene til TileDB:

  • Effektive metoder for lagring av sparsomme matriser, hvor dataene ikke er kontinuerlige; matrisen er fylt med fragmenter og de fleste elementene forblir tomme eller har samme verdi.
  • Evne til å få tilgang til data i nøkkelverdiformat eller kolonnesett (Dataramme);

    Utgivelse av TileDB 2.0 lagringsmotor

  • Støtter integrasjon med skylagring AWS S3, Google Cloud Storage og Azure Blob Storage;
  • Støtte for flislagt (blokk) arrays;
  • Evne til å bruke forskjellige datakomprimerings- og krypteringsalgoritmer;
  • Støtte for integritetskontroll ved bruk av sjekksummer;
  • Arbeid i flertrådsmodus med parallell inngang/utgang;
  • Støtte for versjonering av lagrede data, inkludert for å hente tilstand på et bestemt tidspunkt i fortiden eller atomoppdateringer av hele store sett.
  • Evne til å koble metadata;
  • Støtte for datagruppering;
  • Integrasjonsmoduler for bruk som en lavnivålagringsmotor i Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF og PrestoDB;
  • Bindende biblioteker for C++ API for Python, R, Java og Go.

Utgivelse 2.0 er kjent for sin støtte for "DataFrame"-konseptet, som lar data lagres i form av kolonner med verdier av vilkårlig lengde, knyttet til visse attributter. Lagringen er også optimalisert for å behandle sparsomme matriser av heterogene størrelser (celler kan lagre data av forskjellige typer og kan utføre fletteoperasjoner på kolonner av forskjellige typer, for eksempel de som lagrer navn, tid og pris). Lagt til støtte for kolonner med strengdata. Lagt til moduler for integrasjon med Google Cloud Storage og Azure Blob Storage. API for R-språket har blitt redesignet.

Kilde: opennet.ru

Legg til en kommentar