Release av TileDB 2.0 lagringsmotor

Опубликовано förvaret TileDB 2.0, optimerad för att lagra flerdimensionella arrayer och data som används i vetenskapliga beräkningar. Olika system för bearbetning av genetisk information, rumslig och finansiell data nämns som användningsområden för TileDB, d.v.s. operativsystem gles eller kontinuerligt fyllda flerdimensionella arrayer. TileDB erbjuder ett C++-bibliotek för att transparent abstrahera åtkomst till data och metadata i applikationer, och tar hand om allt lågnivåarbete för effektiv lagring. Projektkoden är skriven i C++ och levererad av under MIT-licens. Stöder arbete på Linux, macOS och Windows.

Huvudfunktioner i TileDB:

  • Effektiva metoder för att lagra glesa arrayer, där data inte är kontinuerliga; arrayen är fylld med fragment och de flesta av elementen förblir tomma eller har samma värde.
  • Möjlighet att komma åt data i nyckel-värde-format eller kolumnuppsättningar (DataFrame);

    Release av TileDB 2.0 lagringsmotor

  • Stöder integration med molnlagring AWS S3, Google Cloud Storage och Azure Blob Storage;
  • Stöd för sida vid sida (block) arrayer;
  • Möjlighet att använda olika datakomprimerings- och krypteringsalgoritmer;
  • Stöd för integritetskontroll med kontrollsummor;
  • Arbeta i flertrådigt läge med parallell ingång/utgång;
  • Stöd för versionshantering av lagrad data, inklusive för att hämta tillstånd vid en viss tidpunkt i det förflutna eller atomära uppdateringar av hela stora uppsättningar.
  • Möjlighet att länka metadata;
  • Stöd för datagruppering;
  • Integrationsmoduler för användning som en lågnivålagringsmotor i Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF och PrestoDB;
  • Bindande bibliotek för C++ API för Python, R, Java och Go.

Release 2.0 är känd för sitt stöd för "DataFrame"-konceptet, som gör att data kan lagras i form av kolumner med värden av godtycklig längd, kopplade till vissa attribut. Lagringen är också optimerad för att behandla glesa arrayer av heterogena storlekar (celler kan lagra data av olika typer och kan utföra sammanslagningsoperationer på kolumner av olika typer, till exempel de som lagrar namn, tid och pris). Lagt till stöd för kolumner med strängdata. Tillagda moduler för integration med Google Cloud Storage och Azure Blob Storage. API:et för R-språket har gjorts om.

Källa: opennet.ru

Lägg en kommentar