Llançament del motor d'emmagatzematge TileDB 2.0

Опубликовано dipòsit TileDB 2.0, optimitzat per emmagatzemar matrius multidimensionals i dades utilitzades en càlculs científics. S'esmenten diversos sistemes per processar informació genètica, dades espacials i financeres com a àrees d'aplicació de TileDB, és a dir. sistemes operatius escassa o matrius multidimensionals plenes contínuament. TileDB ofereix una biblioteca C++ per abstraure de manera transparent l'accés a dades i metadades a les aplicacions, assumint tot el treball de baix nivell per a un emmagatzematge eficient. El codi del projecte està escrit en C++ i Distribuït per sota llicència MIT. Admet el treball a Linux, macOS i Windows.

Característiques principals de TileDB:

  • Mètodes eficients per emmagatzemar matrius escasses, les dades en què no són contínues; la matriu s'omple de fragments i la majoria dels elements romanen buits o prenen el mateix valor.
  • Capacitat d'accedir a les dades en format clau-valor o conjunts de columnes (DataFrame);

    Llançament del motor d'emmagatzematge TileDB 2.0

  • Admet la integració amb l'emmagatzematge en núvol AWS S3, Google Cloud Storage i Azure Blob Storage;
  • Suport per a matrius de mosaics (de blocs);
  • Capacitat d'utilitzar diferents algorismes de compressió i xifratge de dades;
  • Suport per a la comprovació d'integritat mitjançant sumes de control;
  • Treballar en mode multifil amb entrada/sortida paral·lela;
  • Suport per a versions de dades emmagatzemades, inclòs per recuperar l'estat en un moment determinat del passat o actualitzacions atòmiques de conjunts grans sencers.
  • Capacitat d'enllaçar metadades;
  • Suport per a l'agrupació de dades;
  • Mòduls d'integració per utilitzar-los com a motor d'emmagatzematge de baix nivell a Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF i PrestoDB;
  • Biblioteques d'enllaç per a l'API C++ per a Python, R, Java i Go.

La versió 2.0 destaca pel seu suport al concepte "DataFrame", que permet emmagatzemar dades en forma de columnes de valors de longitud arbitrària, lligats a determinats atributs. L'emmagatzematge també està optimitzat per processar matrius disperses de mides heterogènies (les cel·les poden emmagatzemar dades de diferents tipus i poden realitzar operacions de fusió en columnes de diferents tipus, per exemple, les que emmagatzemen nom, hora i preu). S'ha afegit suport per a columnes amb dades de cadena. S'han afegit mòduls per a la integració amb Google Cloud Storage i Azure Blob Storage. S'ha redissenyat l'API per al llenguatge R.

Font: opennet.ru

Afegeix comentari