Izdaja mehanizma za shranjevanje TileDB 2.0

Опубликовано shranjevanje TileDB 2.0, optimiziran za shranjevanje večdimenzionalnih nizov in podatkov, ki se uporabljajo v znanstvenih izračunih. Kot področja uporabe TileDB se omenjajo različni sistemi za obdelavo genetskih informacij, prostorskih in finančnih podatkov, t.j. operacijski sistemi redek ali neprekinjeno zapolnjene večdimenzionalne matrike. TileDB ponuja knjižnico C++ za pregledno abstrahiranje dostopa do podatkov in metapodatkov v aplikacijah, pri čemer poskrbi za vse delo na nizki ravni za učinkovito shranjevanje. Koda projekta je napisana v C++ in distributer pod licenco MIT. Podpira delo v sistemih Linux, macOS in Windows.

Glavne značilnosti TileDB:

  • Učinkovite metode shranjevanja redkih matrik, kjer podatki niso zvezni, matrika je zapolnjena z drobci, večina elementov pa ostane prazna ali ima enako vrednost.
  • Možnost dostopa do podatkov v obliki ključ-vrednost ali naborih stolpcev (DataFrame);

    Izdaja mehanizma za shranjevanje TileDB 2.0

  • Podpira integracijo s shrambo v oblaku AWS S3, Google Cloud Storage in Azure Blob Storage;
  • Podpora za položena (blokovna) polja;
  • Sposobnost uporabe različnih algoritmov stiskanja in šifriranja podatkov;
  • Podpora za preverjanje integritete z uporabo kontrolnih vsot;
  • Delo v večnitnem načinu z vzporednim vhodom/izhodom;
  • Podpora za urejanje različic shranjenih podatkov, vključno s pridobivanjem stanja na določeni točki v preteklosti ali atomskih posodobitev celotnih velikih nizov.
  • Sposobnost povezovanja metapodatkov;
  • Podpora za združevanje podatkov;
  • Integracijski moduli za uporabo kot mehanizem za shranjevanje na nizki ravni v Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF in PrestoDB;
  • Vezalne knjižnice za C++ API za Python, R, Java in Go.

Izdaja 2.0 je znana po podpori za koncept »DataFrame«, ki omogoča shranjevanje podatkov v obliki stolpcev vrednosti poljubne dolžine, vezanih na določene atribute. Shramba je optimizirana tudi za obdelavo redkih nizov heterogenih velikosti (celice lahko shranjujejo podatke različnih vrst in lahko izvajajo operacije spajanja na stolpcih različnih vrst, na primer tistih, ki shranjujejo ime, čas in ceno). Dodana podpora za stolpce s podatki niza. Dodani moduli za integracijo z Google Cloud Storage in Azure Blob Storage. API za jezik R je bil preoblikovan.

Vir: opennet.ru

Dodaj komentar