Izdanje mehanizma za pohranu TileDB 2.0

Опубликовано skladište TileDB 2.0, optimiziran za pohranu višedimenzionalnih nizova i podataka koji se koriste u znanstvenim izračunima. Kao područja primjene TileDB-a spominju se različiti sustavi za obradu genetskih informacija, prostornih i financijskih podataka, tj. operativni sustavi oskudan ili kontinuirano popunjene višedimenzionalne nizove. TileDB nudi C++ biblioteku za transparentno apstrahiranje pristupa podacima i metapodacima u aplikacijama, brinući se o svim poslovima niske razine za učinkovito pohranjivanje. Kôd projekta je napisan u C++ i distribuira pod licencom MIT-a. Podržava rad na Linux, macOS i Windows.

Glavne značajke TileDB-a:

  • Učinkovite metode za pohranjivanje rijetkih nizova u kojima podaci nisu kontinuirani, niz se puni fragmentima, a većina elemenata ostaje prazna ili ima istu vrijednost.
  • Mogućnost pristupa podacima u formatu ključ-vrijednost ili skupovima stupaca (DataFrame);

    Izdanje mehanizma za pohranu TileDB 2.0

  • Podržava integraciju s pohranom u oblaku AWS S3, Google Cloud Storage i Azure Blob Storage;
  • Podrška za popločane (blokovne) nizove;
  • Sposobnost korištenja različitih algoritama za kompresiju i enkripciju podataka;
  • Podrška za provjeru integriteta pomoću kontrolnih zbrojeva;
  • Rad u višenitnom načinu rada s paralelnim ulazom/izlazom;
  • Podrška za izradu verzija pohranjenih podataka, uključujući dohvaćanje stanja u određenoj točki u prošlosti ili atomsko ažuriranje čitavih velikih skupova.
  • Mogućnost povezivanja metapodataka;
  • Podrška za grupiranje podataka;
  • Integracijski moduli za korištenje kao mehanizam za pohranu niske razine u Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF i PrestoDB;
  • Knjižnice vezanja za C++ API za Python, R, Java i Go.

Izdanje 2.0 poznato je po podršci za koncept "DataFrame", koji omogućuje pohranjivanje podataka u obliku stupaca vrijednosti proizvoljne duljine, vezanih uz određene atribute. Pohrana je također optimizirana za obradu rijetkih nizova heterogenih veličina (ćelije mogu pohranjivati ​​podatke različitih vrsta i mogu izvoditi operacije spajanja na stupcima različitih vrsta, na primjer, onima koji pohranjuju ime, vrijeme i cijenu). Dodana podrška za stupce sa string podacima. Dodani moduli za integraciju s Google Cloud Storage i Azure Blob Storage. API za jezik R je redizajniran.

Izvor: opennet.ru

Dodajte komentar