Izdanje TileDB 2.0 motora za skladištenje

Published on spremište TileDB 2.0, optimiziran za skladištenje višedimenzionalnih nizova i podataka koji se koriste u naučnim proračunima. Kao oblasti primene TileDB-a pominju se različiti sistemi za obradu genetskih informacija, prostornih i finansijskih podataka, tj. operativni sistemi rijetka ili kontinuirano popunjene višedimenzionalne nizove. TileDB nudi C++ biblioteku za transparentno apstrahovanje pristupa podacima i metapodacima u aplikacijama, vodeći računa o svim poslovima niskog nivoa za efikasno skladištenje. Kod projekta je napisan u C++ i distribuira pod MIT licencom. Podržava rad na Linux, macOS i Windows.

Glavne karakteristike TileDB-a:

  • Efikasne metode za pohranjivanje rijetkih nizova u kojima podaci nisu kontinuirani; niz je ispunjen fragmentima i većina elemenata ostaje prazna ili uzima istu vrijednost.
  • Mogućnost pristupa podacima u formatu ključ/vrijednost ili skupovima stupaca (DataFrame);

    Izdanje TileDB 2.0 motora za skladištenje

  • Podržava integraciju sa pohranom u oblaku AWS S3, Google Cloud Storage i Azure Blob Storage;
  • Podrška za popločane (blok) nizove;
  • Mogućnost korištenja različitih algoritama kompresije i enkripcije podataka;
  • Podrška za provjeru integriteta korištenjem kontrolnih suma;
  • Rad u višenitnom režimu sa paralelnim ulazom/izlazom;
  • Podrška za verzioniranje pohranjenih podataka, uključujući preuzimanje stanja u određenom trenutku u prošlosti ili atomska ažuriranja cijelih velikih skupova.
  • Mogućnost povezivanja metapodataka;
  • Podrška za grupisanje podataka;
  • Integracijski moduli za korištenje kao mehanizam za skladištenje niskog nivoa u Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF i PrestoDB;
  • Biblioteke povezivanja za C++ API za Python, R, Java i Go.

Izdanje 2.0 ističe se po podršci za koncept „DataFrame“, koji omogućava pohranjivanje podataka u obliku stupaca vrijednosti proizvoljne dužine, vezanih za određene atribute. Skladištenje je također optimizirano za obradu rijetkih nizova heterogenih veličina (ćelije mogu pohranjivati ​​podatke različitih tipova i mogu izvoditi operacije spajanja na stupcima različitih tipova, na primjer, onima koji pohranjuju ime, vrijeme i cijenu). Dodata podrška za kolone sa podacima u nizu. Dodati moduli za integraciju sa Google Cloud Storage i Azure Blob Storage. API za jezik R je redizajniran.

izvor: opennet.ru

Dodajte komentar