TileDB 2.0 krātuves dzinēja izlaišana

Опубликовано krātuve TileDB 2.0, optimizēts daudzdimensiju masīvu un zinātniskos aprēķinos izmantoto datu glabāšanai. Kā TileDB pielietojuma jomas tiek minētas dažādas ģenētiskās informācijas, telpisko un finanšu datu apstrādes sistēmas, t.i. operētājsistēmas reti vai nepārtraukti aizpildīti daudzdimensiju masīvi. TileDB piedāvā C++ bibliotēku, lai pārredzami iegūtu piekļuvi datiem un metadatiem lietojumprogrammās, rūpējoties par visu zemā līmeņa darbu efektīvai uzglabāšanai. Projekta kods ir rakstīts C++ un izplata saskaņā ar MIT licenci. Atbalsta darbu operētājsistēmās Linux, macOS un Windows.

Galvenās TileDB funkcijas:

  • Efektīvas metodes retu masīvu glabāšanai, kuros dati nav nepārtraukti; masīvs ir piepildīts ar fragmentiem un lielākā daļa elementu paliek tukši vai iegūst tādu pašu vērtību.
  • Iespēja piekļūt datiem atslēgas vērtību formātā vai kolonnu kopās (DataFrame);

    TileDB 2.0 krātuves dzinēja izlaišana

  • Atbalsta integrāciju ar mākoņkrātuvi AWS S3, Google Cloud Storage un Azure Blob Storage;
  • Atbalsts flīžu (bloku) masīviem;
  • Spēja izmantot dažādus datu kompresijas un šifrēšanas algoritmus;
  • Atbalsts integritātes pārbaudei, izmantojot kontrolsummas;
  • Darbs vairāku vītņu režīmā ar paralēlu ievadi/izvadi;
  • Atbalsts saglabāto datu versiju veidošanai, tostarp stāvokļa izgūšanai noteiktā pagātnes brīdī vai visu lielo kopu atomu atjauninājumiem.
  • Spēja saistīt metadatus;
  • Atbalsts datu grupēšanai;
  • Integrācijas moduļi izmantošanai kā zema līmeņa krātuves dzinējs Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF un PrestoDB;
  • Saistošās bibliotēkas C++ API, kas paredzētas Python, R, Java un Go.

Izlaidums 2.0 ir ievērojams ar atbalstu “DataFrame” koncepcijai, kas ļauj uzglabāt datus patvaļīga garuma vērtību kolonnu veidā, kas piesaistītas noteiktiem atribūtiem. Krātuve ir optimizēta arī neviendabīgu izmēru retu masīvu apstrādei (šūnas var glabāt dažāda veida datus un var veikt sapludināšanas darbības dažāda veida kolonnās, piemēram, tajās, kurās glabājas nosaukums, laiks un cena). Pievienots atbalsts kolonnām ar virknes datiem. Pievienoti moduļi integrācijai ar Google Cloud Storage un Azure Blob Storage. API valodai R ir pārveidota.

Avots: opennet.ru

Pievieno komentāru