TileDB 2.0 biltegiratze motorra kaleratzea

Aurkeztu biltegian TileDB 2.0, dimentsio anitzeko matrizeak eta kalkulu zientifikoetan erabilitako datuak gordetzeko optimizatua. Informazio genetikoa, datu espazialak eta finantzarioak prozesatzeko hainbat sistema aipatzen dira TileDBren aplikazio eremu gisa, hau da. sistema eragileak eskasa edo etengabe betetako dimentsio anitzeko matrizeak. TileDB-k C++ liburutegi bat eskaintzen du aplikazioetako datu eta metadatuetarako sarbidea modu gardenean abstraitzeko, biltegiratze eraginkorrerako maila baxuko lan guztia zainduz. Proiektuaren kodea C++-n idatzita dago eta arabera banatuta MIT lizentziapean. Linux, macOS eta Windows-en lana onartzen du.

TileDB-ren ezaugarri nagusiak:

  • Array urrikoak gordetzeko metodo eraginkorrak, datuak etengabeak ez direnak; array zatiz beteta dago eta elementu gehienak hutsik geratzen dira edo balio bera hartzen dute.
  • Gako-balio formatuan edo zutabe multzoetan datuak atzitzeko gaitasuna (Datu-markoa);

    TileDB 2.0 biltegiratze motorra kaleratzea

  • Hodeiko biltegiratze AWS S3, Google Cloud Storage eta Azure Blob Storage-ekin integratzea onartzen du;
  • Lauza (bloke) arrayetarako laguntza;
  • Datu konpresio eta enkriptazio algoritmo desberdinak erabiltzeko gaitasuna;
  • Osotasuna egiaztatzeko laguntza batuketak erabiliz;
  • Lan egin hari anitzeko moduan sarrera/irteera paraleloarekin;
  • Biltegiratutako datuak bertsioratzeko laguntza, iraganeko une jakin bateko egoera edo multzo handi osoen eguneratze atomikoak berreskuratzeko barne.
  • Metadatuak lotzeko gaitasuna;
  • Datuak taldekatzeko laguntza;
  • Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF eta PrestoDB-en maila baxuko biltegiratze-motor gisa erabiltzeko integrazio moduluak;
  • Lotura-liburutegiak C++ APIrako Python, R, Java eta Go-rako.

2.0 bertsioa nabarmentzen da "DataFrame" kontzeptuaren euskarria dela eta, datuak luzera arbitrarioko balioen zutabeen forman gordetzeko aukera ematen baitu, atributu batzuei lotuta. Biltegiratzea ere optimizatuta dago tamaina heterogeneoetako matrize urriak prozesatzeko (zelulek mota ezberdinetako datuak gorde ditzakete eta mota ezberdinetako zutabeetan bateratze-eragiketak egin ditzakete, adibidez, izena, denbora eta prezioa gordetzen dutenetan). Kate-datuak dituzten zutabeentzako laguntza gehitu da. Google Cloud Storage eta Azure Blob Storage-ekin integratzeko moduluak gehitu dira. R hizkuntzarako APIa birdiseinatu da.

Iturria: opennet.ru

Gehitu iruzkin berria