Liberigo de TileDB 2.0 stoka motoro

Eldonita sur repositorio TileDB 2.0, optimumigita por stokado de plurdimensiaj tabeloj kaj datenoj uzitaj en sciencaj kalkuloj. Diversaj sistemoj por prilaborado de genetikaj informoj, spacaj kaj financaj datenoj estas menciitaj kiel kampoj de apliko por TileDB, t.e. operaciumoj maldensa aŭ kontinue plenigitaj plurdimensiaj tabeloj. TileDB ofertas C++-bibliotekon por travideble abstrakti aliron al datumoj kaj metadatenoj en aplikoj, zorgante pri la tuta malaltnivela laboro por efika stokado. La projektkodo estas skribita en C++ kaj distribuita de sub MIT-licenco. Subtenas laboron en Linukso, macOS kaj Vindozo.

Ĉefaj trajtoj de TileDB:

  • Efikaj metodoj por stoki malabundajn tabelojn, la datumoj en kiuj ne estas kontinua; la tabelo estas plenigita kun fragmentoj kaj la plej multaj el la elementoj restas malplenaj aŭ prenas la saman valoron.
  • Kapablo aliri datumojn en ŝlosilvalorformato aŭ kolumno-aroj (DataFrame);

    Liberigo de TileDB 2.0 stoka motoro

  • Subtenas integriĝon kun nuba stokado AWS S3, Google Cloud Storage kaj Azure Blob Storage;
  • Subteno por kahelitaj (blokaj) tabeloj;
  • Kapablo uzi malsamajn datumkunpremadon kaj ĉifrado-algoritmojn;
  • Subteno por kontrolado de integreco uzante ĉeksumojn;
  • Laboru en multfadena reĝimo kun paralela enigo/eligo;
  • Subteno por versionado de stokitaj datumoj, inkluzive por retrovi staton en certa punkto en la pasinteco aŭ atomajn ĝisdatigojn de tutaj grandaj aroj.
  • Kapablo ligi metadatenojn;
  • Subteno por grupigo de datumoj;
  • Integrigaj moduloj por uzo kiel malaltnivela stoka motoro en Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF kaj PrestoDB;
  • Ligante bibliotekojn por la C++ API por Python, R, Java kaj Go.

Release 2.0 estas rimarkinda pro sia subteno por la koncepto "DataFrame", kiu permesas konservi datumojn en formo de kolumnoj de valoroj de arbitra longo, ligitaj al iuj atributoj. La stokado ankaŭ estas optimumigita por prilaborado de malabundaj aroj de heterogenaj grandecoj (ĉeloj povas stoki datumojn de malsamaj tipoj kaj povas fari kunfandi operaciojn sur kolumnoj de malsamaj tipoj, ekzemple, tiuj stokantaj nomon, tempon kaj prezon). Aldonita subteno por kolumnoj kun kordaj datumoj. Aldonitaj moduloj por integriĝo kun Google Cloud Storage kaj Azure Blob Storage. La API por la R-lingvo estis restrukturita.

fonto: opennet.ru

Aldoni komenton