Pagpagawas sa TileDB 2.0 storage engine

Gipatik sa repository TileDB 2.0, gi-optimize alang sa pagtipig sa mga multidimensional arrays ug data nga gigamit sa siyentipikong kalkulasyon. Ang lain-laing mga sistema alang sa pagproseso sa genetic nga impormasyon, spatial ug pinansyal nga datos gihisgutan isip mga dapit sa aplikasyon alang sa TileDB, i.e. sistema sa operasyon gamay ra o padayon nga napuno nga multidimensional arrays. Nagtanyag ang TileDB og usa ka librarya sa C++ alang sa transparent nga pag-abstract sa pag-access sa datos ug metadata sa mga aplikasyon, pag-atiman sa tanan nga ubos nga lebel nga trabaho alang sa episyente nga pagtipig. Ang code sa proyekto gisulat sa C++ ug giapod-apod sa ubos sa lisensya sa MIT. Nagsuporta sa trabaho sa Linux, macOS ug Windows.

Pangunang bahin sa TileDB:

  • Ang episyente nga mga pamaagi sa pagtipig sa mga gamay nga arrays, ang datos diin dili padayon; ang array napuno sa mga tipik ug kadaghanan sa mga elemento nagpabilin nga walay sulod o adunay parehas nga kantidad.
  • Abilidad sa pag-access sa datos sa key-value format o column sets (DataFrame);

    Pagpagawas sa TileDB 2.0 storage engine

  • Nagsuporta sa panagsama sa cloud storage AWS S3, Google Cloud Storage ug Azure Blob Storage;
  • Suporta alang sa tiled (block) arrays;
  • Abilidad sa paggamit sa lain-laing mga data compression ug encryption algorithm;
  • Suporta alang sa pagsusi sa integridad gamit ang mga checksum;
  • Pagtrabaho sa multi-threaded mode nga adunay parallel input/output;
  • Suporta alang sa pag-bersiyon sa gitipigan nga datos, lakip ang pagkuha sa estado sa usa ka piho nga punto sa nangagi o atomic nga mga update sa tibuok dagkong mga set.
  • Abilidad sa pag-link sa metadata;
  • Suporta alang sa data grouping;
  • Integration modules para gamiton isip low-level storage engine sa Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF ug PrestoDB;
  • Nagbugkos nga mga librarya para sa C++ API para sa Python, R, Java ug Go.

Ang pagpagawas sa 2.0 nabantog tungod sa suporta niini alang sa konsepto nga "DataFrame", nga nagtugot sa mga datos nga tipigan sa porma sa mga kolum sa mga kantidad sa arbitraryong gitas-on, nga gihigot sa pipila ka mga hiyas. Ang pagtipig gi-optimize usab alang sa pagproseso sa mga ubay-ubay nga mga han-ay sa mga heterogenous nga gidak-on (ang mga selula mahimong magtipig sa datos sa lain-laing mga matang ug makahimo sa paghiusa nga mga operasyon sa mga kolum sa lain-laing mga matang, pananglitan, kadtong nagtipig sa ngalan, oras ug presyo). Gidugang nga suporta alang sa mga kolum nga adunay string data. Gidugang nga mga module alang sa panagsama sa Google Cloud Storage ug Azure Blob Storage. Ang API alang sa pinulongang R gidesinyo pag-usab.

Source: opennet.ru

Idugang sa usa ka comment