Paglabas ng TileDB 2.0 storage engine

ΠžΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½ΠΎ imbakan TileDB 2.0, na-optimize para sa pag-iimbak ng mga multidimensional na array at data na ginagamit sa mga siyentipikong kalkulasyon. Ang iba't ibang sistema para sa pagproseso ng genetic na impormasyon, spatial at financial data ay binanggit bilang mga lugar ng aplikasyon para sa TileDB, i.e. mga operating system kalat-kalat o patuloy na pinupuno ang mga multidimensional na array. Nag-aalok ang TileDB ng isang C++ library para sa malinaw na pagkuha ng access sa data at metadata sa mga application, na pinangangalagaan ang lahat ng mababang antas ng trabaho para sa mahusay na storage. Ang code ng proyekto ay nakasulat sa C++ at ipinamahagi ni sa ilalim ng lisensya ng MIT. Sinusuportahan ang trabaho sa Linux, macOS at Windows.

Mga pangunahing tampok ng TileDB:

  • Mahusay na pamamaraan para sa pag-iimbak ng mga kalat-kalat na array, ang data kung saan ay hindi tuloy-tuloy; ang array ay puno ng mga fragment at karamihan sa mga elemento ay nananatiling walang laman o may parehong halaga.
  • Kakayahang mag-access ng data sa format ng key-value o hanay ng hanay (Balangkas ng mga datos);

    Paglabas ng TileDB 2.0 storage engine

  • Sinusuportahan ang pagsasama sa cloud storage na AWS S3, Google Cloud Storage at Azure Blob Storage;
  • Suporta para sa mga naka-tile na (block) array;
  • Kakayahang gumamit ng iba't ibang data compression at encryption algorithm;
  • Suporta para sa pagsusuri ng integridad gamit ang mga checksum;
  • Magtrabaho sa multi-threaded mode na may parallel na input/output;
  • Suporta para sa pag-bersyon ng nakaimbak na data, kabilang ang para sa pagkuha ng estado sa isang partikular na punto sa nakaraan o atomic na mga update ng buong malalaking set.
  • Kakayahang mag-link ng metadata;
  • Suporta para sa pagpapangkat ng data;
  • Integration modules para gamitin bilang low-level storage engine sa Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF at PrestoDB;
  • Nagbubuklod na mga aklatan para sa C++ API para sa Python, R, Java at Go.

Ang Release 2.0 ay kapansin-pansin para sa suporta nito para sa konsepto ng "DataFrame", na nagpapahintulot sa data na maimbak sa anyo ng mga hanay ng mga halaga ng di-makatwirang haba, na nakatali sa ilang mga katangian. Ang storage ay na-optimize din para sa pagpoproseso ng mga kalat-kalat na array ng magkakaibang laki (maaaring mag-imbak ang mga cell ng data ng iba't ibang uri at maaaring magsagawa ng merge operations sa mga column ng iba't ibang uri, halimbawa, ang mga nag-iimbak na pangalan, oras at presyo). Nagdagdag ng suporta para sa mga column na may string data. Nagdagdag ng mga module para sa pagsasama sa Google Cloud Storage at Azure Blob Storage. Ang API para sa wikang R ay muling idinisenyo.

Pinagmulan: opennet.ru

Magdagdag ng komento