Release fan TileDB 2.0 opslachmotor

Publisearre op repository TileDB 2.0, optimalisearre foar it bewarjen fan multidimensionale arrays en gegevens brûkt yn wittenskiplike berekkeningen. Ferskate systemen foar it ferwurkjen fan genetyske ynformaasje, romtlike en finansjele gegevens wurde neamd as tapassingsgebieten foar TileDB, d.w.s. bestjoeringssystemen sparse of kontinu ynfolle multidimensional arrays. TileDB biedt in C ++-bibleteek foar transparant abstraksje fan tagong ta gegevens en metadata yn applikaasjes, en soarget foar al it wurk op leech nivo foar effisjinte opslach. It projekt koade is skreaun yn C ++ en ferspraat troch ûnder MIT lisinsje. Unterstützt wurk op Linux, macOS en Windows.

Haadfunksjes fan TileDB:

  • Effisjinte metoaden foar it bewarjen fan sparse arrays, wêryn de gegevens net kontinu binne; de ​​array is fol mei fragminten en de measte eleminten bliuwe leech of nimme deselde wearde.
  • Mooglikheid om tagong te krijen ta gegevens yn kaaiweardeformaat of kolomsets (DataFrame);

    Release fan TileDB 2.0 opslachmotor

  • Unterstützt yntegraasje mei wolk opslach AWS S3, Google Cloud Storage en Azure Blob Storage;
  • Stipe foar betegele (blok) arrays;
  • Mooglikheid om ferskate datakompresje- en fersiferingsalgoritmen te brûken;
  • Stipe foar yntegriteitskontrôle mei kontrôlesummen;
  • Wurkje yn multi-threaded modus mei parallelle ynfier / útfier;
  • Stipe foar ferzje fan bewarre gegevens, ynklusyf foar it opheljen fan steat op in bepaald punt yn it ferline of atomêre updates fan hiele grutte sets.
  • Mooglikheid om metadata te keppeljen;
  • Stipe foar gegevensgroepearring;
  • Yntegraasjemodules foar gebrûk as opslachmotor op leech nivo yn Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF en PrestoDB;
  • Binende bibleteken foar de C ++ API foar Python, R, Java en Go.

Release 2.0 is opmerklik foar har stipe foar it konsept "DataFrame", wêrtroch gegevens kinne wurde opslein yn 'e foarm fan kolommen fan wearden fan willekeurige lingte, bûn oan bepaalde attributen. De opslach is ek optimalisearre foar it ferwurkjen fan sparse arrays fan heterogene maten (sellen kinne gegevens fan ferskate soarten opslaan en kinne gearfoegje operaasjes útfiere op kolommen fan ferskate soarten, bygelyks dy't namme, tiid en priis opslaan). Stipe tafoege foar kolommen mei stringgegevens. Modules tafoege foar yntegraasje mei Google Cloud Storage en Azure Blob Storage. De API foar de R-taal is opnij ûntwurpen.

Boarne: opennet.ru

Add a comment