Keluaran enjin storan TileDB 2.0

ΠžΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½ΠΎ repositori TileDB 2.0, dioptimumkan untuk menyimpan tatasusunan berbilang dimensi dan data yang digunakan dalam pengiraan saintifik. Pelbagai sistem untuk memproses maklumat genetik, data spatial dan kewangan disebut sebagai bidang aplikasi untuk TileDB, i.e. sistem operasi jarang atau tatasusunan berbilang dimensi yang diisi secara berterusan. TileDB menawarkan perpustakaan C++ untuk mengabstraksi akses kepada data dan metadata secara telus dalam aplikasi, menjaga semua kerja peringkat rendah untuk penyimpanan yang cekap. Kod projek ditulis dalam C++ dan diedarkan oleh di bawah lesen MIT. Menyokong kerja pada Linux, macOS dan Windows.

Ciri utama TileDB:

  • Kaedah yang cekap untuk menyimpan tatasusunan jarang, data yang tidak berterusan; tatasusunan diisi dengan serpihan dan kebanyakan elemen kekal kosong atau mengambil nilai yang sama.
  • Keupayaan untuk mengakses data dalam format nilai kunci atau set lajur (DataFrame);

    Keluaran enjin storan TileDB 2.0

  • Menyokong penyepaduan dengan storan awan AWS S3, Storan Awan Google dan Storan Blob Azure;
  • Sokongan untuk tatasusunan berjubin (blok);
  • Keupayaan untuk menggunakan algoritma pemampatan dan penyulitan data yang berbeza;
  • Sokongan untuk semakan integriti menggunakan checksum;
  • Bekerja dalam mod berbilang benang dengan input/output selari;
  • Sokongan untuk versi data yang disimpan, termasuk untuk mendapatkan semula keadaan pada titik tertentu pada masa lalu atau kemas kini atom keseluruhan set besar.
  • Keupayaan untuk memautkan metadata;
  • Sokongan untuk pengumpulan data;
  • Modul integrasi untuk digunakan sebagai enjin storan peringkat rendah dalam Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF dan PrestoDB;
  • Mengikat perpustakaan untuk C++ API untuk Python, R, Java dan Go.

Keluaran 2.0 terkenal kerana sokongannya untuk konsep "DataFrame", yang membolehkan data disimpan dalam bentuk lajur nilai panjang sewenang-wenangnya, terikat pada atribut tertentu. Storan juga dioptimumkan untuk memproses tatasusunan jarang saiz heterogen (sel boleh menyimpan data pelbagai jenis dan boleh melakukan operasi cantum pada lajur jenis berbeza, contohnya, nama penyimpanan, masa dan harga). Menambah sokongan untuk lajur dengan data rentetan. Menambahkan modul untuk penyepaduan dengan Google Cloud Storage dan Azure Blob Storage. API untuk bahasa R telah direka bentuk semula.

Sumber: opennet.ru

Tambah komen