Rilis mesin penyimpanan TileDB 2.0

ΠžΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½ΠΎ repositori UbinDB 2.0, dioptimalkan untuk menyimpan array multidimensi dan data yang digunakan dalam perhitungan ilmiah. Berbagai sistem untuk memproses informasi genetik, data spasial dan keuangan disebutkan sebagai area penerapan TileDB, yaitu. sistem operasi jarang atau array multidimensi yang terus diisi. TileDB menawarkan pustaka C++ untuk mengabstraksi akses ke data dan metadata dalam aplikasi secara transparan, menangani semua pekerjaan tingkat rendah untuk penyimpanan yang efisien. Kode proyek ditulis dalam C++ dan didistribusikan oleh di bawah lisensi MIT. Mendukung pekerjaan di Linux, macOS dan Windows.

Fitur utama TileDB:

  • Metode yang efisien untuk menyimpan array renggang, data di dalamnya tidak kontinu; array diisi dengan fragmen dan sebagian besar elemen tetap kosong atau mengambil nilai yang sama.
  • Kemampuan untuk mengakses data dalam format nilai kunci atau kumpulan kolom (Bingkai Data);

    Rilis mesin penyimpanan TileDB 2.0

  • Mendukung integrasi dengan penyimpanan cloud AWS S3, Google Cloud Storage, dan Azure Blob Storage;
  • Dukungan untuk array ubin (blok);
  • Kemampuan untuk menggunakan algoritma kompresi dan enkripsi data yang berbeda;
  • Dukungan untuk pemeriksaan integritas menggunakan checksum;
  • Bekerja dalam mode multi-utas dengan input/output paralel;
  • Dukungan untuk membuat versi data yang disimpan, termasuk untuk mengambil status pada titik tertentu di masa lalu atau pembaruan atom dari seluruh kumpulan besar.
  • Kemampuan untuk menghubungkan metadata;
  • Dukungan untuk pengelompokan data;
  • Modul integrasi untuk digunakan sebagai mesin penyimpanan tingkat rendah di Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF dan PrestoDB;
  • Mengikat perpustakaan untuk C++ API untuk Python, R, Java dan Go.

Rilis 2.0 terkenal karena dukungannya terhadap konsep β€œDataFrame”, yang memungkinkan data disimpan dalam bentuk kolom nilai dengan panjang sewenang-wenang, diikat ke atribut tertentu. Penyimpanan juga dioptimalkan untuk memproses array jarang dengan ukuran heterogen (sel dapat menyimpan data dari tipe berbeda dan dapat melakukan operasi penggabungan pada kolom dengan tipe berbeda, misalnya kolom yang menyimpan nama, waktu, dan harga). Menambahkan dukungan untuk kolom dengan data string. Menambahkan modul untuk integrasi dengan Google Cloud Storage dan Azure Blob Storage. API untuk bahasa R telah didesain ulang.

Sumber: opennet.ru

Tambah komentar