TileDB 2.0 depolama motorunun piyasaya sürülmesi

Опубликовано depo TileDB 2.0, bilimsel hesaplamalarda kullanılan çok boyutlu dizileri ve verileri depolamak için optimize edilmiştir. TileDB'nin uygulama alanları olarak genetik bilgi, mekansal ve finansal verilerin işlenmesine yönelik çeşitli sistemlerden bahsedilmektedir. işletim sistemleri seyrek veya sürekli olarak doldurulmuş çok boyutlu diziler. TileDB, uygulamalardaki verilere ve meta verilere erişimi şeffaf bir şekilde soyutlamak için bir C++ kitaplığı sunar ve verimli depolama için tüm düşük düzeyli işleri halleder. Proje kodu C++ ile yazılmıştır ve tarafından dağıtıldı MIT lisansı altında. Linux, macOS ve Windows üzerinde çalışmayı destekler.

TileDB'nin ana özellikleri:

  • Verileri sürekli olmayan, dizi parçalarla dolu ve elemanların çoğu boş kalan veya aynı değeri alan seyrek dizileri depolamak için etkili yöntemler.
  • Anahtar/değer biçimindeki veya sütun kümelerindeki verilere erişme yeteneği (Veri çerçevesi);

    TileDB 2.0 depolama motorunun piyasaya sürülmesi

  • Bulut depolama AWS S3, Google Bulut Depolama ve Azure Blob Depolama ile entegrasyonu destekler;
  • Döşenmiş (blok) diziler için destek;
  • Farklı veri sıkıştırma ve şifreleme algoritmalarını kullanabilme;
  • Sağlama toplamlarını kullanarak bütünlük kontrolü desteği;
  • Paralel giriş/çıkışla çok iş parçacıklı modda çalışın;
  • Geçmişte belirli bir noktadaki durumun alınması veya tüm büyük kümelerin atomik güncellemeleri de dahil olmak üzere, depolanan verilerin sürümlendirilmesi desteği.
  • Meta verileri bağlama yeteneği;
  • Veri gruplama desteği;
  • Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF ve PrestoDB'de düşük seviyeli depolama motoru olarak kullanıma yönelik entegrasyon modülleri;
  • Python, R, Java ve Go için C++ API'sine yönelik bağlama kitaplıkları.

Sürüm 2.0, verilerin belirli niteliklere bağlı, isteğe bağlı uzunluktaki değer sütunları biçiminde saklanmasına olanak tanıyan "DataFrame" konseptini desteklemesiyle dikkat çekiyor. Depolama aynı zamanda heterojen boyutlardaki seyrek dizilerin işlenmesi için de optimize edilmiştir (hücreler farklı türdeki verileri depolayabilir ve farklı türdeki sütunlarda, örneğin adı, saati ve fiyatı depolayanlar üzerinde birleştirme işlemleri gerçekleştirebilir). Dize verileri içeren sütunlar için destek eklendi. Google Cloud Storage ve Azure Blob Storage ile entegrasyon için modüller eklendi. R dili için API yeniden tasarlandı.

Kaynak: opennet.ru

Yorum ekle