Vydání úložiště TileDB 2.0

Опубликовано úložiště TileDB 2.0, optimalizované pro ukládání vícerozměrných polí a dat používaných ve vědeckých výpočtech. Jako oblasti použití pro TileDB jsou uvedeny různé systémy pro zpracování genetických informací, prostorových a finančních dat, tzn. operační systémy řídký nebo spojitě vyplněná vícerozměrná pole. TileDB nabízí knihovnu C++ pro transparentní abstrahování přístupu k datům a metadatům v aplikacích, přičemž se stará o veškerou práci na nízké úrovni pro efektivní ukládání. Kód projektu je napsán v C++ a distribuovány pod licencí MIT. Podporuje práci na Linuxu, MacOS a Windows.

Hlavní vlastnosti TileDB:

  • Efektivní metody pro ukládání řídkých polí, ve kterých data nejsou spojitá, pole je vyplněno fragmenty a většina prvků zůstává prázdná nebo má stejnou hodnotu.
  • Možnost přístupu k datům ve formátu klíč–hodnota nebo sadám sloupců (DataFrame);

    Vydání úložiště TileDB 2.0

  • Podporuje integraci s cloudovým úložištěm AWS S3, Google Cloud Storage a Azure Blob Storage;
  • Podpora dlaždicových (blokových) polí;
  • Schopnost používat různé algoritmy komprese a šifrování dat;
  • Podpora kontroly integrity pomocí kontrolních součtů;
  • Práce ve vícevláknovém režimu s paralelním vstupem/výstupem;
  • Podpora verzování uložených dat, včetně načítání stavu v určitém okamžiku v minulosti nebo atomických aktualizací celých velkých sad.
  • Schopnost propojit metadata;
  • Podpora pro seskupování dat;
  • Integrační moduly pro použití jako nízkoúrovňový úložný modul ve Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF a PrestoDB;
  • Knihovny vazeb pro C++ API pro Python, R, Java a Go.

Verze 2.0 je pozoruhodná svou podporou konceptu „DataFrame“, který umožňuje ukládat data ve formě sloupců hodnot libovolné délky, vázaných na určité atributy. Úložiště je také optimalizováno pro zpracování řídkých polí heterogenních velikostí (buňky mohou ukládat data různých typů a mohou provádět operace slučování na sloupcích různých typů, například těch, které ukládají název, čas a cenu). Přidána podpora pro sloupce s řetězcovými daty. Přidány moduly pro integraci s Google Cloud Storage a Azure Blob Storage. Rozhraní API pro jazyk R bylo přepracováno.

Zdroj: opennet.ru

Přidat komentář