Випуск двигуна зберігання TileDB 2.0

Опубліковано сховище TileDB 2.0, Оптимізоване для зберігання багатовимірних масивів та даних, що використовуються в наукових розрахунках. Як області застосування TileDB згадуються різні системи обробки генетичної інформації, просторових і фінансових даних, тобто. системи, що оперують розрідженими або багатовимірними масивами, що безперервно заповнюються. TileDB пропонує С++ бібліотеку для прозорого абстрагування доступу до даних і метаданих у додатках, беручи він всю роботу з низькорівневої організації ефективного зберігання. Код проекту написаний мовою С++ та поширюється під ліцензією MIT. Підтримується робота в Linux, MacOS і Windows.

Основні особливості TileDB:

  • Ефективні методи зберігання розріджених масивів, дані в яких не йдуть безперервно, масив заповнюється фрагментами і більшість елементів залишаються порожніми або набувають одного і того ж значення.
  • Можливість доступу до даних у форматі ключ-значення або наборів стовпців (DataFrame);

    Випуск двигуна зберігання TileDB 2.0

  • Підтримка інтеграції з хмарними сховищами AWS S3, Google Cloud Storage та Azure Blob Storage;
  • Підтримка мозаїчних (блочних) масивів;
  • Можливість використання різних алгоритмів стиснення та шифрування даних;
  • Підтримка перевірки цілісності за контрольними сумами;
  • Робота в багатопотоковому режимі з розпаралелювання введення/виводу;
  • Підтримка версіонування даних, що зберігаються в тому числі для вибірки стану в певний момент у минулому або атомарних оновлень цілком великих наборів.
  • Можливість прив'язки метаданих;
  • Підтримка угруповання даних;
  • Модулі інтеграції для використання як низькорівневий двигун зберігання в Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF і PrestoDB;
  • Бібліотеки-обв'язки над C++ API для мов Python, R, Java та Go.

Випуск 2.0 примітний підтримкою концепції DataFrame, яка дозволяє зберігати дані у формі стовпців значень довільної довжини, прив'язаних до певних атрибутів. Сховище також оптимізовано для обробки розріджених масивів різнорідного розміру (у комірках можуть зберігатися дані різного типу і можна виконувати операції злиття стовпців різного типу, наприклад, у яких зберігається назва, час та ціна). Додано підтримку стовпців з рядковими даними. Додано модулі для інтеграції з Google Cloud Storage та Azure Blob Storage. Перероблено API для мови R.

Джерело: opennet.ru

Додати коментар або відгук