TileDB 2.0 сақтау механизмінің шығарылымы

Жарияланған репозиторий TileDB 2.0, ғылыми есептеулерде қолданылатын көпөлшемді массивтер мен деректерді сақтау үшін оңтайландырылған. TileDB қолданбасының салалары ретінде генетикалық ақпаратты, кеңістіктік және қаржылық деректерді өңдеуге арналған әртүрлі жүйелер айтылады, яғни. операциялық жүйелер сирек немесе үздіксіз толтырылған көп өлшемді массивтер. TileDB қолданбалардағы деректер мен метадеректерге қолжетімділікті мөлдір абстракциялау үшін C++ кітапханасын ұсынады, тиімді сақтау үшін барлық төмен деңгейлі жұмыстарды орындайды. Жоба коды C++ тілінде жазылған және таралады MIT лицензиясы бойынша. Linux, macOS және Windows жүйелерінде жұмысты қолдайды.

TileDB негізгі мүмкіндіктері:

  • Деректер үздіксіз емес, сирек массивтерді сақтаудың тиімді әдістері; массив фрагменттермен толтырылған және элементтердің көпшілігі бос қалады немесе бірдей мәнді қабылдайды.
  • Кілт-мән пішімінде немесе баған жиындарында деректерге қол жеткізу мүмкіндігі (Dataaframe);

    TileDB 2.0 сақтау механизмінің шығарылымы

  • AWS S3 бұлтты сақтау қоймасымен, Google Cloud Storage және Azure Blob сақтау қоймасымен интеграцияны қолдайды;
  • Тақталы (блок) массивтерді қолдау;
  • Әр түрлі деректерді қысу және шифрлау алгоритмдерін қолдану мүмкіндігі;
  • Бақылау сомалары арқылы тұтастықты тексеруге қолдау көрсету;
  • Параллель енгізу/шығару арқылы көп ағынды режимде жұмыс істеу;
  • Сақталған деректердің нұсқасын, соның ішінде өткендегі белгілі бір нүктедегі күйді немесе бүкіл үлкен жиындардың атомдық жаңартуларын алуды қолдау.
  • Метадеректерді байланыстыру мүмкіндігі;
  • Деректерді топтастыруды қолдау;
  • Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF және PrestoDB жүйелерінде төмен деңгейлі сақтау қозғалтқышы ретінде пайдалануға арналған интеграциялық модульдер;
  • Python, R, Java және Go үшін C++ API үшін байланыстыру кітапханалары.

2.0 шығарылымы деректерді белгілі бір атрибуттармен байланыстырылған ерікті ұзындық мәндерінің бағандары түрінде сақтауға мүмкіндік беретін «DataFrame» тұжырымдамасын қолдауымен ерекшеленеді. Сондай-ақ жад гетерогенді өлшемдердің сирек массивтерін өңдеу үшін оңтайландырылған (ұяшықтар әртүрлі типтегі деректерді сақтай алады және әртүрлі типтегі бағандарда біріктіру әрекеттерін орындай алады, мысалы, атауды, уақытты және бағаны сақтайтындар). Жол деректері бар бағандарға қолдау қосылды. Google Cloud Storage және Azure Blob Storage қызметтерімен біріктіруге арналған модульдер қосылды. R тіліне арналған API қайта жасалды.

Ақпарат көзі: opennet.ru

пікір қалдыру