انتشار موتور ذخیره سازی TileDB 2.0

Опубликовано مخزن TileDB 2.0، برای ذخیره آرایه های چند بعدی و داده های مورد استفاده در محاسبات علمی بهینه شده است. سیستم‌های مختلفی برای پردازش اطلاعات ژنتیکی، داده‌های مکانی و مالی به‌عنوان حوزه‌های کاربردی برای TileDB ذکر شده‌اند. سیستم های عامل پراکنده یا آرایه های چند بعدی به طور پیوسته پر شده اند. TileDB یک کتابخانه ++C برای انتزاع شفاف دسترسی به داده‌ها و ابرداده‌ها در برنامه‌ها ارائه می‌کند و از تمام کارهای سطح پایین برای ذخیره‌سازی کارآمد مراقبت می‌کند. کد پروژه به زبان C++ و نوشته شده است توزیع شده توسط تحت مجوز MIT از کار بر روی لینوکس، macOS و ویندوز پشتیبانی می کند.

ویژگی های اصلی TileDB:

  • روش‌های کارآمد برای ذخیره‌سازی آرایه‌های پراکنده، داده‌هایی که در آن‌ها پیوسته نیستند؛ آرایه با قطعات پر می‌شود و بیشتر عناصر خالی می‌مانند یا همان مقدار را می‌گیرند.
  • امکان دسترسی به داده ها در قالب کلید-مقدار یا مجموعه ستون (DataFrame);

    انتشار موتور ذخیره سازی TileDB 2.0

  • پشتیبانی از ادغام با فضای ذخیره سازی ابری AWS S3، Google Cloud Storage و Azure Blob Storage.
  • پشتیبانی از آرایه های کاشی شده (بلوک)؛
  • امکان استفاده از الگوریتم های مختلف فشرده سازی و رمزگذاری داده ها.
  • پشتیبانی از بررسی یکپارچگی با استفاده از چک‌سام‌ها.
  • کار در حالت چند رشته ای با ورودی/خروجی موازی.
  • پشتیبانی از نسخه‌سازی داده‌های ذخیره‌شده، از جمله برای بازیابی وضعیت در نقطه خاصی در گذشته یا به‌روزرسانی‌های اتمی کل مجموعه‌های بزرگ.
  • امکان پیوند ابرداده؛
  • پشتیبانی از گروه بندی داده ها؛
  • ماژول های یکپارچه سازی برای استفاده به عنوان یک موتور ذخیره سازی سطح پایین در Spark، Dask، MariaDB، GDAL، PDAL، Rasterio، gVCF و PrestoDB.
  • کتابخانه های اتصال برای C++ API برای Python، R، Java و Go.

Release 2.0 به دلیل پشتیبانی از مفهوم "DataFrame" قابل توجه است که به داده ها اجازه می دهد تا در قالب ستون هایی از مقادیر با طول دلخواه ذخیره شوند که به ویژگی های خاص گره خورده اند. ذخیره‌سازی همچنین برای پردازش آرایه‌های پراکنده با اندازه‌های ناهمگن بهینه شده است (سلول‌ها می‌توانند داده‌های انواع مختلف را ذخیره کنند و می‌توانند عملیات ادغام را روی ستون‌هایی با انواع مختلف انجام دهند، به عنوان مثال، ستون‌هایی که نام، زمان و قیمت را ذخیره می‌کنند). پشتیبانی از ستون‌هایی با داده‌های رشته‌ای اضافه شده است. ماژول هایی برای ادغام با Google Cloud Storage و Azure Blob Storage اضافه شده است. API برای زبان R دوباره طراحی شده است.

منبع: opennet.ru

اضافه کردن نظر