A TileDB 2.0 tárolómotor kiadása

Опубликовано raktár TileDB 2.0, többdimenziós tömbök és tudományos számításokhoz használt adatok tárolására optimalizálva. A TileDB alkalmazási területeiként a genetikai információk, térbeli és pénzügyi adatok feldolgozására szolgáló különféle rendszereket említik, i.e. operációs rendszer ritka vagy folyamatosan kitöltött többdimenziós tömbök. A TileDB egy C++ könyvtárat kínál az alkalmazásokban lévő adatokhoz és metaadatokhoz való átlátható hozzáféréshez, és gondoskodik az összes alacsony szintű munkáról a hatékony tárolás érdekében. A projekt kódja C++ és nyelven van írva forgalmazza MIT licenc alatt. Támogatja a munkát Linuxon, macOS-en és Windowson.

A TileDB főbb jellemzői:

  • Hatékony módszerek ritka tömbök tárolására, amelyekben az adatok nem folytonosak, a tömb tele van töredékekkel és a legtöbb elem üres marad, vagy ugyanazt az értéket veszi fel.
  • Adatokhoz való hozzáférés kulcsérték formátumban vagy oszlopkészletekben (DataFrame);

    A TileDB 2.0 tárolómotor kiadása

  • Támogatja az integrációt az AWS S3 felhőalapú tárolással, a Google Cloud Storage és az Azure Blob Storage szolgáltatással;
  • Csempézett (blokk) tömbök támogatása;
  • Különböző adattömörítési és titkosítási algoritmusok használatának képessége;
  • Az integritás-ellenőrzés támogatása ellenőrző összegekkel;
  • Munka többszálú üzemmódban párhuzamos bemenettel/kimenettel;
  • Támogatás a tárolt adatok verziózásához, beleértve az állapotok lekérését a múlt egy bizonyos pontján vagy a teljes nagy készletek atomi frissítését.
  • Metaadatok összekapcsolásának képessége;
  • Adatcsoportosítás támogatása;
  • Integrációs modulok alacsony szintű tárolómotorként való használatra a Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF és PrestoDB rendszerekben;
  • Kötési könyvtárak a C++ API-hoz Python, R, Java és Go számára.

A 2.0-s kiadás a „DataFrame” koncepció támogatásáról nevezetes, amely lehetővé teszi az adatok tárolását tetszőleges hosszúságú értékek oszlopaiban, bizonyos attribútumokhoz kötve. A tárolót heterogén méretű ritka tömbök feldolgozására is optimalizálták (a cellák különböző típusú adatokat tárolhatnak, és különböző típusú oszlopokon egyesítési műveleteket hajthatnak végre, például a nevet, időt és árat tároló oszlopokon). Támogatás hozzáadva a karakterlánc-adatokat tartalmazó oszlopokhoz. Hozzáadott modulok a Google Cloud Storage és az Azure Blob Storage integrációjához. Az R nyelv API-ját újratervezték.

Forrás: opennet.ru

Hozzászólás