Lansarea motorului de stocare TileDB 2.0

Опубликовано depozit TileDB 2.0, optimizat pentru stocarea matricelor multidimensionale și a datelor utilizate în calculele științifice. Diferite sisteme de procesare a informațiilor genetice, a datelor spațiale și financiare sunt menționate ca domenii de aplicare pentru TileDB, de exemplu. sisteme de operare rar sau matrice multidimensionale umplute continuu. TileDB oferă o bibliotecă C++ pentru extragerea transparentă a accesului la date și metadate în aplicații, având grijă de toate lucrările de nivel scăzut pentru o stocare eficientă. Codul proiectului este scris în C++ și distribuit de sub licență MIT. Acceptă lucrul pe Linux, macOS și Windows.

Principalele caracteristici ale TileDB:

  • Metode eficiente de stocare a matricelor rare, în care datele nu sunt continue; matricea este umplută cu fragmente și majoritatea elementelor rămân goale sau iau aceeași valoare.
  • Abilitatea de a accesa date în format cheie-valoare sau seturi de coloane (DataFrame);

    Lansarea motorului de stocare TileDB 2.0

  • Suportă integrarea cu stocarea în cloud AWS S3, Google Cloud Storage și Azure Blob Storage;
  • Suport pentru matrice de plăci (bloc);
  • Abilitatea de a utiliza diferiți algoritmi de compresie și criptare a datelor;
  • Suport pentru verificarea integrității folosind sume de control;
  • Lucrați în modul multi-threaded cu intrare/ieșire paralelă;
  • Suport pentru versiunea datelor stocate, inclusiv pentru recuperarea stării la un anumit moment din trecut sau actualizări atomice ale seturilor mari întregi.
  • Abilitatea de a lega metadate;
  • Suport pentru gruparea datelor;
  • Module de integrare pentru utilizare ca motor de stocare de nivel scăzut în Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF și PrestoDB;
  • Biblioteci de legare pentru API-ul C++ pentru Python, R, Java și Go.

Versiunea 2.0 se remarcă prin suportul pentru conceptul „DataFrame”, care permite stocarea datelor sub formă de coloane de valori de lungime arbitrară, legate de anumite atribute. Stocarea este, de asemenea, optimizată pentru procesarea matricelor rare de dimensiuni eterogene (celulele pot stoca date de diferite tipuri și pot efectua operațiuni de îmbinare pe coloane de diferite tipuri, de exemplu, cele care stochează numele, ora și prețul). S-a adăugat suport pentru coloanele cu date șir. S-au adăugat module pentru integrarea cu Google Cloud Storage și Azure Blob Storage. API-ul pentru limbajul R a fost reproiectat.

Sursa: opennet.ru

Adauga un comentariu