TileDB 2.0 -tallennusmoottorin julkaisu

Опубликовано säilytyspaikka TileDB 2.0, optimoitu moniulotteisten taulukoiden ja tieteellisissä laskelmissa käytetyn tiedon tallentamiseen. TileDB:n sovellusalueiksi mainitaan erilaisia ​​järjestelmiä geneettisen tiedon, paikka- ja taloustietojen käsittelyyn, ts. käyttöjärjestelmät harva tai jatkuvasti täytetyt moniulotteiset taulukot. TileDB tarjoaa C++-kirjaston, joka mahdollistaa sovellusten tietojen ja metatietojen läpinäkyvyyden poistamisen ja huolehtii kaikesta matalan tason työstä tehokkaan tallennuksen takaamiseksi. Projektikoodi on kirjoitettu C++ ja jakelija MIT-lisenssillä. Tukee työtä Linuxissa, macOS:ssä ja Windowsissa.

TileDB:n pääominaisuudet:

  • Tehokkaat menetelmät harvojen taulukoiden tallentamiseen, joissa data ei ole jatkuvaa, taulukko on täynnä fragmentteja ja suurin osa elementeistä jää tyhjiksi tai saa saman arvon.
  • Mahdollisuus käyttää tietoja avainarvomuodossa tai sarakejoukoissa (Datakehys);

    TileDB 2.0 -tallennusmoottorin julkaisu

  • Tukee integraatiota pilvitallennustilan AWS S3:n, Google Cloud Storagen ja Azure Blob Storagen kanssa;
  • Tuki kaakeloiduille (lohko) ryhmille;
  • Kyky käyttää erilaisia ​​tiedonpakkaus- ja salausalgoritmeja;
  • Tuki eheyden tarkistukseen tarkistussummien avulla;
  • Työskentele monisäikeisessä tilassa rinnakkaisella tulolla/lähdöllä;
  • Tuki tallennettujen tietojen versiointiin, mukaan lukien tilan hakeminen tietyssä menneisyydessä tai kokonaisten suurten sarjojen atomipäivitykset.
  • Mahdollisuus linkittää metatietoja;
  • Tietojen ryhmittelyn tuki;
  • Integrointimoduulit käytettäväksi matalan tason tallennusmoottorina Sparkissa, Daskissa, MariaDB:ssä, GDAL:ssa, PDAL:ssa, Rasteriossa, gVCF:ssä ja PrestoDB:ssä;
  • Pythonin, R:n, Javan ja Go:n C++ API:n sitovat kirjastot.

Versio 2.0 on huomionarvoinen tukensa "DataFrame" -konseptille, joka mahdollistaa tietojen tallentamisen mielivaltaisen pituisten arvojen sarakkeiden muodossa, jotka on sidottu tiettyihin attribuutteihin. Tallennus on optimoitu myös heterogeenisen kokoisten harvojen taulukoiden käsittelyyn (solut voivat tallentaa erityyppisiä tietoja ja suorittaa yhdistämistoimintoja erityyppisille sarakkeille, esimerkiksi nimen, ajan ja hinnan tallentaville sarakkeille). Lisätty tuki merkkijonotietoja sisältäville sarakkeille. Lisätty moduulit integrointia varten Google Cloud Storagen ja Azure Blob Storagen kanssa. R-kielen API on suunniteltu uudelleen.

Lähde: opennet.ru

Lisää kommentti