🥇Rilascio del motore di archiviazione TileDB 2.0

Опубликовано deposito TileDB 2.0, ottimizzato per l'archiviazione di array multidimensionali e dati utilizzati nei calcoli scientifici. Vari sistemi per l'elaborazione di informazioni genetiche, dati spaziali e finanziari, ovvero sistemi operativi sparso o array multidimensionali a popolamento continuo. TileDB offre una libreria C++ per astrarre in modo trasparente l'accesso a dati e metadati nelle applicazioni, occupandosi di tutto il lavoro di basso livello necessario per organizzare uno storage efficiente. Il codice del progetto è scritto in C++ e distribuito da под лицензией MIT. Поддерживается работа в Linux, macOS и Windows.

Caratteristiche principali di TileDB:

Metodi efficienti per memorizzare array sparsi, in cui i dati non sono continui, l'array viene riempito in frammenti e la maggior parte degli elementi rimane vuota o assume lo stesso valore.
La possibilità di accedere ai dati in formato chiave-valore o set di colonne (dataframe);
Supporto per l'integrazione con l'archiviazione cloud AWS S3, Google Cloud Storage e Azure Blob Storage;
Supporto per array a mosaico (blocchi);
Possibilità di utilizzare diversi algoritmi di compressione e crittografia dei dati;
Supporto per il controllo dell'integrità tramite checksum;
Lavora in modalità multithread con input/output parallelo;
Supporto per il controllo delle versioni dei dati archiviati, incluso il recupero dello stato in un punto specifico del passato o aggiornamenti atomici di interi set di grandi dimensioni.
Possibilità di associazione dei metadati;
Supporto per il raggruppamento dei dati;
Moduli di integrazione da utilizzare come motore di archiviazione di basso livello in Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF e PrestoDB;
Wrapper API C++ per Python, R, Java e Go.

La versione 2.0 si distingue per il supporto del concetto di "DataFrame", che consente di archiviare i dati come colonne di valori di lunghezza arbitraria associati ad attributi specifici. L'archiviazione è inoltre ottimizzata per la gestione di array sparsi di dimensioni eterogenee (le celle possono archiviare diversi tipi di dati e le operazioni di unione possono essere eseguite su colonne di tipi diversi, come quelle che archiviano nome, ora e prezzo). È stato aggiunto il supporto per colonne con dati stringa. Sono stati aggiunti moduli per l'integrazione con Google Cloud Storage e Azure Blob Storage. L'API R è stata riprogettata.

Fonte: opennet.ru

Rilascio del motore di archiviazione TileDB 2.0

ProHoster