deposito , ottimizzato per l'archiviazione di array multidimensionali e dati utilizzati nei calcoli scientifici. Vari sistemi per l'elaborazione di informazioni genetiche, dati spaziali e finanziari, ovvero sistemi operativi o array multidimensionali a popolamento continuo. TileDB offre una libreria C++ per astrarre in modo trasparente l'accesso a dati e metadati nelle applicazioni, occupandosi di tutto il lavoro di basso livello necessario per organizzare uno storage efficiente. Il codice del progetto è scritto in C++ e под лицензией MIT. Поддерживается работа в Linux, macOS и Windows.
Caratteristiche principali di TileDB:
- Metodi efficienti per memorizzare array sparsi, in cui i dati non sono continui, l'array viene riempito in frammenti e la maggior parte degli elementi rimane vuota o assume lo stesso valore.
- La possibilità di accedere ai dati in formato chiave-valore o set di colonne ();
- Supporto per l'integrazione con l'archiviazione cloud AWS S3, Google Cloud Storage e Azure Blob Storage;
- Supporto per array a mosaico (blocchi);
- Possibilità di utilizzare diversi algoritmi di compressione e crittografia dei dati;
- Supporto per il controllo dell'integrità tramite checksum;
- Lavora in modalità multithread con input/output parallelo;
- Supporto per il controllo delle versioni dei dati archiviati, incluso il recupero dello stato in un punto specifico del passato o aggiornamenti atomici di interi set di grandi dimensioni.
- Possibilità di associazione dei metadati;
- Supporto per il raggruppamento dei dati;
- Moduli di integrazione da utilizzare come motore di archiviazione di basso livello in Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF e PrestoDB;
- Wrapper API C++ per Python, R, Java e Go.
La versione 2.0 si distingue per il supporto del concetto di "DataFrame", che consente di archiviare i dati come colonne di valori di lunghezza arbitraria associati ad attributi specifici. L'archiviazione è inoltre ottimizzata per la gestione di array sparsi di dimensioni eterogenee (le celle possono archiviare diversi tipi di dati e le operazioni di unione possono essere eseguite su colonne di tipi diversi, come quelle che archiviano nome, ora e prezzo). È stato aggiunto il supporto per colonne con dati stringa. Sono stati aggiunti moduli per l'integrazione con Google Cloud Storage e Azure Blob Storage. L'API R è stata riprogettata.
Fonte: opennet.ru
