Sortie du moteur de stockage TileDB 2.0

Опубликовано référentiel TileDB 2.0, optimisé pour le stockage de tableaux multidimensionnels et de données utilisées dans les calculs scientifiques. Divers systèmes de traitement des informations génétiques, des données spatiales et financières sont mentionnés comme domaines d'application de TileDB, à savoir : systèmes d'exploitation clairsemé ou des tableaux multidimensionnels remplis en continu. TileDB propose une bibliothèque C++ pour extraire de manière transparente l'accès aux données et métadonnées dans les applications, en prenant en charge tout le travail de bas niveau pour un stockage efficace. Le code du projet est écrit en C++ et distribué par sous licence MIT. Prend en charge le travail sous Linux, macOS et Windows.

Principales fonctionnalités de TileDB :

  • Méthodes efficaces pour stocker des tableaux clairsemés, dont les données ne sont pas continues ; le tableau est rempli de fragments et la plupart des éléments restent vides ou prennent la même valeur.
  • Possibilité d'accéder aux données au format clé-valeur ou aux ensembles de colonnes (Trame de données);

    Sortie du moteur de stockage TileDB 2.0

  • Prend en charge l'intégration avec le stockage cloud AWS S3, Google Cloud Storage et Azure Blob Storage ;
  • Prise en charge des tableaux en mosaïque (blocs) ;
  • Capacité à utiliser différents algorithmes de compression et de cryptage des données ;
  • Prise en charge de la vérification de l'intégrité à l'aide de sommes de contrôle ;
  • Travailler en mode multithread avec entrée/sortie parallèle ;
  • Prise en charge de la gestion des versions des données stockées, notamment pour la récupération de l'état à un moment donné dans le passé ou des mises à jour atomiques d'ensembles volumineux entiers.
  • Possibilité de lier des métadonnées ;
  • Prise en charge du regroupement de données ;
  • Modules d'intégration à utiliser comme moteur de stockage de bas niveau dans Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF et PrestoDB ;
  • Bibliothèques de liaison pour l'API C++ pour Python, R, Java et Go.

La version 2.0 se distingue par la prise en charge du concept « DataFrame », qui permet de stocker des données sous forme de colonnes de valeurs de longueur arbitraire, liées à certains attributs. Le stockage est également optimisé pour traiter des tableaux clairsemés de tailles hétérogènes (les cellules peuvent stocker des données de différents types et effectuer des opérations de fusion sur des colonnes de différents types, par exemple celles stockant le nom, l'heure et le prix). Ajout de la prise en charge des colonnes avec des données de chaîne. Ajout de modules pour l'intégration avec Google Cloud Storage et Azure Blob Storage. L'API du langage R a été repensée.

Source: opennet.ru

Ajouter un commentaire