Κυκλοφορία του μηχανισμού αποθήκευσης TileDB 2.0

Опубликовано αποθετήριο TileDB 2.0, βελτιστοποιημένο για την αποθήκευση πολυδιάστατων πινάκων και δεδομένων που χρησιμοποιούνται σε επιστημονικούς υπολογισμούς. Ως τομείς εφαρμογής του TileDB αναφέρονται διάφορα συστήματα επεξεργασίας γενετικών πληροφοριών, χωρικών και οικονομικών δεδομένων, δηλ. λειτουργικά συστήματα αραιός ή πολυδιάστατους πίνακες που συμπληρώνονται συνεχώς. Το TileDB προσφέρει μια βιβλιοθήκη C++ για διαφανή αφαίρεση πρόσβασης σε δεδομένα και μεταδεδομένα σε εφαρμογές, φροντίζοντας για όλες τις εργασίες χαμηλού επιπέδου για αποτελεσματική αποθήκευση. Ο κώδικας του έργου είναι γραμμένος σε C++ και διανέμονται από με άδεια MIT. Υποστηρίζει εργασία σε Linux, macOS και Windows.

Κύρια χαρακτηριστικά του TileDB:

  • Αποτελεσματικές μέθοδοι για την αποθήκευση αραιών πινάκων, των οποίων τα δεδομένα δεν είναι συνεχή· ο πίνακας γεμίζει με θραύσματα και τα περισσότερα στοιχεία παραμένουν κενά ή παίρνουν την ίδια τιμή.
  • Δυνατότητα πρόσβασης σε δεδομένα σε μορφή κλειδιού-τιμής ή σε σύνολα στηλών (Πλαίσιο δεδομένων);

    Κυκλοφορία του μηχανισμού αποθήκευσης TileDB 2.0

  • Υποστηρίζει την ενσωμάτωση με αποθήκευση cloud AWS S3, Google Cloud Storage και Azure Blob Storage.
  • Υποστήριξη για πλακάκια (μπλοκ) συστοιχίες.
  • Δυνατότητα χρήσης διαφορετικών αλγορίθμων συμπίεσης και κρυπτογράφησης δεδομένων.
  • Υποστήριξη για έλεγχο ακεραιότητας χρησιμοποιώντας αθροίσματα ελέγχου.
  • Εργασία σε λειτουργία πολλαπλών νημάτων με παράλληλη είσοδο/έξοδο.
  • Υποστήριξη για έκδοση εκδόσεων αποθηκευμένων δεδομένων, συμπεριλαμβανομένης της ανάκτησης κατάστασης σε ένα συγκεκριμένο σημείο του παρελθόντος ή ατομικών ενημερώσεων ολόκληρων μεγάλων συνόλων.
  • Δυνατότητα σύνδεσης μεταδεδομένων.
  • Υποστήριξη για ομαδοποίηση δεδομένων.
  • Μονάδες ενσωμάτωσης για χρήση ως μηχανή αποθήκευσης χαμηλού επιπέδου σε Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF και PrestoDB.
  • Δεσμευτικές βιβλιοθήκες για το C++ API για Python, R, Java και Go.

Η έκδοση 2.0 είναι αξιοσημείωτη για την υποστήριξή της στην έννοια «DataFrame», η οποία επιτρέπει την αποθήκευση δεδομένων με τη μορφή στηλών τιμών αυθαίρετου μήκους, συνδεδεμένες με ορισμένα χαρακτηριστικά. Ο χώρος αποθήκευσης είναι επίσης βελτιστοποιημένος για την επεξεργασία αραιών συστοιχιών ετερογενών μεγεθών (τα κελιά μπορούν να αποθηκεύουν δεδομένα διαφορετικών τύπων και μπορούν να εκτελούν λειτουργίες συγχώνευσης σε στήλες διαφορετικών τύπων, για παράδειγμα, αυτές που αποθηκεύουν όνομα, χρόνο και τιμή). Προστέθηκε υποστήριξη για στήλες με δεδομένα συμβολοσειράς. Προστέθηκαν λειτουργικές μονάδες για ενοποίηση με το Google Cloud Storage και το Azure Blob Storage. Το API για τη γλώσσα R έχει επανασχεδιαστεί.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο