Ο κώδικας κινητήρα BlazingSQL SQL είναι ανοιχτός, χρησιμοποιώντας GPU για επιτάχυνση

Ανακοινώθηκε σχετικά με το άνοιγμα των πηγών της μηχανής SQL BlazingSQL, το οποίο χρησιμοποιεί τη GPU για να επιταχύνει την επεξεργασία δεδομένων. Το BlazingSQL δεν είναι ένα πλήρες DBMS, αλλά τοποθετείται ως μηχανή για την ανάλυση και την επεξεργασία μεγάλων συνόλων δεδομένων, συγκρίσιμων ως προς τα καθήκοντά του με Apache Spark. Ο κώδικας είναι γραμμένος σε Python και Άνοιξε άδεια σύμφωνα με το Apache 2.0.

Το BlazingSQL είναι κατάλληλο για την εκτέλεση μεμονωμένων αναλυτικών ερωτημάτων σε μεγάλα σύνολα δεδομένων (δεκάδες gigabyte) που είναι αποθηκευμένα σε μορφές πίνακα (για παράδειγμα, αρχεία καταγραφής, στατιστικά στοιχεία NetFlow κ.λπ.). Το BlazingSQL μπορεί να εκτελέσει ερωτήματα από ακατέργαστα αρχεία σε μορφές CSV και Apache Parquet που φιλοξενούνται σε συστήματα αρχείων δικτύου και cloud όπως HDSF και AWS S3, μεταφέροντας απευθείας το αποτέλεσμα στη μνήμη GPU. Χάρη στον παραλληλισμό των λειτουργιών στη GPU και στη χρήση ταχύτερης μνήμης βίντεο, τα ερωτήματα στο BlazingSQL πραγματοποιούνται έως 20 φορές πιο γρήγορα από το Apache Spark.

Ο κώδικας κινητήρα BlazingSQL SQL είναι ανοιχτός, χρησιμοποιώντας GPU για επιτάχυνση

Για την εργασία με GPU, χρησιμοποιείται ένα σύνολο που αναπτύχθηκε με τη συμμετοχή της NVIDIA Άνοιξε βιβλιοθήκες ΚΑΤΑΡΡΑΚΤΗΣ, το οποίο σας επιτρέπει να δημιουργείτε εφαρμογές επεξεργασίας δεδομένων και ανάλυσης που εκτελούνται εξ ολοκλήρου από την πλευρά της GPU (παρέχεται από Διεπαφή Python να χρησιμοποιήσει χαμηλού επιπέδου πρωτόγονους CUDA και να παραλληλίσει τους υπολογισμούς).

Το BlazingSQL παρέχει τη δυνατότητα χρήσης SQL αντί για API επεξεργασίας δεδομένων cuUDF (στη βάση Βέλος Apache) χρησιμοποιείται στο RAPIDS. Το BlazingSQL είναι ένα πρόσθετο επίπεδο που τρέχει πάνω από το cuDF και χρησιμοποιεί τη βιβλιοθήκη cuIO για την ανάγνωση δεδομένων από το δίσκο. Τα ερωτήματα SQL μεταφράζονται σε κλήσεις προς συναρτήσεις cuUDF, οι οποίες σας επιτρέπουν να φορτώνετε δεδομένα στη GPU και να εκτελείτε λειτουργίες συγχώνευσης, συγκέντρωσης και φιλτραρίσματος σε αυτήν. Υποστηρίζεται η δημιουργία κατανεμημένων διαμορφώσεων που καλύπτουν χιλιάδες GPU.

Το BlazingSQL απλοποιεί σημαντικά την εργασία με δεδομένα - αντί για εκατοντάδες κλήσεις σε συναρτήσεις cuDF, μπορείτε να χρησιμοποιήσετε ένα ερώτημα SQL. Η χρήση της SQL καθιστά δυνατή την ενσωμάτωση RAPIDS με τα υπάρχοντα αναλυτικά συστήματα, χωρίς την εγγραφή συγκεκριμένων επεξεργαστών και χωρίς την καταφυγή σε ενδιάμεση φόρτωση δεδομένων σε ένα πρόσθετο DBMS, αλλά
διατηρώντας παράλληλα την πλήρη συμβατότητα με όλα τα μέρη του RAPIDS, μεταφράζοντας την υπάρχουσα λειτουργικότητα σε SQL και παρέχοντας απόδοση σε επίπεδο cuDF. Αυτό περιλαμβάνει υποστήριξη για ενοποίηση με βιβλιοθήκες XGBoost и cuML για την επίλυση προβλημάτων ανάλυσης και μηχανικής μάθησης.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο