Ελεγκτής μεγάλων και μικρών δεδομένων: τάσεις, θεωρία, η ιστορία μου

Γεια σε όλους, με λένε Αλέξανδρο και είμαι μηχανικός ποιότητας δεδομένων που ελέγχει τα δεδομένα για την ποιότητά τους. Αυτό το άρθρο θα μιλήσει για το πώς κατέληξα σε αυτό και γιατί το 2020 αυτός ο τομέας δοκιμών βρισκόταν στην κορυφή ενός κύματος.

Ελεγκτής μεγάλων και μικρών δεδομένων: τάσεις, θεωρία, η ιστορία μου

παγκόσμια τάση

Ο σημερινός κόσμος βιώνει μια άλλη τεχνολογική επανάσταση, μια πτυχή της οποίας είναι η χρήση συσσωρευμένων δεδομένων από κάθε είδους εταιρείες για να προωθήσουν το δικό τους σφόνδυλο πωλήσεων, κερδών και δημοσίων σχέσεων. Φαίνεται ότι η παρουσία καλών (ποιοτικών) δεδομένων, καθώς και εξειδικευμένων εγκεφάλων που μπορούν να κερδίσουν χρήματα από αυτά (επεξεργάζονται σωστά, οπτικοποιούν, δημιουργούν μοντέλα μηχανικής μάθησης κ.λπ.), έχουν γίνει το κλειδί της επιτυχίας για πολλούς σήμερα. Αν πριν από 15-20 χρόνια οι μεγάλες εταιρείες ασχολούνταν κυρίως με εντατική εργασία με τη συσσώρευση δεδομένων και τη δημιουργία εσόδων, σήμερα αυτή είναι η τύχη όλων σχεδόν των λογικών ανθρώπων.

Από αυτή την άποψη, πριν από αρκετά χρόνια, όλες οι πύλες που είναι αφιερωμένες στην αναζήτηση εργασίας σε όλο τον κόσμο άρχισαν να γεμίζουν με κενές θέσεις για Επιστήμονες Δεδομένων, καθώς όλοι ήταν σίγουροι ότι, έχοντας προσλάβει έναν τέτοιο ειδικό, θα ήταν δυνατό να κατασκευαστεί ένα σούπερ μοντέλο μηχανικής μάθησης , προβλέψτε το μέλλον και πραγματοποιήστε ένα «κβαντικό άλμα» για την εταιρεία. Με την πάροδο του χρόνου, οι άνθρωποι συνειδητοποίησαν ότι αυτή η προσέγγιση σχεδόν ποτέ δεν λειτουργεί πουθενά, καθώς δεν είναι όλα τα δεδομένα που πέφτουν στα χέρια τέτοιων ειδικών κατάλληλα για μοντέλα εκπαίδευσης.

Και τα αιτήματα από τους Επιστήμονες Δεδομένων άρχισαν: «Ας αγοράσουμε περισσότερα δεδομένα από αυτά και από αυτά...», «Δεν έχουμε αρκετά δεδομένα...», «Χρειαζόμαστε περισσότερα δεδομένα, κατά προτίμηση υψηλής ποιότητας...» . Με βάση αυτά τα αιτήματα, άρχισαν να δημιουργούνται πολυάριθμες αλληλεπιδράσεις μεταξύ εταιρειών που κατέχουν ένα ή άλλο σύνολο δεδομένων. Φυσικά, αυτό απαιτούσε την τεχνική οργάνωση αυτής της διαδικασίας - σύνδεση με την πηγή δεδομένων, λήψη τους, έλεγχος ότι φορτώθηκε πλήρως κ.λπ. Ο αριθμός τέτοιων διαδικασιών άρχισε να αυξάνεται και σήμερα έχουμε τεράστια ανάγκη για άλλου είδους ειδικοί - Μηχανικοί Ποιότητας Δεδομένων - αυτοί που θα παρακολουθούσαν τη ροή των δεδομένων στο σύστημα (αγωγοί δεδομένων), την ποιότητα των δεδομένων στην είσοδο και την έξοδο και θα εξάγουν συμπεράσματα σχετικά με την επάρκεια, την ακεραιότητα και άλλα χαρακτηριστικά τους.

Η τάση για μηχανικούς Data Quality ήρθε σε εμάς από τις ΗΠΑ, όπου, εν μέσω της μαινόμενης εποχής του καπιταλισμού, κανείς δεν είναι έτοιμος να χάσει τη μάχη για τα δεδομένα. Παρακάτω παρείχα στιγμιότυπα οθόνης από δύο από τους πιο δημοφιλείς ιστότοπους αναζήτησης εργασίας στις ΗΠΑ: www.monster.com и www.dice.com — το οποίο εμφανίζει δεδομένα από τις 17 Μαρτίου 2020 σχετικά με τον αριθμό των αναρτημένων κενών θέσεων που ελήφθησαν χρησιμοποιώντας τις λέξεις-κλειδιά: Data Quality και Data Scientist.

www.monster.com

Data Scientists – 21416 κενές θέσεις
Ποιότητα Δεδομένων – 41104 κενές θέσεις

Ελεγκτής μεγάλων και μικρών δεδομένων: τάσεις, θεωρία, η ιστορία μου
Ελεγκτής μεγάλων και μικρών δεδομένων: τάσεις, θεωρία, η ιστορία μου

www.dice.com

Data Scientists – 404 κενές θέσεις
Ποιότητα Δεδομένων – Κενές θέσεις 2020

Ελεγκτής μεγάλων και μικρών δεδομένων: τάσεις, θεωρία, η ιστορία μου
Ελεγκτής μεγάλων και μικρών δεδομένων: τάσεις, θεωρία, η ιστορία μου

Προφανώς, αυτά τα επαγγέλματα σε καμία περίπτωση δεν ανταγωνίζονται το ένα το άλλο. Με στιγμιότυπα οθόνης, ήθελα απλώς να δείξω την τρέχουσα κατάσταση στην αγορά εργασίας όσον αφορά τα αιτήματα για μηχανικούς Ποιότητας Δεδομένων, από τους οποίους χρειάζονται πολύ περισσότεροι πλέον από τους Επιστήμονες Δεδομένων.

Τον Ιούνιο του 2019, το ΕΠΑΜ, ανταποκρινόμενο στις ανάγκες της σύγχρονης αγοράς πληροφορικής, διαχώρισε την Ποιότητα Δεδομένων σε ξεχωριστή πρακτική. Οι μηχανικοί της ποιότητας δεδομένων, κατά την καθημερινή τους εργασία, διαχειρίζονται δεδομένα, ελέγχουν τη συμπεριφορά τους σε νέες συνθήκες και συστήματα, παρακολουθούν τη συνάφεια των δεδομένων, την επάρκεια και τη συνάφειά τους. Με όλα αυτά, από πρακτική άποψη, οι μηχανικοί της ποιότητας δεδομένων αφιερώνουν πραγματικά λίγο χρόνο στις κλασικές λειτουργικές δοκιμές, ΑΛΛΑ αυτό εξαρτάται σε μεγάλο βαθμό από το έργο (θα δώσω ένα παράδειγμα παρακάτω).

Οι ευθύνες ενός μηχανικού ποιότητας δεδομένων δεν περιορίζονται μόνο σε συνήθεις χειροκίνητους/αυτόματους ελέγχους για «μηδενικά, πλήθη και αθροίσματα» σε πίνακες βάσεων δεδομένων, αλλά απαιτούν βαθιά κατανόηση των επιχειρηματικών αναγκών του πελάτη και, κατά συνέπεια, την ικανότητα μετατροπής των διαθέσιμων δεδομένων σε χρήσιμες επιχειρηματικές πληροφορίες.

Θεωρία Ποιότητας Δεδομένων

Ελεγκτής μεγάλων και μικρών δεδομένων: τάσεις, θεωρία, η ιστορία μου

Για να φανταστούμε πληρέστερα τον ρόλο ενός τέτοιου μηχανικού, ας καταλάβουμε τι είναι θεωρητικά η Ποιότητα Δεδομένων.

Ποιότητα δεδομένων — ένα από τα στάδια της Διαχείρισης Δεδομένων (ένας ολόκληρος κόσμος που θα σας αφήσουμε να μελετήσετε μόνοι σας) και είναι υπεύθυνος για την ανάλυση δεδομένων σύμφωνα με τα ακόλουθα κριτήρια:

Ελεγκτής μεγάλων και μικρών δεδομένων: τάσεις, θεωρία, η ιστορία μου
Νομίζω ότι δεν χρειάζεται να αποκρυπτογραφήσουμε καθένα από τα σημεία (θεωρητικά ονομάζονται "διαστάσεις δεδομένων"), περιγράφονται αρκετά καλά στην εικόνα. Αλλά η ίδια η διαδικασία δοκιμών δεν συνεπάγεται την αυστηρή αντιγραφή αυτών των χαρακτηριστικών σε δοκιμαστικές περιπτώσεις και τον έλεγχό τους. Στην Ποιότητα Δεδομένων, όπως και σε κάθε άλλο είδος δοκιμών, είναι απαραίτητο, πρώτα απ 'όλα, να βασιστείτε στις απαιτήσεις ποιότητας δεδομένων που συμφωνήθηκαν με τους συμμετέχοντες στο έργο που λαμβάνουν επιχειρηματικές αποφάσεις.

Ανάλογα με το έργο Data Quality, ένας μηχανικός μπορεί να εκτελέσει διαφορετικές λειτουργίες: από έναν συνηθισμένο ελεγκτή αυτοματισμού με επιφανειακή αξιολόγηση της ποιότητας των δεδομένων, έως ένα άτομο που διεξάγει βαθύ προφίλ των δεδομένων σύμφωνα με τα παραπάνω κριτήρια.

Μια πολύ λεπτομερής περιγραφή της διαχείρισης δεδομένων, της ποιότητας δεδομένων και των σχετικών διαδικασιών περιγράφεται καλά στο βιβλίο που ονομάζεται "DAMA-DMBOK: Data Management Body of Knowledge: 2nd Edition". Συνιστώ ανεπιφύλακτα αυτό το βιβλίο ως εισαγωγή σε αυτό το θέμα (θα βρείτε έναν σύνδεσμο προς αυτό στο τέλος του άρθρου).

Η ιστορία μου

Στον κλάδο της πληροφορικής, ανέβηκα από Junior tester σε εταιρείες προϊόντων σε Lead Engineer Quality Data στο EPAM. Μετά από περίπου δύο χρόνια εργασίας ως ελεγκτής, είχα την ακλόνητη πεποίθηση ότι είχα κάνει απολύτως όλους τους τύπους δοκιμών: παλινδρόμηση, λειτουργικότητα, άγχος, σταθερότητα, ασφάλεια, διεπαφή χρήστη κ.λπ. - και δοκίμασα έναν μεγάλο αριθμό εργαλείων δοκιμών, έχοντας εργάστηκε ταυτόχρονα σε τρεις γλώσσες προγραμματισμού: Java, Scala, Python.

Κοιτάζοντας πίσω, καταλαβαίνω γιατί το σύνολο των δεξιοτήτων μου ήταν τόσο ποικίλο—συμμετείχα σε έργα βασισμένα σε δεδομένα, μεγάλα και μικρά. Αυτό είναι που με έφερε σε έναν κόσμο με πολλά εργαλεία και ευκαιρίες για ανάπτυξη.

Για να εκτιμήσετε την ποικιλία των εργαλείων και των ευκαιριών για να αποκτήσετε νέες γνώσεις και δεξιότητες, απλώς δείτε την παρακάτω εικόνα, η οποία δείχνει τα πιο δημοφιλή στον κόσμο «Δεδομένα και τεχνητή νοημοσύνη».

Ελεγκτής μεγάλων και μικρών δεδομένων: τάσεις, θεωρία, η ιστορία μου
Αυτό το είδος εικονογράφησης συγκεντρώνεται ετησίως από έναν από τους διάσημους επενδυτές venture capital Matt Turck, ο οποίος προέρχεται από την ανάπτυξη λογισμικού. Εδώ σύνδεσμος στο blog του και εταιρεία επιχειρηματικών κεφαλαίων, όπου εργάζεται ως συνεργάτης.

Μεγάλωσα επαγγελματικά ιδιαίτερα γρήγορα όταν ήμουν ο μόνος δοκιμαστής στο έργο, ή τουλάχιστον στην αρχή του έργου. Είναι μια τέτοια στιγμή που πρέπει να είστε υπεύθυνοι για όλη τη διαδικασία δοκιμών, και δεν έχετε καμία ευκαιρία να υποχωρήσετε, μόνο προς τα εμπρός. Στην αρχή ήταν τρομακτικό, αλλά τώρα όλα τα πλεονεκτήματα μιας τέτοιας δοκιμής είναι προφανή για μένα:

  • Αρχίζετε να επικοινωνείτε με ολόκληρη την ομάδα όπως ποτέ άλλοτε, αφού δεν υπάρχει πληρεξούσιος για επικοινωνία: ούτε ο υπεύθυνος δοκιμών ούτε οι συνάδελφοι δοκιμαστές.
  • Η εμβάπτιση στο έργο γίνεται απίστευτα βαθιά και έχετε πληροφορίες για όλα τα στοιχεία, τόσο γενικά όσο και λεπτομερώς.
  • Οι προγραμματιστές δεν σας βλέπουν ως «αυτόν τον τύπο που δοκιμάζει που δεν ξέρει τι κάνει», αλλά μάλλον ως ισότιμο που παράγει απίστευτα οφέλη για την ομάδα με τις αυτοματοποιημένες δοκιμές του και την πρόβλεψη σφαλμάτων που εμφανίζονται σε ένα συγκεκριμένο στοιχείο του προϊόν.
  • Ως αποτέλεσμα, είστε πιο αποτελεσματικοί, πιο εξειδικευμένοι και πιο απαιτητικοί.

Καθώς το έργο μεγάλωνε, στο 100% των περιπτώσεων έγινα μέντορας για νέους δοκιμαστές, διδάσκοντάς τους και μεταδίδοντας τη γνώση που είχα μάθει ο ίδιος. Ταυτόχρονα, ανάλογα με το έργο, δεν λάμβανα πάντα το υψηλότερο επίπεδο ειδικών δοκιμών αυτοκινήτων από τη διοίκηση και χρειαζόταν είτε να τους εκπαιδεύσω στον αυτοματισμό (για όσους ενδιαφέρονται) είτε να δημιουργήσω εργαλεία για χρήση σε καθημερινές δραστηριότητες (εργαλεία για τη δημιουργία δεδομένων και τη φόρτωσή τους στο σύστημα, ένα εργαλείο για την εκτέλεση δοκιμών φορτίου/δοκιμών σταθερότητας «γρήγορα» κ.λπ.).

Παράδειγμα συγκεκριμένου έργου

Δυστυχώς, λόγω υποχρεώσεων μη αποκάλυψης, δεν μπορώ να μιλήσω λεπτομερώς για τα έργα στα οποία εργάστηκα, αλλά θα δώσω παραδείγματα τυπικών εργασιών ενός Μηχανικού Ποιότητας Δεδομένων σε ένα από τα έργα.

Η ουσία του έργου είναι η εφαρμογή μιας πλατφόρμας για την προετοιμασία δεδομένων για την κατάρτιση μοντέλων μηχανικής μάθησης που βασίζονται σε αυτήν. Ο πελάτης ήταν μια μεγάλη φαρμακευτική εταιρεία από τις Η.Π.Α. Τεχνικά ήταν ένα σύμπλεγμα Kubernetes, ανεβαίνοντας σε AWS EC2 περιπτώσεις, με πολλές μικροϋπηρεσίες και το υποκείμενο έργο ανοιχτού κώδικα του ΕΠΑΜ - Λεγεώνας, προσαρμοσμένο στις ανάγκες ενός συγκεκριμένου πελάτη (τώρα το έργο έχει αναγεννηθεί Οντάχου). Οι διαδικασίες ETL οργανώθηκαν χρησιμοποιώντας Ροή αέρα Apache και μετακινήθηκαν δεδομένα από Salesforce συστήματα πελατών σε AWS S3 Κουβάδες. Στη συνέχεια, μια εικόνα Docker ενός μοντέλου μηχανικής μάθησης αναπτύχθηκε στην πλατφόρμα, η οποία εκπαιδεύτηκε σε νέα δεδομένα και, χρησιμοποιώντας τη διεπαφή REST API, παρήγαγε προβλέψεις που ενδιαφέρουν την επιχείρηση και έλυνε συγκεκριμένα προβλήματα.

Οπτικά, όλα έμοιαζαν κάπως έτσι:

Ελεγκτής μεγάλων και μικρών δεδομένων: τάσεις, θεωρία, η ιστορία μου
Υπήρξαν πολλές λειτουργικές δοκιμές σε αυτό το έργο και δεδομένης της ταχύτητας ανάπτυξης χαρακτηριστικών και της ανάγκης διατήρησης του ρυθμού του κύκλου κυκλοφορίας (σπριντ δύο εβδομάδων), ήταν απαραίτητο να σκεφτούμε αμέσως την αυτοματοποίηση των δοκιμών των πιο κρίσιμων στοιχείων του το σύστημα. Το μεγαλύτερο μέρος της ίδιας της πλατφόρμας που βασίζεται στο Kubernetes καλύφθηκε από αυτόματες δοκιμές που εφαρμόστηκαν σε Πλαίσιο ρομπότ + Python, αλλά ήταν επίσης απαραίτητο να υποστηριχθούν και να επεκταθούν. Επιπλέον, για τη διευκόλυνση του πελάτη, δημιουργήθηκε ένα GUI για τη διαχείριση μοντέλων μηχανικής εκμάθησης που αναπτύσσονται στο σύμπλεγμα, καθώς και τη δυνατότητα να προσδιορίζεται πού και πού πρέπει να μεταφερθούν δεδομένα για την εκπαίδευση των μοντέλων. Αυτή η εκτεταμένη προσθήκη συνεπαγόταν μια επέκταση των αυτοματοποιημένων λειτουργικών δοκιμών, η οποία έγινε κυρίως μέσω κλήσεων REST API και ενός μικρού αριθμού δοκιμών διεπαφής χρήστη end-2-end. Γύρω από τον ισημερινό όλης αυτής της κίνησης, μας συνάντησε ένας χειροκίνητος ελεγκτής που έκανε εξαιρετική δουλειά με τον έλεγχο αποδοχής των εκδόσεων προϊόντων και την επικοινωνία με τον πελάτη σχετικά με την αποδοχή της επόμενης κυκλοφορίας. Επιπλέον, λόγω της άφιξης ενός νέου ειδικού, μπορέσαμε να τεκμηριώσουμε την εργασία μας και να προσθέσουμε αρκετούς πολύ σημαντικούς χειροκίνητους ελέγχους που ήταν δύσκολο να αυτοματοποιηθούν αμέσως.

Και τέλος, αφού επιτύχαμε σταθερότητα από την πλατφόρμα και το πρόσθετο GUI πάνω της, ξεκινήσαμε την κατασκευή αγωγών ETL χρησιμοποιώντας Apache Airflow DAG. Ο αυτοματοποιημένος έλεγχος ποιότητας δεδομένων πραγματοποιήθηκε με τη σύνταξη ειδικών DAGs Airflow που έλεγχαν τα δεδομένα με βάση τα αποτελέσματα της διαδικασίας ETL. Ως μέρος αυτού του έργου, ήμασταν τυχεροί και ο πελάτης μας έδωσε πρόσβαση σε ανώνυμα σύνολα δεδομένων στα οποία δοκιμάσαμε. Ελέγξαμε τα δεδομένα γραμμή προς γραμμή για συμμόρφωση με τους τύπους, την παρουσία κατεστραμμένων δεδομένων, τον συνολικό αριθμό εγγραφών πριν και μετά, σύγκριση μετασχηματισμών που έγιναν από τη διαδικασία ETL για συγκέντρωση, αλλαγή ονομάτων στηλών και άλλα πράγματα. Επιπλέον, αυτοί οι έλεγχοι κλιμακώθηκαν σε διαφορετικές πηγές δεδομένων, για παράδειγμα, εκτός από το SalesForce, και σε MySQL.

Οι τελικοί έλεγχοι ποιότητας δεδομένων πραγματοποιήθηκαν ήδη στο επίπεδο S3, όπου αποθηκεύτηκαν και ήταν έτοιμα προς χρήση για εκπαίδευση μοντέλων μηχανικής εκμάθησης. Για τη λήψη δεδομένων από το τελικό αρχείο CSV που βρίσκεται στον κάδο S3 και την επικύρωσή του, γράφτηκε ο κώδικας χρησιμοποιώντας πελάτες boto3.

Υπήρχε επίσης η απαίτηση από τον πελάτη να αποθηκεύσει μέρος των δεδομένων σε έναν κάδο S3 και μέρος σε άλλο. Αυτό απαιτούσε επίσης τη σύνταξη πρόσθετων ελέγχων για τον έλεγχο της αξιοπιστίας αυτής της ταξινόμησης.

Γενικευμένη εμπειρία από άλλα έργα

Ένα παράδειγμα της πιο γενικής λίστας δραστηριοτήτων ενός μηχανικού ποιότητας δεδομένων:

  • Προετοιμάστε δεδομένα δοκιμής (έγκυρα μη έγκυρα μεγάλα μικρά) μέσω ενός αυτοματοποιημένου εργαλείου.
  • Μεταφορτώστε το έτοιμο σύνολο δεδομένων στην αρχική πηγή και ελέγξτε ότι είναι έτοιμο για χρήση.
  • Εκκινήστε διεργασίες ETL για την επεξεργασία ενός συνόλου δεδομένων από την πηγή αποθήκευσης στην τελική ή ενδιάμεση αποθήκευση χρησιμοποιώντας ένα συγκεκριμένο σύνολο ρυθμίσεων (εάν είναι δυνατόν, ορίστε παραμέτρους με δυνατότητα διαμόρφωσης για την εργασία ETL).
  • Επαληθεύστε τα δεδομένα που υποβάλλονται σε επεξεργασία από τη διαδικασία ETL για την ποιότητά τους και τη συμμόρφωσή τους με τις επιχειρηματικές απαιτήσεις.

Ταυτόχρονα, η κύρια εστίαση των ελέγχων θα πρέπει να είναι όχι μόνο στο γεγονός ότι η ροή δεδομένων στο σύστημα έχει, καταρχήν, λειτουργήσει και έχει ολοκληρωθεί (που αποτελεί μέρος της λειτουργικής δοκιμής), αλλά κυρίως στον έλεγχο και την επικύρωση δεδομένων για συμμόρφωση με τις αναμενόμενες απαιτήσεις, εντοπισμός ανωμαλιών και άλλα πράγματα.

Εργαλεία

Μία από τις τεχνικές για τέτοιου είδους έλεγχο δεδομένων μπορεί να είναι η οργάνωση αλυσιδωτών ελέγχων σε κάθε στάδιο επεξεργασίας δεδομένων, η λεγόμενη «αλυσίδα δεδομένων» στη βιβλιογραφία - έλεγχος των δεδομένων από την πηγή έως το σημείο τελικής χρήσης. Αυτοί οι τύποι ελέγχων υλοποιούνται συχνότερα με τη σύνταξη ερωτημάτων ελέγχου SQL. Είναι σαφές ότι τέτοια ερωτήματα πρέπει να είναι όσο το δυνατόν πιο ελαφριά και να ελέγχουν μεμονωμένα κομμάτια ποιότητας δεδομένων (μεταδεδομένα πινάκων, κενές γραμμές, NULL, Σφάλματα σύνταξης - άλλα χαρακτηριστικά που απαιτούνται για τον έλεγχο).

Στην περίπτωση δοκιμής παλινδρόμησης, η οποία χρησιμοποιεί έτοιμα (αμετάβλητα, ελαφρώς μεταβλητά) σύνολα δεδομένων, ο κώδικας αυτόματης δοκιμής μπορεί να αποθηκεύσει έτοιμα πρότυπα για τον έλεγχο των δεδομένων ως προς τη συμμόρφωση με την ποιότητα (περιγραφές αναμενόμενων μεταδεδομένων πίνακα, δείγματα αντικειμένων σειρών που μπορούν να επιλεγμένα τυχαία κατά τη διάρκεια της δοκιμής, κ.λπ.).

Επίσης, κατά τη διάρκεια της δοκιμής, πρέπει να γράψετε διαδικασίες δοκιμών ETL χρησιμοποιώντας πλαίσια όπως το Apache Airflow, Apache Spark ή ακόμα και ένα εργαλείο τύπου σύννεφο μαύρου κουτιού Προετοιμασία δεδομένων GCP, Ροή δεδομένων GCP Και ούτω καθεξής. Αυτή η περίσταση αναγκάζει τον μηχανικό δοκιμής να εμβαθύνει στις αρχές λειτουργίας των παραπάνω εργαλείων και ακόμη πιο αποτελεσματικά να διεξάγει λειτουργικές δοκιμές (για παράδειγμα, υπάρχουσες διεργασίες ETL σε ένα έργο) και να τις χρησιμοποιεί για τον έλεγχο δεδομένων. Συγκεκριμένα, το Apache Airflow διαθέτει έτοιμους χειριστές για εργασία με δημοφιλείς αναλυτικές βάσεις δεδομένων, για παράδειγμα GCP BigQuery. Το βασικότερο παράδειγμα χρήσης του έχει ήδη περιγραφεί εδώ, οπότε δεν θα επαναλάβω τον εαυτό μου.

Εκτός από έτοιμες λύσεις, κανείς δεν σας απαγορεύει να εφαρμόσετε τις δικές σας τεχνικές και εργαλεία. Αυτό δεν θα είναι επωφελές μόνο για το έργο, αλλά και για τον ίδιο τον Μηχανικό Ποιότητας Δεδομένων, ο οποίος θα βελτιώσει έτσι τους τεχνικούς του ορίζοντες και τις δεξιότητές του κωδικοποίησης.

Πώς λειτουργεί σε ένα πραγματικό έργο

Μια καλή απεικόνιση των τελευταίων παραγράφων σχετικά με την «αλυσίδα δεδομένων», το ETL και τους πανταχού παρόντες ελέγχους είναι η ακόλουθη διαδικασία από ένα από τα πραγματικά έργα:

Ελεγκτής μεγάλων και μικρών δεδομένων: τάσεις, θεωρία, η ιστορία μου

Εδώ, διάφορα δεδομένα (φυσικά, προετοιμασμένα από εμάς) μπαίνουν στη «χοάνη» εισόδου του συστήματός μας: έγκυρα, άκυρα, μεικτά κ.λπ., στη συνέχεια φιλτράρονται και καταλήγουν σε μια ενδιάμεση αποθήκευση και μετά υφίστανται και πάλι μια σειρά μετασχηματισμών και τοποθετούνται στην τελική αποθήκευση , από την οποία, με τη σειρά τους, θα πραγματοποιούνται αναλυτικά στοιχεία, μάρκες οικοδόμησης δεδομένων και αναζήτηση επιχειρηματικών πληροφοριών. Σε ένα τέτοιο σύστημα, χωρίς να ελέγχουμε λειτουργικά τη λειτουργία των διαδικασιών ETL, εστιάζουμε στην ποιότητα των δεδομένων πριν και μετά τους μετασχηματισμούς, καθώς και στην έξοδο προς την ανάλυση.

Για να συνοψίσουμε τα παραπάνω, ανεξάρτητα από τους χώρους όπου εργάστηκα, παντού συμμετείχα σε έργα Data που μοιράζονταν τα ακόλουθα χαρακτηριστικά:

  • Μόνο μέσω της αυτοματοποίησης μπορείτε να δοκιμάσετε ορισμένες περιπτώσεις και να επιτύχετε έναν κύκλο κυκλοφορίας αποδεκτό από την επιχείρηση.
  • Ένας δοκιμαστής σε ένα τέτοιο έργο είναι ένα από τα πιο σεβαστά μέλη της ομάδας, καθώς φέρνει μεγάλα οφέλη σε κάθε έναν από τους συμμετέχοντες (επιτάχυνση των δοκιμών, καλά δεδομένα από τον Επιστήμονα Δεδομένων, εντοπισμός ελαττωμάτων στα αρχικά στάδια).
  • Δεν έχει σημασία αν εργάζεστε στο δικό σας υλικό ή στα σύννεφα - όλοι οι πόροι είναι αφηρημένοι σε ένα σύμπλεγμα όπως τα Hortonworks, Cloudera, Mesos, Kubernetes κ.λπ.
  • Τα έργα βασίζονται σε μια προσέγγιση μικροϋπηρεσιών, κυριαρχούν τα κατανεμημένα και παράλληλοι υπολογιστές.

Θα ήθελα να σημειώσω ότι όταν κάνει δοκιμές στον τομέα της Ποιότητας Δεδομένων, ένας ειδικός δοκιμών μετατοπίζει την επαγγελματική του εστίαση στον κώδικα του προϊόντος και στα εργαλεία που χρησιμοποιούνται.

Διακριτικά χαρακτηριστικά του ελέγχου ποιότητας δεδομένων

Επιπλέον, για μένα, έχω εντοπίσει τα ακόλουθα (θα κάνω αμέσως επιφύλαξη ότι είναι ΠΟΛΥ γενικευμένα και αποκλειστικά υποκειμενικά) διακριτικά χαρακτηριστικά των δοκιμών σε έργα (συστήματα) Δεδομένων (Big Data) και σε άλλους τομείς:

Ελεγκτής μεγάλων και μικρών δεδομένων: τάσεις, θεωρία, η ιστορία μου

χρήσιμοι σύνδεσμοι

  1. Θεωρία: DAMA-DMBOK: Data Management Body of Knowledge: 2nd Edition.
  2. Εκπαιδευτικό κέντρο ΕΠΑΜ 
  3. Προτεινόμενα υλικά για έναν αρχάριο μηχανικό ποιότητας δεδομένων:
    1. Δωρεάν μάθημα στο Stepik: Εισαγωγή στις βάσεις δεδομένων
    2. Μάθημα για το LinkedIn Learning: Data Science Foundations: Data Engineering.
    3. Άρθρα:
    4. Βίντεο:

Συμπέρασμα

Ποιότητα δεδομένων είναι μια πολύ νέα πολλά υποσχόμενη κατεύθυνση, το να είσαι μέρος της οποίας σημαίνει να είσαι μέρος μιας startup. Μόλις αποκτήσετε πρόσβαση στην Ποιότητα Δεδομένων, θα βυθιστείτε σε έναν μεγάλο αριθμό σύγχρονων τεχνολογιών με ζήτηση, αλλά το πιο σημαντικό, θα ανοίξουν τεράστιες ευκαιρίες για να δημιουργήσετε και να εφαρμόσετε τις ιδέες σας. Θα μπορείτε να χρησιμοποιήσετε την προσέγγιση συνεχούς βελτίωσης όχι μόνο για το έργο, αλλά και για τον εαυτό σας, εξελισσόμενοι συνεχώς ως ειδικός.

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο