Μηχανικός Δεδομένων και Επιστήμονας Δεδομένων: Ποια είναι η διαφορά;

Τα επαγγέλματα του Επιστήμονα Δεδομένων και του Μηχανικού Δεδομένων συχνά συγχέονται. Κάθε εταιρεία έχει τις δικές της ιδιαιτερότητες εργασίας με δεδομένα, διαφορετικούς σκοπούς για την ανάλυσή της και διαφορετική ιδέα για το ποιος ειδικός πρέπει να ασχοληθεί με ποιο μέρος της εργασίας, επομένως η καθεμία έχει τις δικές της απαιτήσεις. 

Ας μάθουμε ποια είναι η διαφορά μεταξύ αυτών των ειδικών, ποια επιχειρηματικά προβλήματα επιλύουν, ποιες δεξιότητες έχουν και πόσα κερδίζουν. Το υλικό αποδείχθηκε μεγάλο, οπότε το χωρίσαμε σε δύο δημοσιεύσεις.

Στο πρώτο άρθρο, η Έλενα Γερασίμοβα, επικεφαλής της σχολής "Data Science and Analytics" στο Netology, λέει ποια είναι η διαφορά μεταξύ ενός Data Scientist και ενός Data Engineer και με ποια εργαλεία εργάζονται.

Πώς διαφέρουν οι ρόλοι των μηχανικών και των επιστημόνων

Ένας μηχανικός δεδομένων είναι ένας ειδικός που, αφενός, αναπτύσσει, δοκιμάζει και συντηρεί την υποδομή δεδομένων: βάσεις δεδομένων, συστήματα αποθήκευσης και μαζικής επεξεργασίας. Από την άλλη, αυτός είναι που καθαρίζει και «χτενίζει» δεδομένα για χρήση από αναλυτές και επιστήμονες δεδομένων, δηλαδή δημιουργεί αγωγούς επεξεργασίας δεδομένων.

Το Data Scientist δημιουργεί και εκπαιδεύει προγνωστικά (και άλλα) μοντέλα χρησιμοποιώντας αλγόριθμους μηχανικής μάθησης και νευρωνικά δίκτυα, βοηθώντας τις επιχειρήσεις να βρουν κρυφά μοτίβα, να προβλέψουν τις εξελίξεις και να βελτιστοποιήσουν βασικές επιχειρηματικές διαδικασίες.

Η κύρια διαφορά μεταξύ ενός Επιστήμονα Δεδομένων και ενός Μηχανικού Δεδομένων είναι ότι συνήθως έχουν διαφορετικούς στόχους. Και οι δύο εργάζονται για να διασφαλίσουν ότι τα δεδομένα είναι προσβάσιμα και υψηλής ποιότητας. Αλλά ένας Επιστήμονας Δεδομένων βρίσκει απαντήσεις στις ερωτήσεις του και δοκιμάζει υποθέσεις σε ένα οικοσύστημα δεδομένων (για παράδειγμα, με βάση το Hadoop) και ένας Μηχανικός Δεδομένων δημιουργεί έναν αγωγό για την εξυπηρέτηση ενός αλγόριθμου μηχανικής μάθησης γραμμένου από έναν επιστήμονα δεδομένων σε ένα σύμπλεγμα Spark εντός του ίδιου οικοσύστημα. 

Ένας μηχανικός δεδομένων φέρνει αξία σε μια επιχείρηση δουλεύοντας ως μέλος μιας ομάδας. Το καθήκον του είναι να λειτουργεί ως ένας σημαντικός σύνδεσμος μεταξύ διαφορετικών συμμετεχόντων: από προγραμματιστές έως επιχειρηματίες καταναλωτές αναφορών και να αυξήσει την παραγωγικότητα των αναλυτών, από το μάρκετινγκ και το προϊόν έως το BI. 

Ένας Επιστήμονας Δεδομένων, αντίθετα, συμμετέχει ενεργά στη στρατηγική της εταιρείας και εξάγει ιδέες, λαμβάνει αποφάσεις, εφαρμόζει αλγόριθμους αυτοματισμού, μοντελοποιεί και δημιουργεί αξία από δεδομένα.
Μηχανικός Δεδομένων και Επιστήμονας Δεδομένων: Ποια είναι η διαφορά;

Η εργασία με δεδομένα υπόκειται στην αρχή GIGO (σκουπίδια μέσα - σκουπίδια έξω): εάν οι αναλυτές και οι επιστήμονες δεδομένων ασχοληθούν με απροετοίμαστα και δυνητικά εσφαλμένα δεδομένα, τότε τα αποτελέσματα ακόμη και χρησιμοποιώντας τους πιο εξελιγμένους αλγόριθμους ανάλυσης θα είναι λανθασμένα. 

Οι μηχανικοί δεδομένων λύνουν αυτό το πρόβλημα κατασκευάζοντας αγωγούς για επεξεργασία, καθαρισμό και μετασχηματισμό δεδομένων και επιτρέποντας στους επιστήμονες δεδομένων να εργαστούν με δεδομένα υψηλής ποιότητας. 

Υπάρχουν πολλά εργαλεία στην αγορά για εργασία με δεδομένα που καλύπτουν κάθε στάδιο: από την εμφάνιση των δεδομένων έως την έξοδο έως τον πίνακα ελέγχου για το διοικητικό συμβούλιο. Και είναι σημαντικό ότι η απόφαση για τη χρήση τους λαμβάνεται από έναν μηχανικό - όχι επειδή είναι της μόδας, αλλά επειδή θα βοηθήσει πραγματικά τη δουλειά των άλλων συμμετεχόντων στη διαδικασία. 

Συμβατικά: εάν μια εταιρεία χρειάζεται να κάνει συνδέσεις μεταξύ BI και ETL - φόρτωση δεδομένων και ενημέρωση αναφορών, εδώ είναι μια τυπική βάση με την οποία θα πρέπει να αντιμετωπίσει ένας Μηχανικός Δεδομένων (είναι καλό αν υπάρχει επίσης αρχιτέκτονας στην ομάδα).

Αρμοδιότητες Μηχανικού Δεδομένων

  • Ανάπτυξη, κατασκευή και συντήρηση υποδομής επεξεργασίας δεδομένων.
  • Χειρισμός σφαλμάτων και δημιουργία αξιόπιστων αγωγών επεξεργασίας δεδομένων.
  • Φέρνοντας αδόμητα δεδομένα από διάφορες δυναμικές πηγές στην απαραίτητη μορφή για το έργο των αναλυτών.
  • Παροχή συστάσεων για τη βελτίωση της συνέπειας και της ποιότητας των δεδομένων.
  • Παροχή και διατήρηση της αρχιτεκτονικής δεδομένων που χρησιμοποιείται από επιστήμονες δεδομένων και αναλυτές δεδομένων.
  • Επεξεργαστείτε και αποθηκεύστε δεδομένα με συνέπεια και αποτελεσματικότητα σε ένα κατανεμημένο σύμπλεγμα δεκάδων ή εκατοντάδων διακομιστών.
  • Αξιολογήστε τις τεχνικές ανταλλαγές των εργαλείων για να δημιουργήσετε απλές αλλά στιβαρές αρχιτεκτονικές που μπορούν να επιβιώσουν από διαταραχές.
  • Έλεγχος και υποστήριξη ροών δεδομένων και συναφών συστημάτων (ρύθμιση παρακολούθησης και ειδοποιήσεων).

Υπάρχει μια άλλη εξειδίκευση στην τροχιά του Data Engineer - μηχανικός ML. Εν ολίγοις, αυτοί οι μηχανικοί ειδικεύονται στο να φέρνουν μοντέλα μηχανικής μάθησης σε βιομηχανική εφαρμογή και χρήση. Συχνά, ένα μοντέλο που λαμβάνεται από έναν επιστήμονα δεδομένων αποτελεί μέρος μιας μελέτης και μπορεί να μην λειτουργεί σε συνθήκες μάχης.

Ευθύνες Επιστήμονα Δεδομένων

  • Εξαγωγή χαρακτηριστικών από δεδομένα για εφαρμογή αλγορίθμων μηχανικής μάθησης.
  • Χρησιμοποιώντας διάφορα εργαλεία μηχανικής εκμάθησης για την πρόβλεψη και την ταξινόμηση μοτίβων στα δεδομένα.
  • Βελτίωση της απόδοσης και της ακρίβειας των αλγορίθμων μηχανικής μάθησης με λεπτομέρεια και βελτιστοποίηση των αλγορίθμων.
  • Διαμόρφωση «ισχυρών» υποθέσεων σύμφωνα με τη στρατηγική της εταιρείας που πρέπει να ελεγχθούν.

Τόσο ο Data Engineer όσο και ο Data Scientist μοιράζονται μια απτή συμβολή στην ανάπτυξη μιας κουλτούρας δεδομένων, μέσω της οποίας μια εταιρεία μπορεί να δημιουργήσει πρόσθετα κέρδη ή να μειώσει το κόστος.

Με ποιες γλώσσες και εργαλεία εργάζονται οι μηχανικοί και οι επιστήμονες;

Σήμερα, οι προσδοκίες για τους επιστήμονες δεδομένων έχουν αλλάξει. Προηγουμένως, οι μηχανικοί συνέλεγαν μεγάλα ερωτήματα SQL, έγραψαν χειροκίνητα το MapReduce και επεξεργάζονταν δεδομένα χρησιμοποιώντας εργαλεία όπως Informatica ETL, Pentaho ETL, Talend. 

Το 2020, ένας ειδικός δεν μπορεί να κάνει χωρίς γνώση της Python και των σύγχρονων εργαλείων υπολογισμού (για παράδειγμα, Airflow), κατανόηση των αρχών της εργασίας με πλατφόρμες cloud (χρησιμοποιώντας τις για εξοικονόμηση υλικού, τηρώντας τις αρχές ασφαλείας).

Τα SAP, Oracle, MySQL, Redis είναι παραδοσιακά εργαλεία για μηχανικούς δεδομένων σε μεγάλες εταιρείες. Είναι καλές, αλλά το κόστος των αδειών είναι τόσο υψηλό που η εκμάθηση της συνεργασίας με αυτές έχει νόημα μόνο σε βιομηχανικά έργα. Ταυτόχρονα, υπάρχει μια δωρεάν εναλλακτική με τη μορφή Postgres - είναι δωρεάν και κατάλληλη όχι μόνο για εκπαίδευση. 

Μηχανικός Δεδομένων και Επιστήμονας Δεδομένων: Ποια είναι η διαφορά;
Ιστορικά, συχνά εντοπίζονται αιτήματα για Java και Scala, αν και καθώς αναπτύσσονται τεχνολογίες και προσεγγίσεις, αυτές οι γλώσσες σβήνουν στο παρασκήνιο.

Ωστόσο, το σκληροπυρηνικό BigData: Hadoop, Spark και ο υπόλοιπος ζωολογικός κήπος δεν είναι πλέον προϋπόθεση για έναν μηχανικό δεδομένων, αλλά ένα είδος εργαλείων για την επίλυση προβλημάτων που δεν μπορούν να λυθούν με το παραδοσιακό ETL. 

Η τάση είναι υπηρεσίες για χρήση εργαλείων χωρίς γνώση της γλώσσας στην οποία είναι γραμμένα (για παράδειγμα, Hadoop χωρίς γνώση Java), καθώς και η παροχή έτοιμων υπηρεσιών επεξεργασίας δεδομένων ροής (αναγνώριση φωνής ή αναγνώριση εικόνας σε βίντεο ).

Οι βιομηχανικές λύσεις από τα SAS και SPSS είναι δημοφιλείς, ενώ τα Tableau, Rapidminer, Stata και Julia χρησιμοποιούνται επίσης ευρέως από επιστήμονες δεδομένων για τοπικές εργασίες.

Μηχανικός Δεδομένων και Επιστήμονας Δεδομένων: Ποια είναι η διαφορά;
Η δυνατότητα δημιουργίας αγωγών από τους ίδιους εμφανίστηκε στους αναλυτές και τους επιστήμονες δεδομένων μόλις πριν από μερικά χρόνια: για παράδειγμα, είναι ήδη δυνατή η αποστολή δεδομένων σε ένα χώρο αποθήκευσης που βασίζεται σε PostgreSQL χρησιμοποιώντας σχετικά απλά σενάρια. 

Συνήθως, η χρήση αγωγών και ολοκληρωμένων δομών δεδομένων παραμένει ευθύνη των μηχανικών δεδομένων. Αλλά σήμερα, η τάση για ειδικούς σε σχήμα Τ με ευρείες ικανότητες σε συναφείς τομείς είναι ισχυρότερη από ποτέ, επειδή τα εργαλεία απλοποιούνται συνεχώς.

Γιατί ο Data Engineer και ο Data Scientist συνεργάζονται

Συνεργαζόμενοι στενά με μηχανικούς, οι Επιστήμονες Δεδομένων μπορούν να επικεντρωθούν στην ερευνητική πλευρά, δημιουργώντας αλγόριθμους μηχανικής εκμάθησης έτοιμους για παραγωγή.
Και οι μηχανικοί πρέπει να επικεντρωθούν στην επεκτασιμότητα, στην επαναχρησιμοποίηση δεδομένων και στη διασφάλιση ότι οι αγωγοί εισαγωγής και εξόδου δεδομένων σε κάθε μεμονωμένο έργο συμμορφώνονται με την παγκόσμια αρχιτεκτονική.

Αυτός ο διαχωρισμός των ευθυνών διασφαλίζει τη συνέπεια μεταξύ των ομάδων που εργάζονται σε διαφορετικά έργα μηχανικής εκμάθησης. 

Η συνεργασία βοηθά στη δημιουργία νέων προϊόντων αποτελεσματικά. Η ταχύτητα και η ποιότητα επιτυγχάνονται μέσω της ισορροπίας μεταξύ της δημιουργίας μιας υπηρεσίας για όλους (παγκόσμια αποθήκευση ή ενσωμάτωση πινάκων εργαλείων) και της υλοποίησης κάθε συγκεκριμένης ανάγκης ή έργου (υψηλά εξειδικευμένο αγωγό, σύνδεση εξωτερικών πηγών). 

Η στενή συνεργασία με επιστήμονες δεδομένων και αναλυτές βοηθά τους μηχανικούς να αναπτύξουν αναλυτικές και ερευνητικές δεξιότητες για τη σύνταξη καλύτερου κώδικα. Η ανταλλαγή γνώσεων μεταξύ των χρηστών αποθηκών και λιμνών δεδομένων βελτιώνεται, καθιστώντας τα έργα πιο ευέλικτα και παρέχοντας πιο βιώσιμα μακροπρόθεσμα αποτελέσματα.

Σε εταιρείες που στοχεύουν στην ανάπτυξη μιας κουλτούρας εργασίας με δεδομένα και δημιουργίας επιχειρηματικών διαδικασιών με βάση αυτά, ο Data Scientist και ο Data Engineer αλληλοσυμπληρώνονται και δημιουργούν ένα πλήρες σύστημα ανάλυσης δεδομένων. 

Στο επόμενο άρθρο θα μιλήσουμε για το τι είδους εκπαίδευση πρέπει να έχει ένας Data Engineer και Data Scientists, ποιες δεξιότητες χρειάζονται για να αναπτύξουν και πώς λειτουργεί η αγορά.

Από τους συντάκτες του Netology

Εάν αναζητάτε το επάγγελμα του Μηχανικού Δεδομένων ή του Επιστήμονα Δεδομένων, σας προσκαλούμε να μελετήσετε τα προγράμματα μαθημάτων μας:

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο