Οι πιο απαιτητικές δεξιότητες στο επάγγελμα του μηχανικού δεδομένων

Σύμφωνα με στατιστικά 2019, ο μηχανικός δεδομένων είναι επί του παρόντος ένα επάγγελμα του οποίου η ζήτηση αυξάνεται ταχύτερα από οποιοδήποτε άλλο. Ένας μηχανικός δεδομένων διαδραματίζει κρίσιμο ρόλο σε έναν οργανισμό - δημιουργώντας και συντηρώντας αγωγούς και βάσεις δεδομένων που χρησιμοποιούνται για την επεξεργασία, τον μετασχηματισμό και την αποθήκευση δεδομένων. Ποιες δεξιότητες χρειάζονται πρώτα από όλα οι εκπρόσωποι αυτού του επαγγέλματος; Είναι ο κατάλογος διαφορετικός από αυτό που απαιτείται από τους επιστήμονες δεδομένων; Θα μάθετε για όλα αυτά από το άρθρο μου.

Ανέλυσα τις κενές θέσεις για τη θέση του μηχανικού δεδομένων όπως είναι τον Ιανουάριο του 2020 για να καταλάβω ποιες τεχνολογικές δεξιότητες είναι πιο δημοφιλείς. Στη συνέχεια συνέκρινα τα αποτελέσματα με στατιστικά στοιχεία σχετικά με τις κενές θέσεις για τη θέση του επιστήμονα δεδομένων - και προέκυψαν μερικές ενδιαφέρουσες διαφορές.

Χωρίς πολύ προοίμιο, εδώ είναι οι δέκα κορυφαίες τεχνολογίες που αναφέρονται πιο συχνά στις αγγελίες εργασίας:

Οι πιο απαιτητικές δεξιότητες στο επάγγελμα του μηχανικού δεδομένων

Αναφορά τεχνολογιών σε κενές θέσεις για τη θέση του μηχανικού δεδομένων το 2020

Ας καταλάβουμε.

Αρμοδιότητες μηχανικού δεδομένων

Σήμερα, η δουλειά που κάνουν οι μηχανικοί δεδομένων είναι μεγάλης σημασίας για τους οργανισμούς - αυτοί είναι οι άνθρωποι που είναι υπεύθυνοι για την αποθήκευση πληροφοριών και τη μεταφορά τους σε τέτοια μορφή ώστε άλλοι υπάλληλοι να μπορούν να συνεργαστούν μαζί τους. Οι μηχανικοί δεδομένων κατασκευάζουν αγωγούς για ροή ή ομαδοποίηση δεδομένων από πολλαπλές πηγές. Στη συνέχεια, οι αγωγοί εκτελούν λειτουργίες εξαγωγής, μετασχηματισμού και φόρτωσης (με άλλα λόγια, διαδικασίες ETL), καθιστώντας τα δεδομένα πιο κατάλληλα για περαιτέρω χρήση. Μετά από αυτό, τα δεδομένα υποβάλλονται σε αναλυτές και επιστήμονες δεδομένων για βαθύτερη επεξεργασία. Τέλος, τα δεδομένα τελειώνουν το ταξίδι τους σε πίνακες εργαλείων, αναφορές και μοντέλα μηχανικής εκμάθησης.

Έψαχνα για πληροφορίες που θα μου επέτρεπαν να βγάλω ένα συμπέρασμα σχετικά με το ποιες τεχνολογίες έχουν τη μεγαλύτερη ζήτηση στο έργο ενός μηχανικού δεδομένων αυτή τη στιγμή.

Μέθοδοι

Συνέλεξα πληροφορίες από τρεις ιστότοπους αναζήτησης εργασίας − Απλά μισθωμένο, Πράγματι и Τέρας και εξέτασε ποιες λέξεις-κλειδιά συναντούν σε συνδυασμό με τον «μηχανικό δεδομένων» στα κείμενα των κενών θέσεων που απευθύνονται σε κατοίκους των ΗΠΑ. Για αυτήν την εργασία χρησιμοποίησα δύο βιβλιοθήκες Python − Requests и Όμορφη σούπα. Μεταξύ των λέξεων-κλειδιών, συμπεριέλαβα τόσο αυτές που συμπεριλήφθηκαν στην προηγούμενη λίστα για την ανάλυση των κενών θέσεων για τη θέση του επιστήμονα δεδομένων, όσο και αυτές που επέλεξα χειροκίνητα κατά την ανάγνωση προσφορών εργασίας για μηχανικούς δεδομένων. Το LinkedIn δεν συμπεριλήφθηκε στη λίστα των πηγών, αφού με απαγόρευσαν μετά την τελευταία μου προσπάθεια συλλογής δεδομένων.

Για κάθε λέξη-κλειδί, υπολόγισα το ποσοστό των επισκέψεων από τον συνολικό αριθμό κειμένων σε κάθε ιστότοπο ξεχωριστά και, στη συνέχεια, υπολόγισα τον μέσο όρο για τις τρεις πηγές.

Ευρήματα

Παρακάτω είναι οι τριάντα όροι μηχανικής τεχνικών δεδομένων με τις υψηλότερες βαθμολογίες και στις τρεις θέσεις εργασίας.

Οι πιο απαιτητικές δεξιότητες στο επάγγελμα του μηχανικού δεδομένων

Και εδώ είναι οι ίδιοι αριθμοί, αλλά παρουσιάζονται σε μορφή πίνακα:

Οι πιο απαιτητικές δεξιότητες στο επάγγελμα του μηχανικού δεδομένων

Πάμε με τη σειρά.

Ανασκόπηση αποτελεσμάτων

Τόσο η SQL όσο και η Python εμφανίζονται σε περισσότερα από τα δύο τρίτα των θέσεων εργασίας που εξετάστηκαν. Αυτές οι δύο τεχνολογίες είναι που έχουν νόημα να μελετήσουμε πρώτα. Python είναι μια πολύ δημοφιλής γλώσσα προγραμματισμού που χρησιμοποιείται για εργασία με δεδομένα, δημιουργία ιστοσελίδων και σύνταξη σεναρίων. SQL σημαίνει δομημένη γλώσσα ερωτήματος. περιλαμβάνει ένα πρότυπο που υλοποιείται από μια ομάδα γλωσσών και χρησιμοποιείται για την ανάκτηση δεδομένων από σχεσιακές βάσεις δεδομένων. Εμφανίστηκε πριν από πολύ καιρό και έχει αποδειχθεί ιδιαίτερα ανθεκτικό.

Το Spark αναφέρεται στις μισές περίπου κενές θέσεις. Apache Spark είναι μια «ενοποιημένη μηχανή ανάλυσης δεδομένων μεγάλων δεδομένων με ενσωματωμένες ενότητες για ροή, SQL, μηχανική εκμάθηση και επεξεργασία γραφημάτων». Είναι ιδιαίτερα δημοφιλές μεταξύ εκείνων που εργάζονται με μεγάλες βάσεις δεδομένων.

Το AWS εμφανίζεται στο 45% περίπου των αγγελιών. Είναι μια πλατφόρμα υπολογιστικού νέφους που κατασκευάζεται από την Amazon. έχει το μεγαλύτερο μερίδιο αγοράς μεταξύ όλων των πλατφορμών cloud.
Ακολουθούν η Java και το Hadoop - λίγο περισσότερο από το 40% για τον αδερφό τους. Java είναι μια ευρέως ομιλούμενη, δοκιμασμένη στη μάχη γλώσσα που Έρευνα προγραμματιστών 2019 Stack Overflow βραβεύτηκε με τη δέκατη θέση μεταξύ των γλωσσών που προκαλούν τρόμο στους προγραμματιστές. Αντίθετα, η Python ήταν η δεύτερη πιο αγαπημένη γλώσσα. Η γλώσσα Java εκτελείται από την Oracle και όλα όσα χρειάζεται να γνωρίζετε γι' αυτήν μπορούν να γίνουν κατανοητά από αυτό το στιγμιότυπο οθόνης της επίσημης σελίδας από τον Ιανουάριο του 2020.

Οι πιο απαιτητικές δεξιότητες στο επάγγελμα του μηχανικού δεδομένων

Είναι σαν να οδηγείς σε μια χρονομηχανή
Apache Hadoop χρησιμοποιεί το μοντέλο προγραμματισμού MapReduce με συμπλέγματα διακομιστών για μεγάλα δεδομένα. Τώρα αυτό το μοντέλο εγκαταλείπεται όλο και περισσότερο.

Στη συνέχεια βλέπουμε Hive, Scala, Kafka και NoSQL - καθεμία από αυτές τις τεχνολογίες αναφέρεται στο ένα τέταρτο των κενών θέσεων που υποβλήθηκαν. Το Apache Hive είναι ένα λογισμικό αποθήκης δεδομένων που «καθιστά εύκολη την ανάγνωση, εγγραφή και διαχείριση μεγάλων συνόλων δεδομένων που βρίσκονται σε κατανεμημένα καταστήματα χρησιμοποιώντας SQL». Scala – μια γλώσσα προγραμματισμού που χρησιμοποιείται ενεργά κατά την εργασία με μεγάλα δεδομένα. Συγκεκριμένα, το Spark δημιουργήθηκε στη Σκάλα. Στην ήδη αναφερθείσα κατάταξη των επίφοβων γλωσσών, η Scala κατατάσσεται στην ενδέκατη θέση. Apache Kafka – μια κατανεμημένη πλατφόρμα για την επεξεργασία μηνυμάτων ροής. Πολύ δημοφιλές ως μέσο ροής δεδομένων.

Βάσεις δεδομένων NoSQL αντίθεση με την SQL. Διαφέρουν στο ότι είναι μη σχεσιακά, μη δομημένα και οριζόντια κλιμακούμενα. Το NoSQL έχει κερδίσει κάποια δημοτικότητα, αλλά η τρέλα για την προσέγγιση, ακόμη και στο σημείο των προφητειών ότι θα αντικαταστήσει την SQL ως το κυρίαρχο παράδειγμα αποθήκευσης, φαίνεται να έχει τελειώσει.

Σύγκριση με όρους στις κενές θέσεις επιστημόνων δεδομένων

Εδώ είναι τριάντα όροι τεχνολογίας που είναι πιο συνηθισμένοι μεταξύ των εργοδοτών της επιστήμης δεδομένων. Έλαβα αυτήν τη λίστα με τον ίδιο τρόπο που περιγράφηκε παραπάνω για τη μηχανική δεδομένων.

Οι πιο απαιτητικές δεξιότητες στο επάγγελμα του μηχανικού δεδομένων

Αναφορές τεχνολογίας σε κενές θέσεις για τη θέση του επιστήμονα δεδομένων το 2020

Αν μιλάμε για τον συνολικό αριθμό, σε σύγκριση με τις προηγούμενες προσλήψεις, υπήρχαν 28% περισσότερες κενές θέσεις (12 έναντι 013). Ας δούμε ποιες τεχνολογίες είναι λιγότερο συνηθισμένες στις κενές θέσεις για επιστήμονες δεδομένων παρά για μηχανικούς δεδομένων.

Πιο δημοφιλές στη μηχανική δεδομένων

Το παρακάτω γράφημα δείχνει λέξεις-κλειδιά με μέση διαφορά μεγαλύτερη από 10% ή μικρότερη από -10%.

Οι πιο απαιτητικές δεξιότητες στο επάγγελμα του μηχανικού δεδομένων

Οι μεγαλύτερες διαφορές στη συχνότητα των λέξεων-κλειδιών μεταξύ μηχανικού δεδομένων και επιστήμονα δεδομένων

Το AWS παρουσιάζει την πιο σημαντική αύξηση: στη μηχανική δεδομένων εμφανίζεται 25% πιο τακτικά από ό,τι στην επιστήμη δεδομένων (περίπου 45% και 20% του συνολικού αριθμού κενών θέσεων, αντίστοιχα). Η διαφορά είναι αισθητή!

Ακολουθούν τα ίδια δεδομένα σε μια ελαφρώς διαφορετική παρουσίαση - στο γράφημα, τα αποτελέσματα για την ίδια λέξη-κλειδί στις κενές θέσεις για τη θέση του μηχανικού δεδομένων και του επιστήμονα δεδομένων βρίσκονται δίπλα-δίπλα.

Οι πιο απαιτητικές δεξιότητες στο επάγγελμα του μηχανικού δεδομένων

Οι μεγαλύτερες διαφορές στη συχνότητα των λέξεων-κλειδιών μεταξύ μηχανικού δεδομένων και επιστήμονα δεδομένων

Το επόμενο μεγαλύτερο άλμα που παρατήρησα ήταν στο Spark - ένας μηχανικός δεδομένων πρέπει συχνά να εργάζεται με μεγάλα δεδομένα. Κάφκα επίσης αυξήθηκε κατά 20%, δηλαδή σχεδόν τέσσερις φορές σε σύγκριση με το αποτέλεσμα για τις κενές θέσεις επιστημόνων δεδομένων. Η μεταφορά δεδομένων είναι μία από τις βασικές ευθύνες ενός μηχανικού δεδομένων. Τέλος, ο αριθμός των αναφορών ήταν 15% υψηλότερος στον τομέα της μηχανικής δεδομένων για Java, NoSQL, Redshift, SQL και Hadoop.

Λιγότερο δημοφιλής στη μηχανική δεδομένων

Τώρα ας δούμε ποιες τεχνολογίες είναι λιγότερο δημοφιλείς στις κενές θέσεις μηχανικών δεδομένων.
Η μεγαλύτερη πτώση σε σύγκριση με τον τομέα της επιστήμης δεδομένων σημειώθηκε σε R: εκεί εμφανίστηκε περίπου στο 56% των κενών θέσεων, εδώ - μόνο στο 17%. ΕΝΤΥΠΩΣΙΑΚΟ. Η R είναι μια γλώσσα προγραμματισμού που προτιμάται από επιστήμονες και στατιστικολόγους και είναι η όγδοη πιο τρομακτική γλώσσα στον κόσμο.

SAS βρίσκεται επίσης σε κενές θέσεις για τη θέση του μηχανικού δεδομένων σημαντικά λιγότερο συχνά - η διαφορά είναι 14%. Η SAS είναι μια ιδιόκτητη γλώσσα σχεδιασμένη για εργασία με στατιστικά και δεδομένα. Ενδιαφέρον σημείο: αν κρίνουμε από τα αποτελέσματα την έρευνά μου για θέσεις εργασίας για επιστήμονες δεδομένων, έχει χάσει πολύ έδαφος πρόσφατα — περισσότερο από οποιαδήποτε άλλη τεχνολογία.

Σε ζήτηση τόσο στη μηχανική δεδομένων όσο και στην επιστήμη δεδομένων

Να σημειωθεί ότι οκτώ από τις δέκα πρώτες θέσεις και στα δύο σετ είναι ίδιες. Οι SQL, Python, Spark, AWS, Java, Hadoop, Hive και Scala μπήκαν στην πρώτη δεκάδα τόσο για τον κλάδο της μηχανικής δεδομένων όσο και για τις επιστήμες δεδομένων. Στο παρακάτω γράφημα μπορείτε να δείτε τις δεκαπέντε πιο δημοφιλείς τεχνολογίες μεταξύ των εργοδοτών μηχανικών δεδομένων και δίπλα τους είναι το ποσοστό κενών θέσεων εργασίας για επιστήμονες δεδομένων.

Οι πιο απαιτητικές δεξιότητες στο επάγγελμα του μηχανικού δεδομένων

συστάσεις

Εάν θέλετε να ασχοληθείτε με τη μηχανική δεδομένων, θα σας συμβούλευα να μάθετε τις παρακάτω τεχνολογίες - τις παραθέτω με κατά προσέγγιση σειρά προτεραιότητας.

Μάθετε SQL. Κλίνω προς το PostgreSQL επειδή είναι ανοιχτού κώδικα, πολύ δημοφιλές στην κοινότητα και βρίσκεται σε φάση ανάπτυξης. Μπορείτε να μάθετε πώς να χρησιμοποιείτε τη γλώσσα από το βιβλίο My Memorable SQL - η πιλοτική του έκδοση είναι διαθέσιμη εδώ.

Master Python, ακόμα κι αν όχι στο πιο σκληροπυρηνικό επίπεδο. Το My Memorable Python έχει σχεδιαστεί ειδικά για αρχάριους. Μπορεί να αγοραστεί στο Amazon, ηλεκτρονικό ή φυσικό αντίγραφο της επιλογής σας ή λήψη σε μορφή pdf ή epub σε αυτό το site.

Μόλις εξοικειωθείτε με την Python, προχωρήστε στα pandas, μια βιβλιοθήκη Python που χρησιμοποιείται για τον καθαρισμό και την επεξεργασία δεδομένων. Εάν σκοπεύετε να εργαστείτε σε μια εταιρεία που απαιτεί την ικανότητα γραφής σε Python (και αυτή είναι η πλειοψηφία τους), μπορείτε να είστε βέβαιοι ότι η γνώση των πάντα θα θεωρείται από προεπιλογή. Αυτήν τη στιγμή ολοκληρώνω έναν εισαγωγικό οδηγό για την εργασία με πάντα - μπορείτε εγγραφείτεγια να μη χάσει τη στιγμή της απελευθέρωσης.

Master AWS. Εάν θέλετε να γίνετε μηχανικός δεδομένων, δεν μπορείτε να κάνετε χωρίς μια πλατφόρμα cloud στο stash και το AWS είναι το πιο δημοφιλές από αυτά. Τα μαθήματα με βοήθησαν πολύ Linux Academyόταν σπούδαζα μηχανική δεδομένων στο Google Cloud, νομίζω ότι θα έχουν και καλά υλικά στο AWS.

Εάν έχετε ήδη ολοκληρώσει ολόκληρη αυτήν τη λίστα και θέλετε να αναπτυχθείτε περαιτέρω στα μάτια των εργοδοτών ως μηχανικός δεδομένων, προτείνω να προσθέσετε το Apache Spark για εργασία με μεγάλα δεδομένα. Αν και η έρευνά μου για τις κενές θέσεις επιστημόνων δεδομένων έδειξε μείωση του ενδιαφέροντος, μεταξύ των μηχανικών δεδομένων εξακολουθεί να εμφανίζεται σχεδόν σε κάθε δεύτερη κενή θέση.

Τέλος,

Ελπίζω να σας φάνηκε χρήσιμη αυτή η επισκόπηση των τεχνολογιών με τη μεγαλύτερη ζήτηση για μηχανικούς δεδομένων. Αν αναρωτιέστε πώς πάνε οι θέσεις εργασίας αναλυτών, διαβάστε το άλλο μου άρθρο. Καλή μηχανική!

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο