Σύμφωνα με
Ανέλυσα τις κενές θέσεις για τη θέση του μηχανικού δεδομένων όπως είναι τον Ιανουάριο του 2020 για να καταλάβω ποιες τεχνολογικές δεξιότητες είναι πιο δημοφιλείς. Στη συνέχεια συνέκρινα τα αποτελέσματα με στατιστικά στοιχεία σχετικά με τις κενές θέσεις για τη θέση του επιστήμονα δεδομένων - και προέκυψαν μερικές ενδιαφέρουσες διαφορές.
Χωρίς πολύ προοίμιο, εδώ είναι οι δέκα κορυφαίες τεχνολογίες που αναφέρονται πιο συχνά στις αγγελίες εργασίας:
Αναφορά τεχνολογιών σε κενές θέσεις για τη θέση του μηχανικού δεδομένων το 2020
Αρμοδιότητες μηχανικού δεδομένων
Σήμερα, η δουλειά που κάνουν οι μηχανικοί δεδομένων είναι μεγάλης σημασίας για τους οργανισμούς - αυτοί είναι οι άνθρωποι που είναι υπεύθυνοι για την αποθήκευση πληροφοριών και τη μεταφορά τους σε τέτοια μορφή ώστε άλλοι υπάλληλοι να μπορούν να συνεργαστούν μαζί τους. Οι μηχανικοί δεδομένων κατασκευάζουν αγωγούς για ροή ή ομαδοποίηση δεδομένων από πολλαπλές πηγές. Στη συνέχεια, οι αγωγοί εκτελούν λειτουργίες εξαγωγής, μετασχηματισμού και φόρτωσης (με άλλα λόγια, διαδικασίες ETL), καθιστώντας τα δεδομένα πιο κατάλληλα για περαιτέρω χρήση. Μετά από αυτό, τα δεδομένα υποβάλλονται σε αναλυτές και επιστήμονες δεδομένων για βαθύτερη επεξεργασία. Τέλος, τα δεδομένα τελειώνουν το ταξίδι τους σε πίνακες εργαλείων, αναφορές και μοντέλα μηχανικής εκμάθησης.
Έψαχνα για πληροφορίες που θα μου επέτρεπαν να βγάλω ένα συμπέρασμα σχετικά με το ποιες τεχνολογίες έχουν τη μεγαλύτερη ζήτηση στο έργο ενός μηχανικού δεδομένων αυτή τη στιγμή.
Μέθοδοι
Συνέλεξα πληροφορίες από τρεις ιστότοπους αναζήτησης εργασίας −
Για κάθε λέξη-κλειδί, υπολόγισα το ποσοστό των επισκέψεων από τον συνολικό αριθμό κειμένων σε κάθε ιστότοπο ξεχωριστά και, στη συνέχεια, υπολόγισα τον μέσο όρο για τις τρεις πηγές.
Ευρήματα
Παρακάτω είναι οι τριάντα όροι μηχανικής τεχνικών δεδομένων με τις υψηλότερες βαθμολογίες και στις τρεις θέσεις εργασίας.
Και εδώ είναι οι ίδιοι αριθμοί, αλλά παρουσιάζονται σε μορφή πίνακα:
Πάμε με τη σειρά.
Ανασκόπηση αποτελεσμάτων
Τόσο η SQL όσο και η Python εμφανίζονται σε περισσότερα από τα δύο τρίτα των θέσεων εργασίας που εξετάστηκαν. Αυτές οι δύο τεχνολογίες είναι που έχουν νόημα να μελετήσουμε πρώτα.
Το Spark αναφέρεται στις μισές περίπου κενές θέσεις.
Το AWS εμφανίζεται στο 45% περίπου των αγγελιών. Είναι μια πλατφόρμα υπολογιστικού νέφους που κατασκευάζεται από την Amazon. έχει το μεγαλύτερο μερίδιο αγοράς μεταξύ όλων των πλατφορμών cloud.
Ακολουθούν η Java και το Hadoop - λίγο περισσότερο από το 40% για τον αδερφό τους.
Είναι σαν να οδηγείς σε μια χρονομηχανή
Στη συνέχεια βλέπουμε Hive, Scala, Kafka και NoSQL - καθεμία από αυτές τις τεχνολογίες αναφέρεται στο ένα τέταρτο των κενών θέσεων που υποβλήθηκαν. Το Apache Hive είναι ένα λογισμικό αποθήκης δεδομένων που «καθιστά εύκολη την ανάγνωση, εγγραφή και διαχείριση μεγάλων συνόλων δεδομένων που βρίσκονται σε κατανεμημένα καταστήματα χρησιμοποιώντας SQL».
Σύγκριση με όρους στις κενές θέσεις επιστημόνων δεδομένων
Εδώ είναι τριάντα όροι τεχνολογίας που είναι πιο συνηθισμένοι μεταξύ των εργοδοτών της επιστήμης δεδομένων. Έλαβα αυτήν τη λίστα με τον ίδιο τρόπο που περιγράφηκε παραπάνω για τη μηχανική δεδομένων.
Αναφορές τεχνολογίας σε κενές θέσεις για τη θέση του επιστήμονα δεδομένων το 2020
Αν μιλάμε για τον συνολικό αριθμό, σε σύγκριση με τις προηγούμενες προσλήψεις, υπήρχαν 28% περισσότερες κενές θέσεις (12 έναντι 013). Ας δούμε ποιες τεχνολογίες είναι λιγότερο συνηθισμένες στις κενές θέσεις για επιστήμονες δεδομένων παρά για μηχανικούς δεδομένων.
Πιο δημοφιλές στη μηχανική δεδομένων
Το παρακάτω γράφημα δείχνει λέξεις-κλειδιά με μέση διαφορά μεγαλύτερη από 10% ή μικρότερη από -10%.
Οι μεγαλύτερες διαφορές στη συχνότητα των λέξεων-κλειδιών μεταξύ μηχανικού δεδομένων και επιστήμονα δεδομένων
Το AWS παρουσιάζει την πιο σημαντική αύξηση: στη μηχανική δεδομένων εμφανίζεται 25% πιο τακτικά από ό,τι στην επιστήμη δεδομένων (περίπου 45% και 20% του συνολικού αριθμού κενών θέσεων, αντίστοιχα). Η διαφορά είναι αισθητή!
Ακολουθούν τα ίδια δεδομένα σε μια ελαφρώς διαφορετική παρουσίαση - στο γράφημα, τα αποτελέσματα για την ίδια λέξη-κλειδί στις κενές θέσεις για τη θέση του μηχανικού δεδομένων και του επιστήμονα δεδομένων βρίσκονται δίπλα-δίπλα.
Οι μεγαλύτερες διαφορές στη συχνότητα των λέξεων-κλειδιών μεταξύ μηχανικού δεδομένων και επιστήμονα δεδομένων
Το επόμενο μεγαλύτερο άλμα που παρατήρησα ήταν στο Spark - ένας μηχανικός δεδομένων πρέπει συχνά να εργάζεται με μεγάλα δεδομένα.
Λιγότερο δημοφιλής στη μηχανική δεδομένων
Τώρα ας δούμε ποιες τεχνολογίες είναι λιγότερο δημοφιλείς στις κενές θέσεις μηχανικών δεδομένων.
Η μεγαλύτερη πτώση σε σύγκριση με τον τομέα της επιστήμης δεδομένων σημειώθηκε σε
Σε ζήτηση τόσο στη μηχανική δεδομένων όσο και στην επιστήμη δεδομένων
Να σημειωθεί ότι οκτώ από τις δέκα πρώτες θέσεις και στα δύο σετ είναι ίδιες. Οι SQL, Python, Spark, AWS, Java, Hadoop, Hive και Scala μπήκαν στην πρώτη δεκάδα τόσο για τον κλάδο της μηχανικής δεδομένων όσο και για τις επιστήμες δεδομένων. Στο παρακάτω γράφημα μπορείτε να δείτε τις δεκαπέντε πιο δημοφιλείς τεχνολογίες μεταξύ των εργοδοτών μηχανικών δεδομένων και δίπλα τους είναι το ποσοστό κενών θέσεων εργασίας για επιστήμονες δεδομένων.
συστάσεις
Εάν θέλετε να ασχοληθείτε με τη μηχανική δεδομένων, θα σας συμβούλευα να μάθετε τις παρακάτω τεχνολογίες - τις παραθέτω με κατά προσέγγιση σειρά προτεραιότητας.
Μάθετε SQL. Κλίνω προς το PostgreSQL επειδή είναι ανοιχτού κώδικα, πολύ δημοφιλές στην κοινότητα και βρίσκεται σε φάση ανάπτυξης. Μπορείτε να μάθετε πώς να χρησιμοποιείτε τη γλώσσα από το βιβλίο My Memorable SQL - η πιλοτική του έκδοση είναι διαθέσιμη
Master Python, ακόμα κι αν όχι στο πιο σκληροπυρηνικό επίπεδο. Το My Memorable Python έχει σχεδιαστεί ειδικά για αρχάριους. Μπορεί να αγοραστεί στο
Μόλις εξοικειωθείτε με την Python, προχωρήστε στα pandas, μια βιβλιοθήκη Python που χρησιμοποιείται για τον καθαρισμό και την επεξεργασία δεδομένων. Εάν σκοπεύετε να εργαστείτε σε μια εταιρεία που απαιτεί την ικανότητα γραφής σε Python (και αυτή είναι η πλειοψηφία τους), μπορείτε να είστε βέβαιοι ότι η γνώση των πάντα θα θεωρείται από προεπιλογή. Αυτήν τη στιγμή ολοκληρώνω έναν εισαγωγικό οδηγό για την εργασία με πάντα - μπορείτε
Master AWS. Εάν θέλετε να γίνετε μηχανικός δεδομένων, δεν μπορείτε να κάνετε χωρίς μια πλατφόρμα cloud στο stash και το AWS είναι το πιο δημοφιλές από αυτά. Τα μαθήματα με βοήθησαν πολύ
Εάν έχετε ήδη ολοκληρώσει ολόκληρη αυτήν τη λίστα και θέλετε να αναπτυχθείτε περαιτέρω στα μάτια των εργοδοτών ως μηχανικός δεδομένων, προτείνω να προσθέσετε το Apache Spark για εργασία με μεγάλα δεδομένα. Αν και η έρευνά μου για τις κενές θέσεις επιστημόνων δεδομένων έδειξε μείωση του ενδιαφέροντος, μεταξύ των μηχανικών δεδομένων εξακολουθεί να εμφανίζεται σχεδόν σε κάθε δεύτερη κενή θέση.
Τέλος,
Ελπίζω να σας φάνηκε χρήσιμη αυτή η επισκόπηση των τεχνολογιών με τη μεγαλύτερη ζήτηση για μηχανικούς δεδομένων. Αν αναρωτιέστε πώς πάνε οι θέσεις εργασίας αναλυτών, διαβάστε
Πηγή: www.habr.com