Ντμίτρι Καζάκοφ, Επικεφαλής της Ομάδας Data Analytics στον Όμιλο Kolesa, μοιράζεται πληροφορίες από την πρώτη έρευνα στο Καζακστάν με επαγγελματίες δεδομένων.
Στη φωτογραφία: Ντμίτρι Καζάκοφ
Θυμηθείτε τη δημοφιλή φράση ότι τα Big Data μοιάζουν περισσότερο με το εφηβικό σεξ - όλοι μιλούν για αυτό, αλλά κανείς δεν ξέρει αν υπάρχει στην πραγματικότητα. Το ίδιο θα μπορούσε να ειπωθεί για την αγορά για ειδικούς δεδομένων (στο Καζακστάν) - υπάρχει διαφημιστική εκστρατεία, αλλά ποιος βρίσκεται πίσω από αυτό (και αν υπάρχει κάποιος εκεί) δεν ήταν απολύτως σαφές - ούτε για το HR, ούτε για τους διευθυντές, ούτε για οι ίδιοι οι επιστήμονες δεδομένων.
Ξοδευουμε
Φθείρων: Ναι, σίγουρα υπάρχουν, αλλά δεν είναι όλα τόσο απλά.
Ωραία ενόραση. Πρώτον, υπάρχουν περισσότεροι επιστήμονες δεδομένων από ό,τι περιμέναμε. Καταφέραμε να πάρουμε συνεντεύξεις από 300 άτομα, μεταξύ των οποίων δεν ήταν μόνο αναλυτές προϊόντων, μάρκετινγκ και BI, αλλά και μηχανικοί ML και DWH, κάτι που ήταν ιδιαίτερα ευχάριστο. Η μεγαλύτερη ομάδα περιελάμβανε όλους εκείνους που αυτοαποκαλούνται επιστήμονες δεδομένων – αυτό είναι το 36% των ερωτηθέντων. Είναι δύσκολο να πούμε αν αυτό καλύπτει τη ζήτηση της αγοράς ή όχι, γιατί η ίδια η αγορά μόλις διαμορφώνεται.
Η κατανομή των επιπέδων θέσεων εργασίας προκαλεί σύγχυση - υπάρχουν σχεδόν τόσοι επικεφαλής ομάδων και διευθυντές όσο και οι juniors. Μπορεί να υπάρχουν διάφοροι λόγοι για αυτό. Για παράδειγμα, ένας μεγάλος αριθμός μικρών ομάδων 2-3 ατόμων, στις οποίες ο αρχηγός μπορεί να είναι ειδικός μεσαίου ή ανώτερου επιπέδου.
Ένας άλλος λόγος μπορεί να είναι το χάος που επικρατεί αυτή τη στιγμή στην αγορά σχετικά με τα πρότυπα στην κατανομή των ρόλων και τη λειτουργικότητα. Μερικές φορές οι επικεφαλής ομάδων ανατίθενται σε εκείνους που απλώς εργάζονται ένα ή δύο χρόνια περισσότερο από άλλους, χωρίς αναφορά στο επίπεδο δεξιοτήτων και γνώσεων. Αυτό το βλέπουμε στην κατανομή των λειτουργιών ανά θέση - το 38% των διευθυντών και των ηγετών ομάδων ασχολείται με την προεπεξεργασία και ένα άλλο 33% στη βασική στατιστική ανάλυση.
Εδώ ζητήσαμε από τους ερωτηθέντες να αξιολογήσουν υποκειμενικά το επίπεδο των αναλυτικών στοιχείων στις εταιρείες τους. Αν κοιτάξετε προσεκτικά, μπορείτε να δείτε ότι το 10% των ερωτηθέντων που εργάζονται σε τμήματα ανάλυσης 2-3 ατόμων πιστεύουν ότι έχουν «προχωρημένο επίπεδο».
Τι είναι το "προχωρημένο επίπεδο"; Το σύστημα BI λειτουργεί εξαιρετικά. Υπάρχει DWH και Big Data. Οι δοκιμές A/B πραγματοποιούνται τακτικά. Υπάρχουν λειτουργικά συστήματα ML και DS στην παραγωγή. Οι αποφάσεις λαμβάνονται μόνο βάσει δεδομένων. Το τμήμα επεξεργασίας δεδομένων και επιστήμης δεδομένων είναι ένα από τα βασικά στην εταιρεία.
Είναι σχεδόν αδύνατο να πετύχεις όλα τα παραπάνω με ένα τμήμα 2-3 ατόμων. Νομίζω ότι αυτό το αποτέλεσμα της έρευνας είναι ένας ελαφρώς αυξανόμενος πόνος - τα παιδιά δεν έχουν ακόμη κανέναν να συγκρίνουν τον εαυτό τους για να προσδιορίσουν το επίπεδό τους πιο αντικειμενικά.
Όπως ήταν αναμενόμενο, οι επιστήμονες δεδομένων ξοδεύουν τον περισσότερο χρόνο τους όχι σε εξαιρετικά πολύπλοκα μαθηματικά ή μηχανική, αλλά σε προεπεξεργασία, λήψη και καθαρισμό δεδομένων. Σε κάθε εξειδίκευση βλέπουμε την προεπεξεργασία στο top 3. Αλλά σπάνια βλέπουμε πολύπλοκα πράγματα όπως η ανάπτυξη μοντέλων ML ή η εργασία με Big Data στα κορυφαία 3 - μόνο μεταξύ των μηχανικών ML και DWH.
Υπάρχουν επίσης μερικές θλιβερές ιδέες. Οι ειδικοί ορίζουν μόνοι τους το 40% των καθηκόντων τους. Στο Καζακστάν, μέχρι στιγμής μόνο οι κορυφαίες εταιρείες μονόκερων έχουν δοκιμάσει τα οφέλη της εργασίας με μεγάλα δεδομένα και έχουν μάθει πώς να το κάνουν σωστά. Μεταδίδουν στην αγορά ότι τα Μεγάλα Δεδομένα και η Μηχανική Μάθηση είναι κουλ, και το δεύτερο κλιμάκιο ακολουθεί, αλλά δεν καταλαβαίνει πάντα πώς λειτουργεί η εργασία με δεδομένα. Επομένως, βλέπουμε ότι οι ειδικοί θέτουν καθήκοντα για τον εαυτό τους και οι επιχειρήσεις δεν ξέρουν πάντα τι θέλουν.
Με εξέπληξε το γεγονός ότι το 20% των ειδικών δεν γνωρίζουν καν αν η εταιρεία τους έχει αποθήκη δεδομένων. Ναι, και με τα συστήματα διαχείρισης βάσεων δεδομένων δεν είναι όλα τόσο καλά - το 41% χρησιμοποιεί MySQL και ένα άλλο 34% χρησιμοποιεί PostgreSQL. Τι θα μπορούσε να σημαίνει αυτό; Λειτουργούν μάλλον με μικρά δεδομένα.
Στην ερώτηση για τα συστήματα αποθήκευσης, ξαναβλέπουμε MySQL ακόμα και (!) Excel. Αλλά αυτό μπορεί να υποδηλώνει, για παράδειγμα, ότι οι περισσότερες εταιρείες απλώς δεν έχουν ακόμη αίτημα να εργαστούν με μεγάλα δεδομένα.
Εδώ όλα είναι και πάλι ασαφή. Γενικά, οι μισθοί ήταν ελαφρώς χαμηλότεροι από ό,τι περίμενα.
Προσωπικά, είναι δύσκολο για μένα να φανταστώ έναν μηχανικό ML που είναι έτοιμος να εργαστεί για 200 χιλιάδες tenge - πιθανότατα είναι ασκούμενος. Είτε οι ικανότητες τέτοιων ειδικών είναι πολύ αδύναμες, είτε είναι ακόμα δύσκολο για τις εταιρείες να αξιολογήσουν επαρκώς το έργο της Επιστήμης Δεδομένων. Ίσως όμως αυτό δείχνει επίσης ότι η αγορά βρίσκεται ακόμη στην αρχή της ωρίμανσής της. Και με την πάροδο του χρόνου, το ύψος των μισθών θα καθοριστεί σε πιο επαρκές επίπεδο.
Πηγή: www.habr.com