Pavel Klemenkov, NVIDIA: Προσπαθούμε να μειώσουμε το χάσμα μεταξύ του τι μπορεί να κάνει ένας επιστήμονας δεδομένων και του τι πρέπει να μπορεί να κάνει

Η δεύτερη πρόσληψη φοιτητών του μεταπτυχιακού προγράμματος στην επιστήμη δεδομένων και την επιχειρηματική ευφυΐα Ozon Masters ξεκίνησε - και για να διευκολυνθεί η απόφαση να εγκαταλείψετε μια αίτηση και να λάβετε μέρος στο διαδικτυακό τεστ, ρωτήσαμε τους καθηγητές του προγράμματος για το τι να περιμένουμε από τη μελέτη και την εργασία με στοιχεία.

Pavel Klemenkov, NVIDIA: Προσπαθούμε να μειώσουμε το χάσμα μεταξύ του τι μπορεί να κάνει ένας επιστήμονας δεδομένων και του τι πρέπει να μπορεί να κάνει Chief Data Scientist NVIDIA και δάσκαλος μαθήματα Μηχανικής Μεγάλων Δεδομένων και Δεδομένων Ο Pavel Klemenkov μίλησε για το γιατί οι μαθηματικοί πρέπει να γράφουν κώδικα και να σπουδάζουν στο Ozon Masters για δύο χρόνια.

— Υπάρχουν πολλές εταιρείες που χρησιμοποιούν αλγόριθμους επιστήμης δεδομένων;

- Στην πραγματικότητα, πολύ. Αρκετές μεγάλες εταιρείες που διαθέτουν πραγματικά μεγάλα δεδομένα είτε αρχίζουν να εργάζονται αποτελεσματικά μαζί τους είτε εργάζονται μαζί τους εδώ και πολύ καιρό. Είναι σαφές ότι η μισή αγορά χρησιμοποιεί δεδομένα που μπορούν να χωρέσουν σε ένα υπολογιστικό φύλλο Excel ή μπορούν να υπολογιστούν σε μεγάλο διακομιστή, αλλά δεν μπορεί να ειπωθεί ότι υπάρχουν μόνο λίγες επιχειρήσεις που μπορούν να εργαστούν με δεδομένα.

— Πείτε μας λίγα λόγια για τα έργα όπου χρησιμοποιείται η επιστήμη δεδομένων.

— Για παράδειγμα, ενώ εργαζόμασταν στη Rambler, φτιάχναμε ένα διαφημιστικό σύστημα που λειτουργούσε με βάση τις αρχές του RTB (Προσφορά σε πραγματικό χρόνο) - χρειαζόμασταν να δημιουργήσουμε πολλά μοντέλα που θα βελτιστοποιούσαν την αγορά διαφήμισης ή, για παράδειγμα, θα μπορούσαν να προβλέψουν την πιθανότητα ενός κλικ, μετατροπής και ούτω καθεξής. Ταυτόχρονα, μια δημοπρασία διαφήμισης δημιουργεί πολλά δεδομένα: αρχεία καταγραφής αιτημάτων ιστότοπου σε πιθανούς αγοραστές διαφημίσεων, αρχεία καταγραφής διαφημιστικών εμφανίσεων, αρχεία καταγραφής κλικ - αυτά είναι δεκάδες terabyte δεδομένων ανά ημέρα.

Επιπλέον, για αυτές τις εργασίες παρατηρήσαμε ένα ενδιαφέρον φαινόμενο: όσο περισσότερα δεδομένα δίνετε για να εκπαιδεύσετε το μοντέλο, τόσο υψηλότερη είναι η ποιότητά του. Συνήθως, μετά από έναν ορισμένο όγκο δεδομένων, η ποιότητα της πρόβλεψης σταματά να βελτιώνεται και για να βελτιώσετε περαιτέρω την ακρίβεια, πρέπει να χρησιμοποιήσετε ένα ουσιαστικά διαφορετικό μοντέλο, μια διαφορετική προσέγγιση για την προετοιμασία δεδομένων, χαρακτηριστικών κ.λπ. Εδώ ανεβάσαμε περισσότερα δεδομένα και η ποιότητα αυξήθηκε.

Αυτή είναι μια τυπική περίπτωση όπου οι αναλυτές έπρεπε, πρώτον, να δουλέψουν με μεγάλα σύνολα δεδομένων για να πραγματοποιήσουν τουλάχιστον ένα πείραμα, και όπου ήταν αδύνατο να τα βγάλουν πέρα ​​με ένα μικρό δείγμα που ταιριάζει σε ένα άνετο MacBook. Ταυτόχρονα χρειαζόμασταν κατανεμημένα μοντέλα, γιατί διαφορετικά δεν θα μπορούσαν να εκπαιδευτούν. Με την εισαγωγή της όρασης υπολογιστή στην παραγωγή, τέτοια παραδείγματα γίνονται όλο και πιο κοινά, καθώς οι εικόνες είναι μεγάλος όγκος δεδομένων και για την εκπαίδευση ενός μεγάλου μοντέλου χρειάζονται εκατομμύρια εικόνες.

Αμέσως προκύπτει το ερώτημα: πώς να αποθηκεύσετε όλες αυτές τις πληροφορίες, πώς να τις επεξεργαστείτε αποτελεσματικά, πώς να χρησιμοποιήσετε κατανεμημένους αλγόριθμους μάθησης - η εστίαση μετατοπίζεται από τα καθαρά μαθηματικά στη μηχανική. Ακόμα κι αν δεν γράφετε κώδικα στην παραγωγή, πρέπει να είστε σε θέση να εργαστείτε με εργαλεία μηχανικής για να πραγματοποιήσετε ένα πείραμα.

— Πώς έχει αλλάξει η προσέγγιση στις κενές θέσεις επιστήμης δεδομένων τα τελευταία χρόνια;

— Τα μεγάλα δεδομένα έπαψαν να είναι διαφημιστική εκστρατεία και έγιναν πραγματικότητα. Οι σκληροί δίσκοι είναι αρκετά φθηνοί, πράγμα που σημαίνει ότι είναι δυνατή η συλλογή όλων των δεδομένων έτσι ώστε στο μέλλον να υπάρχουν αρκετά για να ελεγχθούν τυχόν υποθέσεις. Ως αποτέλεσμα, η γνώση των εργαλείων για την εργασία με μεγάλα δεδομένα γίνεται πολύ δημοφιλής και, ως εκ τούτου, εμφανίζονται όλο και περισσότερες κενές θέσεις για μηχανικούς δεδομένων.

Κατά την κατανόηση μου, το αποτέλεσμα της εργασίας ενός επιστήμονα δεδομένων δεν είναι ένα πείραμα, αλλά ένα προϊόν που έχει φτάσει στην παραγωγή. Και ακριβώς από αυτή την άποψη, πριν από την εμφάνιση της δημοσιότητας γύρω από τα μεγάλα δεδομένα, η διαδικασία ήταν απλούστερη: οι μηχανικοί ασχολούνταν με τη μηχανική εκμάθηση για την επίλυση συγκεκριμένων προβλημάτων και δεν υπήρχαν προβλήματα με την παραγωγή των αλγορίθμων.

— Τι χρειάζεται για να παραμείνεις περιζήτητος ειδικός;

— Τώρα πολλοί άνθρωποι έχουν φτάσει στην επιστήμη δεδομένων που έχουν σπουδάσει μαθηματικά, τη θεωρία της μηχανικής μάθησης και συμμετείχαν σε διαγωνισμούς ανάλυσης δεδομένων, όπου παρέχεται μια έτοιμη υποδομή: τα δεδομένα καθαρίζονται, οι μετρήσεις ορίζονται και δεν υπάρχουν απαιτήσεις ώστε η λύση να είναι αναπαραγώγιμη και γρήγορη.

Ως αποτέλεσμα, οι τύποι έρχονται στη δουλειά κακώς προετοιμασμένοι για τις πραγματικότητες των επιχειρήσεων και δημιουργείται ένα χάσμα μεταξύ αρχάριων και έμπειρων προγραμματιστών.

Με την ανάπτυξη εργαλείων που σας επιτρέπουν να συναρμολογήσετε το δικό σας μοντέλο από έτοιμες ενότητες - και η Microsoft, η Google και πολλοί άλλοι έχουν ήδη τέτοιες λύσεις - και την αυτοματοποίηση της μηχανικής εκμάθησης, αυτό το κενό θα γίνει ακόμη πιο έντονο. Στο μέλλον, το επάγγελμα θα είναι περιζήτητο για σοβαρούς ερευνητές που θα επινοήσουν νέους αλγόριθμους και υπαλλήλους με ανεπτυγμένες μηχανικές δεξιότητες που θα εφαρμόζουν μοντέλα και θα αυτοματοποιούν τις διαδικασίες. Το μάθημα Ozon Masters στη μηχανική δεδομένων έχει σχεδιαστεί για να αναπτύξει δεξιότητες μηχανικής και την ικανότητα χρήσης κατανεμημένων αλγορίθμων μηχανικής μάθησης σε μεγάλα δεδομένα. Προσπαθούμε να μειώσουμε το χάσμα μεταξύ του τι μπορεί να κάνει ένας επιστήμονας δεδομένων και του τι πρέπει να μπορεί να κάνει στην πράξη.

— Γιατί ένας μαθηματικός με δίπλωμα να πάει να σπουδάσει επιχειρήσεις;

— Η ρωσική κοινότητα της επιστήμης δεδομένων έχει καταλάβει ότι η ικανότητα και η εμπειρία μετατρέπονται πολύ γρήγορα σε χρήματα, επομένως, μόλις ένας ειδικός έχει πρακτική εμπειρία, το κόστος του αρχίζει να αυξάνεται πολύ γρήγορα, οι πιο εξειδικευμένοι άνθρωποι είναι πολύ ακριβοί - και αυτό ισχύει την τρέχουσα στιγμή της ανάπτυξης της αγοράς.

Ένα μεγάλο μέρος της δουλειάς ενός επιστήμονα δεδομένων είναι να μπαίνει στα δεδομένα, να κατανοεί τι κρύβεται εκεί, να διαβουλεύεται με τους ανθρώπους που είναι υπεύθυνοι για τις επιχειρηματικές διαδικασίες και να δημιουργεί αυτά τα δεδομένα - και μόνο τότε να τα χρησιμοποιεί για τη δημιουργία μοντέλων. Για να ξεκινήσετε να εργάζεστε με μεγάλα δεδομένα, είναι εξαιρετικά σημαντικό να έχετε δεξιότητες μηχανικής - αυτό διευκολύνει πολύ την αποφυγή αιχμηρών γωνιών, από τις οποίες υπάρχουν πολλές στην επιστήμη δεδομένων.

Μια τυπική ιστορία: γράψατε ένα ερώτημα σε SQL που εκτελείται χρησιμοποιώντας το πλαίσιο Hive που εκτελείται σε μεγάλα δεδομένα. Η επεξεργασία του αιτήματος γίνεται σε δέκα λεπτά, στη χειρότερη περίπτωση - σε μία ή δύο ώρες, και συχνά, όταν λαμβάνετε λήψεις αυτών των δεδομένων, συνειδητοποιείτε ότι ξεχάσατε να λάβετε υπόψη κάποιον παράγοντα ή πρόσθετες πληροφορίες. Πρέπει να στείλετε ξανά το αίτημα και να περιμένετε αυτά τα λεπτά και τις ώρες. Εάν είστε ιδιοφυΐα αποτελεσματικότητας, θα αναλάβετε άλλο έργο, αλλά, όπως δείχνει η πρακτική, έχουμε λίγες ιδιοφυΐες αποτελεσματικότητας και οι άνθρωποι απλώς περιμένουν. Ως εκ τούτου, στα μαθήματα θα αφιερώσουμε πολύ χρόνο στην αποτελεσματικότητα της εργασίας για να γράψουμε αρχικά ερωτήματα που δεν λειτουργούν για δύο ώρες, αλλά για αρκετά λεπτά. Αυτή η ικανότητα πολλαπλασιάζει την παραγωγικότητα και μαζί της την αξία ενός ειδικού.

– Σε τι διαφέρει το Ozon Masters από άλλα μαθήματα;

— Το Ozon Masters διδάσκεται από υπαλλήλους της Ozon και οι εργασίες βασίζονται σε πραγματικές επιχειρηματικές υποθέσεις που επιλύονται σε εταιρείες. Στην πραγματικότητα, εκτός από την έλλειψη δεξιοτήτων μηχανικής, ένα άτομο που σπούδασε επιστήμη δεδομένων στο πανεπιστήμιο έχει ένα άλλο πρόβλημα: το καθήκον μιας επιχείρησης διατυπώνεται στη γλώσσα των επιχειρήσεων και ο στόχος της είναι πολύ απλός: να κερδίσει περισσότερα χρήματα. Και ένας μαθηματικός ξέρει καλά πώς να βελτιστοποιεί τις μαθηματικές μετρήσεις - αλλά η εύρεση ενός δείκτη που θα συσχετίζεται με μια επιχειρηματική μέτρηση είναι δύσκολη. Και πρέπει να καταλάβετε ότι λύνετε ένα επιχειρηματικό πρόβλημα και μαζί με την επιχείρηση, να διαμορφώσετε μετρήσεις που μπορούν να βελτιστοποιηθούν μαθηματικά. Αυτή η ικανότητα αποκτάται μέσα από πραγματικές περιπτώσεις, και δίνονται από τον Ozon.
Και ακόμα κι αν αγνοήσουμε τις περιπτώσεις, το σχολείο διδάσκεται από πολλούς επαγγελματίες που λύνουν επιχειρηματικά προβλήματα σε πραγματικές εταιρείες. Ως αποτέλεσμα, η ίδια η προσέγγιση της διδασκαλίας είναι ακόμα πιο προσανατολισμένη στην πρακτική. Τουλάχιστον στην πορεία μου, θα προσπαθήσω να εστιάσω στο πώς να χρησιμοποιήσω τα εργαλεία, ποιες προσεγγίσεις υπάρχουν και ούτω καθεξής. Μαζί με τους μαθητές, θα καταλάβουμε ότι κάθε εργασία έχει το δικό της εργαλείο και κάθε εργαλείο έχει την περιοχή εφαρμογής του.

— Το πιο διάσημο εκπαιδευτικό πρόγραμμα ανάλυσης δεδομένων, φυσικά, είναι το ShAD — ποια ακριβώς είναι η διαφορά από αυτό;

— Είναι σαφές ότι οι ShAD και Ozon Masters, εκτός από την εκπαιδευτική λειτουργία, λύνουν το τοπικό πρόβλημα της εκπαίδευσης του προσωπικού. Οι κορυφαίοι απόφοιτοι SHAD προσλαμβάνονται κυρίως στο Yandex, αλλά το αλιευτικό είναι ότι το Yandex, λόγω των ιδιαιτεροτήτων του - και είναι μεγάλο και δημιουργήθηκε όταν υπήρχαν λίγα καλά εργαλεία για εργασία με μεγάλα δεδομένα - έχει τη δική του υποδομή και εργαλεία για εργασία με δεδομένα , που σημαίνει , θα πρέπει να τα κυριαρχήσετε. Το Ozon Masters έχει ένα διαφορετικό μήνυμα - εάν έχετε κατακτήσει επιτυχώς το πρόγραμμα και η Ozon ή μία από το 99% των άλλων εταιρειών σας προσκαλεί να εργαστείτε, θα είναι πολύ πιο εύκολο να αρχίσετε να επωφελείτε την επιχείρηση· το σύνολο δεξιοτήτων που αποκτήσατε ως μέρος του Ozon Masters θα είναι αρκετό για να αρχίσετε να εργάζεστε.

— Το μάθημα διαρκεί δύο χρόνια. Γιατί χρειάζεται να αφιερώσετε τόσο πολύ χρόνο σε αυτό;

- Καλή ερώτηση. Χρειάζεται πολύς χρόνος, γιατί από άποψη περιεχομένου και επιπέδου καθηγητών, αυτό είναι ένα ολοκληρωμένο μεταπτυχιακό πρόγραμμα που απαιτεί πολύ χρόνο για να κατακτήσετε, συμπεριλαμβανομένων των εργασιών για το σπίτι.

Από τη σκοπιά του μαθήματος μου, είναι σύνηθες να περιμένω από έναν μαθητή να αφιερώνει 2-3 ώρες την εβδομάδα σε εργασίες. Πρώτον, οι εργασίες εκτελούνται σε ένα σύμπλεγμα εκπαίδευσης και οποιοδήποτε κοινό σύμπλεγμα υποδηλώνει ότι πολλά άτομα το χρησιμοποιούν ταυτόχρονα. Δηλαδή, θα πρέπει να περιμένετε να ξεκινήσει η εκτέλεση της εργασίας· ορισμένοι πόροι ενδέχεται να επιλεγούν και να μεταφερθούν σε ουρά υψηλότερης προτεραιότητας. Από την άλλη πλευρά, οποιαδήποτε εργασία με μεγάλα δεδομένα απαιτεί πολύ χρόνο.

Εάν έχετε περισσότερες ερωτήσεις σχετικά με το πρόγραμμα, την εργασία με μεγάλα δεδομένα ή τις δεξιότητες μηχανικής, το Ozon Masters έχει μια διαδικτυακή ανοιχτή ημέρα το Σάββατο 25 Απριλίου στις 12:00. Συναντιόμαστε με δασκάλους και μαθητές στο Zoom και YouTube.

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο