Σημειώσεις Date Scientist: από πού να ξεκινήσω και είναι απαραίτητο;

Σημειώσεις Date Scientist: από πού να ξεκινήσω και είναι απαραίτητο;

Το TL;DR είναι μια ανάρτηση για ερωτήσεις/απαντήσεις σχετικά με την Επιστήμη των Δεδομένων και τον τρόπο εισαγωγής στο επάγγελμα και εξέλιξης σε αυτό. Στο άρθρο θα αναλύσω τις βασικές αρχές και τις συχνές ερωτήσεις και είμαι έτοιμος να απαντήσω στις συγκεκριμένες ερωτήσεις σας - γράψτε στα σχόλια (ή σε ιδιωτικό μήνυμα), θα προσπαθήσω να απαντήσω σε όλα μέσα σε λίγες μέρες.

Με την εμφάνιση της σειράς σημειώσεων «Satanist Date», πολλά μηνύματα και σχόλια ήρθαν με ερωτήσεις σχετικά με το πώς να ξεκινήσετε και πού να σκάψετε, και σήμερα θα αναλύσουμε τις κύριες δεξιότητες και ερωτήσεις που προέκυψαν μετά τις δημοσιεύσεις.

Όλα όσα αναφέρονται εδώ δεν ισχυρίζονται ότι είναι η απόλυτη αλήθεια και είναι η υποκειμενική άποψη του συγγραφέα. Θα εξετάσουμε τα κύρια πράγματα που φαίνονται πιο σημαντικά στη διαδικασία.

Γιατί ακριβώς χρειάζεται αυτό;

Προκειμένου ο στόχος να είναι καλύτερα εφικτός, ώστε να φαίνεται τουλάχιστον κάπως συγκεκριμένος - θέλετε να γίνετε DS ή ερευνητής στο Facebook/Apple/Amazon/Netflix/Google - δείτε τις απαιτήσεις, τις γλώσσες και τις απαραίτητες δεξιότητες συγκεκριμένα για ποια θέση. Ποια είναι η διαδικασία πρόσληψης; Πώς περνάει μια τυπική μέρα σε έναν τέτοιο ρόλο; Πώς μοιάζει το μέσο προφίλ ενός ατόμου που εργάζεται εκεί;

Συχνά η συνολική εικόνα είναι ότι ένα άτομο δεν καταλαβαίνει πραγματικά τι ακριβώς θέλει και δεν είναι απολύτως σαφές πώς να προετοιμαστεί για αυτήν την ασαφή εικόνα - επομένως αξίζει να έχετε τουλάχιστον ένα πρόχειρο σχέδιο για το τι ακριβώς θέλετε.

Πραγματοποιήστε την τρέχουσα προβολή στόχου

Ακόμα κι αν αλλάζει στην πορεία, και είναι γενικά φυσιολογικό να αλλάζετε σχέδια κατά τη διάρκεια του παιχνιδιού, αξίζει να έχετε έναν στόχο και να εστιάσετε σε αυτόν, να αξιολογείτε και να ξανασκεφτείτε περιοδικά.

Θα είναι ή είναι ακόμα επίκαιρο;

Μέχρι να μεγαλώσεις σε μια θέση.

Φανταστείτε ότι πριν από τη θέση σας πρέπει να πάρετε διδακτορικό, να εργαστείτε για 2-3 χρόνια στη βιομηχανία και γενικά να κόψετε τα μαλλιά σας ενώ διαλογίζεστε σε ένα μοναστήρι - δεν θα είναι η κατάσταση με την Επιστήμη των Δεδομένων όπως ήταν κάποτε με τους οικονομολόγους και τους οικονομολόγους και δικηγόροι; Θα αλλάξουν τα πάντα πέρα ​​από την αναγνώριση στον τομέα που θέλετε να ακολουθήσετε;

Δεν υπάρχει καλή πιθανότητα όλοι να βιαστούν εκεί τώρα και να δούμε μια εικόνα όπου υπάρχει ένα ευρύ στρώμα ανθρώπων που προσπαθούν να εισέλθουν στο επάγγελμα - και θα υπάρχει απλώς μια πενιχρή αρχική θέση.

Ίσως αξίζει να λάβετε υπόψη τις τρέχουσες τάσεις όταν επιλέγετε μια διαδρομή, όχι μόνο την τρέχουσα κατάσταση της αγοράς εργασίας, αλλά και την ιδέα σας για το πώς αλλάζει και πού βρίσκεται.

Για παράδειγμα, ο συγγραφέας δεν σχεδίαζε να γίνει σατανιστής, αλλά κατά τη διάρκεια του διδακτορικού του εργάστηκε σε έργα τρίτων που είχαν ισχυρές κοινές δεξιότητες με το DS, και στο τέλος του μεταπτυχιακού σχολείου φυσικά μεταπήδησε στο περιβάλλον, βλέποντας ένα καλό θέση.

Εάν κατά τη διάρκεια του παιχνιδιού αποδειχθεί ότι θα χρειαστεί να μετακινηθείτε κάπου αλλού - επειδή τώρα υπάρχει η μεγαλύτερη κίνηση και συμβαίνει όλη η πιο ενδιαφέρουσα δράση, τότε θα μετακομίσουμε εκεί φυσικά.

Ανάλυση δεξιοτήτων

Αυτές είναι κατηγορίες δεξιοτήτων υπό όρους που μου φαίνονται βασικές για την πλήρη και αποτελεσματική εργασία στο DS. Θα τονίσω τα Αγγλικά ξεχωριστά - μάθετε ό,τι κάνετε στο CS. Ακολουθούν οι βασικές κατηγορίες.

Προγραμματισμός/Scripting

Με ποιες γλώσσες σίγουρα θα εξοικειωθείτε; Πύθων? Ιάβα? Σενάριο Shell; Λούα; Sql; C++;

Τι ακριβώς πρέπει να μπορείτε να κάνετε και γιατί όσον αφορά τον προγραμματισμό - το εύρος των θέσεων εδώ ποικίλλει πολύ.

Για παράδειγμα, συχνά πρέπει να εφαρμόσω πολύπλοκη λογική, ερωτήματα, μοντέλα, αναλυτικά στοιχεία και γενικά να αναπτύξω ερμηνευμένα συστήματα, αλλά δεν υπάρχουν σχεδόν ποτέ απαιτήσεις για την ταχύτητα του κώδικα, εκτός από τις πιο γενικές και λογικές.

Επομένως, το σύνολο δεξιοτήτων μου είναι πολύ διαφορετικό από εκείνους που γράφουν τη βιβλιοθήκη Tensorflow και σκέφτονται να βελτιστοποιήσουν τον κώδικα για αποτελεσματική χρήση της κρυφής μνήμης l1 και παρόμοια πράγματα, οπότε κοιτάξτε τι ακριβώς χρειάζεστε και αξιολογήστε τη σωστή διαδρομή προς τη μάθηση.

Για παράδειγμα, για τον πύθωνα, οι άνθρωποι ήδη συνθέτουν χάρτης εκμάθηση γλώσσας.

Σίγουρα, υπάρχουν ήδη έμπειρες συμβουλές και καλές πηγές για τις ανάγκες σας - πρέπει να αποφασίσετε για μια λίστα και να αρχίσετε να την επεξεργάζεστε.

Κατανόηση των επιχειρηματικών διαδικασιών

Δεν μπορείτε να πάτε πουθενά χωρίς αυτό: πρέπει να καταλάβετε γιατί χρειάζεστε σε αυτή τη διαδικασία, τι κάνετε και γιατί. Συχνά αυτό είναι που μπορεί να σας εξοικονομήσει πολύ χρόνο, να μεγιστοποιήσει το όφελός σας και να μην σπαταλήσει χρόνο και πόρους σε μαλακίες.

Συνήθως, κάνω στον εαυτό μου τις ακόλουθες ερωτήσεις:

  • Τι ακριβώς κάνω στην εταιρεία;
  • Γιατί;
  • Ποιος θα το χρησιμοποιήσει και πώς;
  • Τι επιλογές έχω;
  • Ποια είναι τα όρια των παραμέτρων;

Εδώ είναι λίγο περισσότερες λεπτομέρειες σχετικά με τις παραμέτρους: συχνά μπορείτε να αλλάξετε πολύ το σενάριο εργασίας εάν γνωρίζετε ότι κάτι μπορεί να θυσιαστεί: για παράδειγμα, η ερμηνευτικότητα ή το αντίστροφο, ένα-δυο τοις εκατό δεν θα παίξει ρόλο εδώ και έχουμε πολύ γρήγορο λύση και ο πελάτης τη χρειάζεται, επειδή πληρώνει για το χρόνο που εκτελείται ο αγωγός στο AWS.

Μαθηματικά

Εδώ σκέφτεσαι και καταλαβαίνεις τα πάντα μόνος σου -χωρίς γνώσεις βασικών μαθηματικών δεν είσαι παρά μαϊμούδες με χειροβομβίδα (συγγνώμη Random Forest) - οπότε πρέπει να καταλάβεις τουλάχιστον τα βασικά. Εάν επρόκειτο να συντάξω μια πολύ ελάχιστη λίστα, θα περιλαμβάνει:

  • Γραμμική άλγεβρα - ένας τεράστιος αριθμός πόρων είναι εύκολος στο Google, αναζητήστε αυτό που σας ταιριάζει καλύτερα.
  • Μαθηματική ανάλυση - (τουλάχιστον στα δύο πρώτα εξάμηνα).
  • Η θεωρία πιθανοτήτων είναι παντού στη μηχανική μάθηση.
  • Συνδυαστική - είναι στην πραγματικότητα συμπληρωματική της θεωρίας.
  • Θεωρία γραφημάτων - τουλάχιστον ΒΑΣΙΚΗ.
  • Αλγόριθμοι - τουλάχιστον για τα δύο πρώτα εξάμηνα (δείτε τις συστάσεις του Cormen στο βιβλίο του).
  • Μαθολογικά - τουλάχιστον βασικά.

Πρακτική ανάλυση και οπτικοποίηση δεδομένων

Ένα από τα πιο σημαντικά πράγματα είναι να μπορείτε να μην φοβάστε να λερώσετε τα χέρια σας με δεδομένα και να κάνετε μια ολοκληρωμένη ανάλυση του συνόλου δεδομένων, να προβάλετε και να δημιουργήσετε μια γρήγορη οπτικοποίηση δεδομένων.

Η διερευνητική ανάλυση δεδομένων θα πρέπει απλώς να γίνει κάτι φυσικό, όπως όλοι οι άλλοι μετασχηματισμοί δεδομένων και η δυνατότητα δημιουργίας ενός απλού αγωγού από κόμβους unix (δείτε προηγούμενα άρθρα) ή τη σύνταξη ενός ευανάγνωστου και κατανοητού σημειωματάριου.

Θα ήθελα να αναφέρω την οπτικοποίηση: είναι καλύτερο να βλέπεις μία φορά παρά να ακούς εκατό φορές.

Η εμφάνιση ενός γραφήματος σε έναν διαχειριστή είναι εκατό φορές πιο εύκολη και σαφής από ένα σύνολο αριθμών, επομένως τα matplotlib, seaborn και ggplot2 είναι οι φίλοι σας.

Δεξιότητες

Είναι εξίσου σημαντικό να μπορείτε να μεταδώσετε τις ιδέες σας, καθώς και τα αποτελέσματα και τις ανησυχίες σας (κ.λπ.) σε άλλους - βεβαιωθείτε ότι μπορείτε να δηλώσετε ξεκάθαρα την εργασία τόσο με τεχνικούς όσο και με επιχειρηματικούς όρους.

Μπορείτε να εξηγήσετε σε συναδέλφους, διευθυντές, προϊσταμένους, πελάτες και οποιονδήποτε άλλον το χρειάζεται τι συμβαίνει, ποια δεδομένα χρησιμοποιείτε και ποια αποτελέσματα έχετε.

Τα γραφήματα και η τεκμηρίωσή σας θα πρέπει να διαβάζονται χωρίς εσάς. Δηλαδή, δεν χρειάζεται να πάτε σε εσάς για να καταλάβετε τι γράφεται εκεί.

Μπορείτε να κάνετε μια σαφή παρουσίαση για να κατανοήσετε το θέμα ή/και να τεκμηριώσετε το έργο/την εργασία σας.

Μπορείτε να μεταφέρετε τη θέση σας με αιτιολογημένο και χωρίς συναισθηματικό τρόπο, να πείτε «ναι/όχι» ή να αμφισβητήσετε/υποστηρίξετε μια απόφαση.

εκπαίδευση

Υπάρχουν πολλά διαφορετικά μέρη όπου μπορείτε να μάθετε όλα αυτά. Θα δώσω μια σύντομη λίστα - δοκίμασα τα πάντα από αυτό και, για να είμαι ειλικρινής, κάθε στοιχείο έχει τα πλεονεκτήματα και τα μειονεκτήματά του. Δοκιμάστε το και αποφασίστε τι σας ταιριάζει, αλλά σας συνιστώ να δοκιμάσετε πολλές επιλογές και να μην κολλήσετε σε μία.

  • Διαδικτυακά μαθήματα: coursera, udacity, Edx, κ.λπ.
  • Νέα σχολεία: online και offline - SkillFactory, ShAD, MADE;
  • Κλασικά σχολεία: πανεπιστημιακά μεταπτυχιακά προγράμματα και μαθήματα προχωρημένης κατάρτισης.
  • Έργα - μπορείτε απλά να επιλέξετε εργασίες που σας ενδιαφέρουν και να τις κόψετε, ανεβάζοντάς τις στο github.
  • Πρακτική άσκηση - είναι δύσκολο να προτείνεις οτιδήποτε εδώ· πρέπει να ψάξεις τι είναι διαθέσιμο και να βρεις κατάλληλες επιλογές.

Είναι αναγκαίο?

Εν κατακλείδι, θα προσθέσω πιθανώς τρεις προσωπικές αρχές που προσπαθώ να ακολουθήσω ο ίδιος.

  • Θα πρέπει να είναι ενδιαφέρον?
  • Φέρτε εσωτερική ευχαρίστηση (= τουλάχιστον μην προκαλείτε βάσανα).
  • «Να είμαι δικός σου».

Γιατί αυτοί; Είναι δύσκολο να φανταστείς να κάνεις κάτι κάθε μέρα και να μην το απολαμβάνεις ή να μην σε ενδιαφέρει. Φανταστείτε ότι είστε γιατρός και μισείτε την επικοινωνία με ανθρώπους - αυτό, φυσικά, μπορεί με κάποιο τρόπο να λειτουργήσει, αλλά θα νιώθετε συνεχώς άβολα με τη ροή των ασθενών που θέλουν να σας ρωτήσουν κάτι. Αυτό δεν λειτουργεί μακροπρόθεσμα.

Γιατί ανέφερα συγκεκριμένα την εσωτερική ευχαρίστηση; Μου φαίνεται ότι αυτό είναι απαραίτητο για την περαιτέρω ανάπτυξη και, καταρχήν, τη μαθησιακή διαδικασία. Το απολαμβάνω πολύ όταν καταφέρνω να ολοκληρώσω κάποιο περίπλοκο χαρακτηριστικό και να φτιάξω ένα μοντέλο ή να υπολογίσω μια σημαντική παράμετρο. Το απολαμβάνω όταν ο κώδικάς μου είναι αισθητικά όμορφος και καλογραμμένος. Επομένως, το να μαθαίνεις κάτι νέο είναι ενδιαφέρον και δεν απαιτεί άμεσα κάποιο σημαντικό κίνητρο.

«Το να είσαι δικός σου» είναι η ίδια αίσθηση ότι αυτό περίπου ήθελες να κάνεις. Έχω μια μικρή ιστορία. Από μικρός, με ενδιέφερε η ροκ μουσική (και το metal - SALMON!) και, όπως πολλοί άλλοι, ήθελα να μάθω πώς να παίζω και αυτό είναι όλο. Αποδείχτηκε ότι δεν είχα ακοή και φωνή - αυτό δεν με ενόχλησε καθόλου (και πρέπει να πω ότι αυτό δεν ενοχλεί πολλούς ερμηνευτές πάνω στη σκηνή), και όταν ήμουν ακόμα στο σχολείο πήρα μια κιθάρα... και έγινε σαφές ότι δεν μου αρέσει πολύ να κάθομαι με τις ώρες και να παίζω σε αυτό. Πήγαινε δύσκολα, πάντα μου φαινόταν ότι έβγαινε κάποια βλακεία - δεν είχα καθόλου ευχαρίστηση από αυτό και απλώς ένιωθα χάλια, ανόητη και εντελώς ανίκανη. Αναγκάστηκα κυριολεκτικά να κάτσω για μαθήματα και γενικά δεν ήταν καλό φαγητό για το άλογο.

Ταυτόχρονα, μπορούσα να κάθομαι ήρεμα για ώρες αναπτύσσοντας κάποιο παιχνίδι, χρησιμοποιώντας ένα σενάριο για να κάνω κίνηση σε κάτι στο φλας (ή κάτι άλλο) και είχα τρομερά κίνητρα να τελειώσω στοιχεία στο παιχνίδι ή να ασχοληθώ με τους μηχανισμούς της κίνησης ή/και σύνδεση βιβλιοθηκών τρίτων, προσθηκών και οτιδήποτε άλλο.

Και κάποια στιγμή συνειδητοποίησα ότι το να παίζω κιθάρα δεν είναι το πράγμα μου και ότι μου αρέσει πολύ να ακούω, όχι να παίζω. Και τα μάτια μου άστραψαν όταν έγραφα παιχνίδια και κώδικα (ακούγοντας κάθε λογής metal εκείνη τη στιγμή) και αυτό μου άρεσε τότε, και αυτό έπρεπε να κάνω.

Έχετε άλλες ερωτήσεις;

Φυσικά, δεν μπορέσαμε να εξετάσουμε όλα τα θέματα και τις ερωτήσεις, γι' αυτό γράψτε σχόλια και στείλτε μου PM - πάντα χαίρομαι που έχω ερωτήσεις.

Σημειώσεις Date Scientist: από πού να ξεκινήσω και είναι απαραίτητο;

Σημειώσεις Date Scientist: από πού να ξεκινήσω και είναι απαραίτητο;

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο