Πώς να αναγνωρίσετε έναν τσαρλατάνο από την Επιστήμη των Δεδομένων;

Πώς να αναγνωρίσετε έναν τσαρλατάνο από την Επιστήμη των Δεδομένων;
Μπορεί να έχετε ακούσει για αναλυτές, ειδικούς μηχανικής μάθησης και τεχνητής νοημοσύνης, αλλά έχετε ακούσει για αυτούς που αμείβονται άδικα; Συναντώ δεδομένα τσαρλατάνος! Αυτά τα hacks, παρασυρμένα από προσοδοφόρες θέσεις εργασίας, δίνουν στους επιστήμονες των πραγματικών δεδομένων ένα κακό όνομα. Στο υλικό καταλαβαίνουμε πώς να φέρουμε τέτοιους ανθρώπους σε καθαρό νερό.

Οι τσαρλατάνοι δεδομένων είναι παντού

Οι τσαρλατάνοι δεδομένων είναι τόσο καλοί στο να κρύβονται σε κοινή θέα που μπορείτε γίνε ένας από αυτούςχωρίς καν να το καταλάβω. Οι πιθανότητες είναι ότι ο οργανισμός σας φιλοξενεί αυτούς τους ύπουλους τύπους εδώ και χρόνια, αλλά τα καλά νέα είναι ότι είναι εύκολο να εντοπιστούν αν ξέρετε τι να αναζητήσετε.
Το πρώτο προειδοποιητικό σημάδι είναι η έλλειψη κατανόησης αυτού Η ανάλυση και η στατιστική είναι πολύ διαφορετικοί κλάδοι. Θα το εξηγήσω περαιτέρω.

Διαφορετικοί κλάδοι

Οι στατιστικολόγοι εκπαιδεύονται να εξάγουν συμπεράσματα για το τι είναι πέρα ​​από τα δεδομένα τους, οι αναλυτές εκπαιδεύονται να εξετάζουν το περιεχόμενο ενός συνόλου δεδομένων. Με άλλα λόγια, οι αναλυτές βγάζουν συμπεράσματα για το τι υπάρχει στα δεδομένα τους και οι στατιστικολόγοι βγάζουν συμπεράσματα για το τι δεν υπάρχει στα δεδομένα. Οι αναλυτές σας βοηθούν να κάνετε καλές ερωτήσεις (κάνετε υποθέσεις) και οι στατιστικολόγοι σας βοηθούν να λάβετε καλές απαντήσεις (δοκιμάστε τις υποθέσεις σας).

Υπάρχουν και περίεργοι υβριδικοί ρόλοι όπου ένας άνθρωπος προσπαθεί να καθίσει σε δύο καρέκλες... Γιατί όχι; Βασική αρχή της επιστήμης δεδομένων: εάν αντιμετωπίζετε αβεβαιότητα, δεν μπορείτε να χρησιμοποιήσετε το ίδιο σημείο δεδομένων για υποθέσεις και δοκιμές. Όταν τα δεδομένα είναι περιορισμένα, η αβεβαιότητα αναγκάζει την επιλογή μεταξύ στατιστικών ή αναλυτικών στοιχείων. Επεξήγηση εδώ.

Χωρίς στατιστικά, θα κολλήσετε και θα μην μπορείτε να καταλάβετε αν η κρίση που μόλις διατυπώσατε ισχύει και χωρίς ανάλυση, κινείστε στα τυφλά, με ελάχιστες πιθανότητες να τιθασεύσετε το άγνωστο. Αυτή είναι μια δύσκολη επιλογή.

Η διέξοδος του τσαρλατάνου από αυτό το χάος είναι να το αγνοήσει και μετά να προσποιηθεί ότι εκπλήσσεται από αυτό που ξαφνικά εμφανίζεται. Η λογική πίσω από τη δοκιμή στατιστικών υποθέσεων καταλήγει στο ερώτημα εάν τα δεδομένα μας εκπλήσσουν αρκετά ώστε να αλλάξουμε γνώμη. Πώς μπορούμε να εκπλαγούμε από τα δεδομένα αν τα έχουμε ήδη δει;

Κάθε φορά που οι τσαρλατάνοι βρίσκουν ένα μοτίβο, εμπνέονται και μετά ελέγχουν ίδια δεδομένα για το ίδιο μοτίβο, για να δημοσιεύσετε το αποτέλεσμα με μια νόμιμη τιμή p ή δύο, δίπλα στη θεωρία τους. Έτσι, λένε ψέματα σε εσάς (και, ίσως, και στον εαυτό τους). Αυτή η τιμή p δεν έχει σημασία αν δεν εμμείνετε στην υπόθεσή σας να πώς είδατε τα δεδομένα σας. Οι Τσαρλατάνοι μιμούνται τις ενέργειες των αναλυτών και των στατιστικολόγων χωρίς να κατανοούν τους λόγους. Ως αποτέλεσμα, ολόκληρος ο τομέας της επιστήμης δεδομένων αποκτά κακή φήμη.

Οι αληθινοί στατιστικολόγοι βγάζουν πάντα τα συμπεράσματά τους

Χάρη στη σχεδόν μυστικιστική φήμη των στατιστικολόγων για την αυστηρή συλλογιστική τους, ο όγκος των ψεύτικων πληροφοριών στην Επιστήμη των Δεδομένων είναι σε υψηλό όλων των εποχών. Είναι εύκολο να εξαπατήσεις και να μην σε πιάσουν, ειδικά αν το ανυποψίαστο θύμα πιστεύει ότι όλα είναι θέμα εξισώσεων και δεδομένων. Ένα σύνολο δεδομένων είναι ένα σύνολο δεδομένων, σωστά; Οχι. Σημασία έχει πώς το χρησιμοποιείς.

Ευτυχώς, χρειάζεστε μόνο ένα στοιχείο για να πιάσετε τους τσαρλατάνους: «ανακαλύπτουν αναδρομικά την Αμερική». Ανακαλύπτοντας ξανά φαινόμενα που ήδη γνωρίζουν ότι υπάρχουν στα δεδομένα.

Σε αντίθεση με τους τσαρλατάνους, οι καλοί αναλυτές είναι ανοιχτόμυαλοι και κατανοούν ότι οι εμπνευσμένες ιδέες μπορούν να έχουν πολλές διαφορετικές εξηγήσεις. Ταυτόχρονα, οι καλοί στατιστικολόγοι ορίζουν προσεκτικά τα συμπεράσματά τους πριν τα βγάλουν.

Οι αναλυτές απαλλάσσονται από την ευθύνη... εφόσον παραμένουν εντός του πεδίου εφαρμογής των δεδομένων τους. Αν μπουν στον πειρασμό να διεκδικήσουν κάτι που δεν είδαν, αυτό είναι εντελώς άλλη δουλειά. Θα πρέπει να βγάλουν τα παπούτσια του αναλυτή και να φορέσουν τα παπούτσια του στατιστικολόγου. Άλλωστε, όποιος κι αν είναι ο επίσημος τίτλος εργασίας, δεν υπάρχει κανόνας που να λέει ότι δεν μπορείτε να σπουδάσετε και τα δύο επαγγέλματα αν θέλετε. Απλά μην τους μπερδεύετε.

Το ότι είσαι καλός στα στατιστικά δεν σημαίνει ότι είσαι καλός στα αναλυτικά και το αντίστροφο. Εάν κάποιος προσπαθήσει να σας πει το αντίθετο, θα πρέπει να είστε προσεκτικοί. Εάν αυτό το άτομο σας πει ότι επιτρέπεται να συνάγετε στατιστικά συμπεράσματα από δεδομένα που έχετε ήδη μελετήσει, αυτός είναι ένας λόγος να είστε διπλά επιφυλακτικοί.

Παράξενες εξηγήσεις

Παρατηρώντας δεδομένα τσαρλατάνους στην άγρια ​​φύση, θα παρατηρήσετε ότι τους αρέσει να φτιάχνουν φανταστικές ιστορίες για να «εξηγήσουν» τα δεδομένα που παρατηρούν. Όσο πιο ακαδημαϊκό, τόσο το καλύτερο. Δεν έχει σημασία ότι αυτές οι ιστορίες προσαρμόζονται εκ των υστέρων.

Όταν οι τσαρλατάνοι το κάνουν αυτό - να είμαι ξεκάθαρος - λένε ψέματα. Καμία ποσότητα εξισώσεων ή φανταχτερών εννοιών δεν μπορεί να αναπληρώσει το γεγονός ότι προσέφεραν μηδενική απόδειξη των θεωριών τους. Μην εκπλαγείτε με το πόσο ασυνήθιστες είναι οι εξηγήσεις τους.

Αυτό είναι το ίδιο με το να επιδείξετε τις «ψυχικές» σας ικανότητες κοιτάζοντας πρώτα τις κάρτες στα χέρια σας και μετά προβλέποντας τι κρατάτε...τι κρατάτε. Αυτό είναι εκ των υστέρων προκατάληψη και το επάγγελμα της επιστήμης δεδομένων είναι γεμάτο με αυτό.

Πώς να αναγνωρίσετε έναν τσαρλατάνο από την Επιστήμη των Δεδομένων;

Οι αναλυτές λένε: «Μόλις πήγες με τη Βασίλισσα των Διαμαντιών». Οι στατιστικολόγοι λένε, «Έγραψα τις υποθέσεις μου σε αυτό το κομμάτι χαρτί πριν ξεκινήσουμε. Ας παίξουμε και ας δούμε κάποια δεδομένα και ας δούμε αν έχω δίκιο». Οι Τσαρλατάνοι λένε: «Ήξερα ότι θα γίνεις αυτή η Βασίλισσα των Διαμαντιών γιατί...»

Η κοινή χρήση δεδομένων είναι η γρήγορη λύση που χρειάζεται ο καθένας.

Όταν δεν υπάρχουν πολλά δεδομένα, πρέπει να επιλέξετε μεταξύ στατιστικών και αναλυτικών στοιχείων, αλλά όταν υπάρχουν περισσότερα από αρκετά δεδομένα, υπάρχει μεγάλη ευκαιρία να χρησιμοποιήσετε αναλυτικά στοιχεία χωρίς εξαπάτηση и στατιστική. Έχετε την τέλεια άμυνα ενάντια στους τσαρλατάνους - διαχωρισμός δεδομένων και, κατά τη γνώμη μου, αυτή είναι η πιο ισχυρή ιδέα στην Επιστήμη των Δεδομένων.

Για να προστατευτείτε από τους τσαρλατάνους, το μόνο που χρειάζεται να κάνετε είναι να βεβαιωθείτε ότι κρατάτε ορισμένα δεδομένα δοκιμών μακριά από τα αδιάκριτα βλέμματά τους και, στη συνέχεια, αντιμετωπίζετε τα υπόλοιπα ως αναλυτικά στοιχεία. Όταν συναντήσετε μια θεωρία που κινδυνεύετε να αποδεχτείτε, χρησιμοποιήστε την για να αξιολογήσετε την κατάσταση και, στη συνέχεια, αποκαλύψτε τα μυστικά δεδομένα της δοκιμής σας για να ελέγξετε ότι η θεωρία δεν είναι ανοησία. Είναι τόσο απλό!

Πώς να αναγνωρίσετε έναν τσαρλατάνο από την Επιστήμη των Δεδομένων;
Βεβαιωθείτε ότι δεν επιτρέπεται σε κανέναν να δει τα δεδομένα δοκιμής κατά τη φάση εξερεύνησης. Για να το κάνετε αυτό, μείνετε στα δεδομένα της έρευνας. Τα δεδομένα δοκιμής δεν πρέπει να χρησιμοποιούνται για ανάλυση.

Αυτό είναι ένα μεγάλο βήμα σε σχέση με αυτό που έχουν συνηθίσει οι άνθρωποι στην εποχή των «μικρών δεδομένων», όπου πρέπει να εξηγήσεις πώς ξέρεις αυτά που ξέρεις για να πείσεις τελικά τους ανθρώπους ότι πραγματικά γνωρίζεις κάτι.

Εφαρμόστε τους ίδιους κανόνες στο ML/AI

Μερικοί τσαρλατάνοι που παρουσιάζονται ως ειδικοί ML/AI είναι επίσης εύκολο να εντοπιστούν. Θα τους πιάσεις με τον ίδιο τρόπο που θα έπιανες κάθε άλλο κακό μηχανικό: οι «λύσεις» που προσπαθούν να χτίσουν συνεχώς αποτυγχάνουν. Ένα πρώιμο προειδοποιητικό σημάδι είναι η έλλειψη εμπειρίας με βιομηχανικές τυπικές γλώσσες προγραμματισμού και βιβλιοθήκες.

Τι γίνεται όμως με τους ανθρώπους που δημιουργούν συστήματα που φαίνεται να λειτουργούν; Πώς ξέρετε αν συμβαίνει κάτι ύποπτο; Ισχύει ο ίδιος κανόνας! Ο Τσαρλατάνος ​​είναι ένας απαίσιος χαρακτήρας που σας δείχνει πόσο καλά λειτούργησε το μοντέλο...στα ίδια δεδομένα που χρησιμοποίησαν για τη δημιουργία του μοντέλου.

Εάν έχετε δημιουργήσει ένα εξαιρετικά περίπλοκο σύστημα μηχανικής μάθησης, πώς ξέρετε πόσο καλό είναι; Δεν θα το μάθετε μέχρι να της δείξετε ότι δουλεύει με νέα δεδομένα που δεν έχει ξαναδεί.

Όταν είδατε τα δεδομένα πριν από την πρόβλεψη - είναι απίθανο πριναποτελεσματικός

Όταν έχετε αρκετά δεδομένα για να διαχωρίσετε, δεν χρειάζεται να αναφέρετε την ομορφιά των τύπων σας για να δικαιολογήσετε το έργο (μια συνήθεια παλιάς μόδας που βλέπω παντού, όχι μόνο στην επιστήμη). Μπορείς να πεις: «Ξέρω ότι λειτουργεί γιατί μπορώ να πάρω ένα σύνολο δεδομένων που δεν έχω ξαναδεί και να προβλέψω τι ακριβώς θα συμβεί εκεί… και θα έχω δίκιο. Ξανά και ξανά".

Η δοκιμή του μοντέλου/θεωρίας σας σε σχέση με νέα δεδομένα είναι η καλύτερη βάση για εμπιστοσύνη.

Δεν ανέχομαι τσαρλατάνους δεδομένων. Δεν με νοιάζει αν η γνώμη σου βασίζεται σε διαφορετικά κόλπα. Δεν με εντυπωσιάζει η ομορφιά των εξηγήσεων. Δείξε μου ότι η θεωρία/το μοντέλο σου λειτουργεί (και συνεχίζει να λειτουργεί) σε μια ολόκληρη σειρά νέων δεδομένων που δεν έχεις ξαναδεί. Αυτή είναι η πραγματική δοκιμασία της δύναμης της γνώμης σας.

Επικοινωνία με ειδικούς της επιστήμης δεδομένων

Εάν θέλετε να σας πάρουν στα σοβαρά όλοι όσοι καταλαβαίνουν αυτό το χιούμορ, σταματήστε να κρύβεστε πίσω από φανταχτερές εξισώσεις για να υποστηρίξετε προσωπικές προκαταλήψεις. Δείξε μου τι έχεις. Αν θέλετε εκείνοι που «το καταλαβαίνουν» να βλέπουν τη θεωρία/το μοντέλο σας ως κάτι περισσότερο από μια απλή ποίηση έμπνευσης, έχετε το θάρρος να κάνετε μια μεγάλη παράσταση για το πόσο καλά λειτουργεί σε ένα εντελώς νέο σύνολο δεδομένων... μπροστά σε μάρτυρες !

Έκκληση στους ηγέτες

Αρνηθείτε να λάβετε σοβαρά υπόψη οποιεσδήποτε «ιδέες» σχετικά με τα δεδομένα μέχρι να δοκιμαστούν νέα δεδομένα. Δεν θέλετε να καταβάλετε προσπάθεια; Μείνετε με τα αναλυτικά στοιχεία, αλλά μην βασίζεστε σε αυτές τις ιδέες—είναι αναξιόπιστες και δεν έχουν δοκιμαστεί για αξιοπιστία. Επιπλέον, όταν ένας οργανισμός έχει δεδομένα σε αφθονία, δεν υπάρχει κανένα μειονέκτημα στο να γίνει ο διαχωρισμός θεμελιώδης στην επιστήμη και να διατηρηθεί σε επίπεδο υποδομής ελέγχοντας την πρόσβαση σε δεδομένα δοκιμών για στατιστικές. Αυτός είναι ένας πολύ καλός τρόπος για να σταματήσετε τους ανθρώπους που προσπαθούν να σας ξεγελάσουν!

Αν θέλετε να δείτε περισσότερα παραδείγματα τσαρλατάνων έως και καθόλου καλών - εδώ είναι ένα υπέροχο νήμα στο Twitter.

Αποτελέσματα της

Όταν υπάρχουν πολύ λίγα δεδομένα για διαχωρισμό, μόνο ένας τσαρλατάνος ​​προσπαθεί να ακολουθήσει αυστηρά την έμπνευση ανακαλύπτοντας την Αμερική αναδρομικά, ανακαλύπτοντας μαθηματικά ξανά φαινόμενα που είναι ήδη γνωστό ότι υπάρχουν στα δεδομένα και χαρακτηρίζοντας την έκπληξη στατιστικά σημαντική. Αυτό τους διακρίνει από τον ανοιχτόμυαλο αναλυτή, που ασχολείται με την έμπνευση, και τον σχολαστικό στατιστικολόγο, που προσφέρει στοιχεία όταν κάνει προβλέψεις.

Όταν υπάρχουν πολλά δεδομένα, αποκτήστε τη συνήθεια να διαχωρίζετε τα δεδομένα για να έχετε το καλύτερο και των δύο κόσμων! Φροντίστε να κάνετε αναλυτικά στοιχεία και στατιστικά στοιχεία ξεχωριστά για μεμονωμένα υποσύνολα του αρχικού σωρού δεδομένων.

  • Αναλυτές σας προσφέρει έμπνευση και ανοιχτό μυαλό.
  • Στατιστική σας προσφέρει αυστηρές δοκιμές.
  • Τσαρλατάνοι σας προσφέρει μια στρεβλή εκ των υστέρων εικόνα που προσποιείται ότι είναι αναλυτικά στοιχεία συν στατιστικά.

Ίσως, αφού διαβάσετε το άρθρο, θα έχετε τη σκέψη «είμαι τσαρλατάνος»; Είναι εντάξει. Υπάρχουν δύο τρόποι για να απαλλαγείτε από αυτήν τη σκέψη: πρώτα, κοιτάξτε πίσω, δείτε τι έχετε κάνει, εάν η εργασία σας με τα δεδομένα έχει φέρει πρακτικά οφέλη. Και δεύτερον, μπορείτε ακόμα να εργαστείτε με τα προσόντα σας (τα οποία σίγουρα δεν θα είναι περιττά), ειδικά επειδή παρέχουμε στους μαθητές μας πρακτικές δεξιότητες και γνώσεις που τους επιτρέπουν να γίνουν πραγματικοί επιστήμονες δεδομένων.

Πώς να αναγνωρίσετε έναν τσαρλατάνο από την Επιστήμη των Δεδομένων;

Περισσότερα μαθήματα

Διαβάστε περισσότερα

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο