Woran erkennt man einen Scharlatan aus Data Science?

Woran erkennt man einen Scharlatan aus Data Science?
Sie haben vielleicht schon von Analysten, Spezialisten für maschinelles Lernen und künstliche Intelligenz gehört, aber haben Sie auch von denen gehört, die zu Unrecht überbezahlt werden? Treffen Datenscharlatan! Diese Hacker, angelockt durch lukrative Jobs, verschaffen echten Datenwissenschaftlern einen schlechten Ruf. Im Material verstehen wir, wie man solche Menschen zu sauberem Wasser bringt.

Datenscharlatane gibt es überall

Datenscharlatane sind so gut darin, sich vor aller Öffentlichkeit zu verstecken, dass Sie es können Sei einer von ihnenohne es überhaupt zu merken. Die Chancen stehen gut, dass Ihr Unternehmen diesen hinterhältigen Kerlen schon seit Jahren Unterschlupf bietet, aber die gute Nachricht ist, dass sie leicht zu identifizieren sind, wenn Sie wissen, wonach Sie suchen müssen.
Das erste Warnzeichen ist mangelndes Verständnis dafür Analytik und Statistik sind sehr unterschiedliche Disziplinen. Ich werde das noch näher erläutern.

Verschiedene Disziplinen

Statistiker werden darin geschult, Rückschlüsse auf das zu ziehen, was über ihre Daten hinausgeht, Analysten werden darin geschult, den Inhalt eines Datensatzes zu untersuchen. Mit anderen Worten: Analysten ziehen Schlussfolgerungen darüber, was in ihren Daten enthalten ist, und Statistiker ziehen Schlussfolgerungen darüber, was nicht in den Daten enthalten ist. Analysten helfen Ihnen, gute Fragen zu stellen (Hypothesen aufzustellen), und Statistiker helfen Ihnen, gute Antworten zu erhalten (Hypothesen zu testen).

Es gibt auch seltsame Hybridrollen, in denen eine Person versucht, auf zwei Stühlen zu sitzen ... Warum nicht? Grundprinzip der Datenwissenschaft: Wenn Sie mit Unsicherheit zu tun haben, können Sie sie nicht verwenden gleich Datenpunkt für Hypothesen und Tests. Wenn die Daten begrenzt sind, zwingt die Unsicherheit dazu, zwischen Statistik und Analyse zu wählen. Erklärung hier.

Ohne Statistiken stecken Sie fest und können nicht verstehen, ob das Urteil, das Sie gerade formuliert haben, Bestand hat, und ohne Analyse handeln Sie blind und haben kaum eine Chance, das Unbekannte zu bändigen. Das ist eine schwierige Wahl.

Der Ausweg des Scharlatans aus diesem Schlamassel besteht darin, es zu ignorieren und dann so zu tun, als wäre er überrascht von dem, was plötzlich auftaucht. Die Logik hinter dem Testen statistischer Hypothesen beruht auf der Frage, ob die Daten uns genug überraschen, um unsere Meinung zu ändern. Wie können wir von Daten überrascht werden, wenn wir sie bereits gesehen haben?

Immer wenn Scharlatane ein Muster finden, lassen sie sich inspirieren und überprüfen es dann gleiche Daten für das gleiche Muster, um das Ergebnis mit einem oder zwei legitimen p-Werten neben ihrer Theorie zu veröffentlichen. Somit belügen sie Sie (und vielleicht auch sich selbst). Dieser p-Wert spielt keine Rolle, wenn Sie nicht an Ihrer Hypothese festhalten auf wie Sie Ihre Daten gesehen haben. Scharlatane ahmen das Vorgehen von Analysten und Statistikern nach, ohne die Gründe dafür zu verstehen. Dadurch gerät der gesamte Bereich der Datenwissenschaft in einen schlechten Ruf.

Wahre Statistiker ziehen immer ihre eigenen Schlussfolgerungen

Dank des fast mystischen Rufs der Statistiker wegen ihrer rigorosen Argumentation ist die Menge an gefälschten Informationen in der Datenwissenschaft so hoch wie nie zuvor. Es ist leicht, zu täuschen und nicht erwischt zu werden, insbesondere wenn das ahnungslose Opfer denkt, dass es nur um Gleichungen und Daten geht. Ein Datensatz ist ein Datensatz, oder? Nein. Es kommt darauf an, wie Sie es verwenden.

Zum Glück braucht man nur einen Hinweis, um die Scharlatane zu fangen: Sie „entdecken Amerika rückwirkend“. Durch die Wiederentdeckung von Phänomenen, von denen sie bereits wissen, dass sie in den Daten vorhanden sind.

Im Gegensatz zu Scharlatanen sind gute Analytiker aufgeschlossen und verstehen, dass inspirierende Ideen viele verschiedene Erklärungen haben können. Gleichzeitig definieren gute Statistiker ihre Schlussfolgerungen sorgfältig, bevor sie sie treffen.

Analysten sind von der Haftung befreit... solange sie im Rahmen ihrer Daten bleiben. Wenn sie versucht sind, etwas zu behaupten, was sie nicht gesehen haben, ist das eine ganz andere Aufgabe. Sie sollten die Schuhe des Analytikers ausziehen und die des Statistikers anziehen. Denn egal wie die offizielle Berufsbezeichnung lautet, es gibt keine Regel, die besagt, dass man nicht beide Berufe studieren kann, wenn man möchte. Verwirren Sie sie einfach nicht.

Nur weil Sie gut in Statistiken sind, heißt das nicht, dass Sie auch gut in Analysen sind, und umgekehrt. Wenn jemand versucht, Ihnen etwas anderes zu sagen, sollten Sie vorsichtig sein. Wenn diese Person Ihnen sagt, dass es zulässig ist, statistische Schlussfolgerungen aus Daten zu ziehen, die Sie bereits untersucht haben, ist das ein Grund zur doppelten Vorsicht.

Bizarre Erklärungen

Wenn Sie Datenscharlatane in freier Wildbahn beobachten, werden Sie feststellen, dass sie gerne fantastische Geschichten erfinden, um die von ihnen beobachteten Daten zu „erklären“. Je akademischer, desto besser. Es spielt keine Rolle, dass diese Geschichten im Nachhinein angepasst werden.

Wenn Scharlatane dies tun – lassen Sie mich das klarstellen – lügen sie. Keine Menge Gleichungen oder ausgefallener Konzepte können die Tatsache wettmachen, dass sie keinen Beweis für ihre Theorien lieferten. Seien Sie nicht überrascht, wie ungewöhnlich ihre Erklärungen sind.

Dies ist dasselbe, als würden Sie Ihre „psychischen“ Fähigkeiten unter Beweis stellen, indem Sie zuerst die Karten in Ihren Händen betrachten und dann vorhersagen, was Sie in der Hand halten … was Sie in der Hand halten. Das ist eine Voreingenommenheit im Nachhinein, und der Berufsstand der Datenwissenschaftler ist bis zum Rand damit gefüllt.

Woran erkennt man einen Scharlatan aus Data Science?

Analysten sagen: „Sie haben sich einfach für die Karo-Dame entschieden.“ Die Statistiker sagen: „Ich habe meine Hypothesen auf diesem Blatt Papier niedergeschrieben, bevor wir angefangen haben. Lasst uns herumspielen, uns ein paar Daten ansehen und sehen, ob ich recht habe.“ Scharlatane sagen: „Ich wusste, dass du diese Karo-Königin werden würdest, weil …“

Der Datenaustausch ist die schnelle Lösung, die jeder braucht.

Wenn nicht viele Daten vorhanden sind, müssen Sie zwischen Statistiken und Analysen wählen, aber wenn mehr als genug Daten vorhanden sind, besteht eine großartige Gelegenheit, Analysen ohne Täuschung zu nutzen и Statistiken. Sie haben die perfekte Verteidigung gegen Scharlatane – die Datentrennung, und meiner Meinung nach ist dies die wirkungsvollste Idee in der Datenwissenschaft.

Um sich vor Scharlatanen zu schützen, müssen Sie lediglich sicherstellen, dass Sie einige Testdaten außerhalb der Reichweite ihrer neugierigen Blicke aufbewahren und den Rest dann als Analyse behandeln. Wenn Sie auf eine Theorie stoßen, die Sie möglicherweise akzeptieren, bewerten Sie die Situation anhand dieser Theorie und geben Sie dann Ihre geheimen Testdaten preis, um zu überprüfen, ob die Theorie kein Unsinn ist. Es ist so einfach!

Woran erkennt man einen Scharlatan aus Data Science?
Stellen Sie sicher, dass während der Explorationsphase niemand die Testdaten einsehen darf. Halten Sie sich dazu an Forschungsdaten. Testdaten sollten nicht zur Analyse verwendet werden.

Dies ist ein großer Fortschritt im Vergleich zu dem, was die Menschen in der „Small Data“-Ära gewohnt sind, wo man erklären muss, woher man weiß, was man weiß, um die Leute schließlich davon zu überzeugen, dass man tatsächlich etwas weiß.

Wenden Sie dieselben Regeln auf ML/KI an

Auch einige Scharlatane, die sich als ML/KI-Experten ausgeben, sind leicht zu erkennen. Sie werden sie genauso erwischen wie jeden anderen schlechten Ingenieur: Die „Lösungen“, die sie zu entwickeln versuchen, scheitern ständig. Ein Frühwarnzeichen ist mangelnde Erfahrung mit branchenüblichen Programmiersprachen und Bibliotheken.

Aber was ist mit den Leuten, die Systeme schaffen, die zu funktionieren scheinen? Woher wissen Sie, ob etwas Verdächtiges vor sich geht? Es gilt die gleiche Regel! Der Scharlatan ist eine finstere Figur, die Ihnen zeigt, wie gut das Modell funktioniert hat ... mit denselben Daten, die sie zur Erstellung des Modells verwendet haben.

Wenn Sie ein wahnsinnig komplexes maschinelles Lernsystem aufgebaut haben, woher wissen Sie dann, wie gut es ist? Sie werden es erst erfahren, wenn Sie ihr zeigen, wie sie mit neuen Daten arbeitet, die sie zuvor noch nicht gesehen hat.

Wenn Sie die Daten vor der Prognose gesehen haben, ist das unwahrscheinlich vorhererzählen

Wenn Sie genügend Daten zur Trennung haben, müssen Sie nicht die Schönheit Ihrer Formeln anführen, um das Projekt zu rechtfertigen (eine altmodische Angewohnheit, die ich überall sehe, nicht nur in der Wissenschaft). Sie können sagen: „Ich weiß, dass es funktioniert, weil ich einen Datensatz, den ich vorher noch nicht gesehen habe, genau vorhersagen kann, was dort passieren wird … und ich werde Recht haben. Wieder und wieder".

Das Testen Ihres Modells/Ihrer Theorie anhand neuer Daten ist die beste Grundlage für Vertrauen.

Ich dulde keine Datenscharlatane. Es ist mir egal, ob Ihre Meinung auf verschiedenen Tricks beruht. Ich bin von der Schönheit der Erklärungen nicht beeindruckt. Zeigen Sie mir, dass Ihre Theorie/Ihr Modell auf einer ganzen Reihe neuer Daten funktioniert (und weiterhin funktioniert), die Sie noch nie zuvor gesehen haben. Dies ist der wahre Test für die Stärke Ihrer Meinung.

Kontaktaufnahme mit Data-Science-Experten

Wenn Sie von jedem ernst genommen werden möchten, der diesen Humor versteht, sollten Sie sich nicht mehr hinter ausgefallenen Gleichungen verstecken, um persönliche Vorurteile zu untermauern. Zeig mir was du hast. Wenn Sie möchten, dass diejenigen, die es verstehen, Ihre Theorie/Ihr Modell als mehr als nur inspirierende Poesie betrachten, haben Sie den Mut, vor Zeugen zu zeigen, wie gut es auf einem völlig neuen Datensatz funktioniert !

Appell an Führungskräfte

Weigern Sie sich, irgendwelche „Ideen“ zu den Daten ernst zu nehmen, bis sie getestet wurden neu Daten. Keine Lust, sich anzustrengen? Bleiben Sie bei den Analysen, aber verlassen Sie sich nicht auf diese Ideen – sie sind unzuverlässig und wurden nicht auf Zuverlässigkeit getestet. Wenn eine Organisation darüber hinaus über Daten im Überfluss verfügt, besteht kein Nachteil darin, die Trennung in der Wissenschaft grundlegend zu machen und sie auf Infrastrukturebene beizubehalten, indem der Zugriff auf Testdaten für Statistiken kontrolliert wird. Dies ist eine großartige Möglichkeit, die Leute davon abzuhalten, Sie zu täuschen!

Wenn Sie weitere Beispiele von Scharlatanen sehen möchten, die nichts Gutes tun – Hier ist ein wunderbarer Thread auf Twitter.

Ergebnisse

Wenn zu wenig Daten zur Trennung vorhanden sind, versucht nur ein Scharlatan, der Inspiration strikt zu folgen, indem er Amerika im Nachhinein entdeckt, bereits bekannte Phänomene in den Daten mathematisch wiederentdeckt und die Überraschung als statistisch signifikant bezeichnet. Dies unterscheidet sie vom aufgeschlossenen Analytiker, der sich mit Inspiration beschäftigt, und dem akribischen Statistiker, der Beweise liefert, wenn er Vorhersagen trifft.

Wenn es viele Daten gibt, gewöhnen Sie sich an, die Daten zu trennen, damit Sie das Beste aus beiden Welten haben! Stellen Sie sicher, dass Sie Analysen und Statistiken für einzelne Teilmengen des ursprünglichen Datenstapels separat durchführen.

  • Analysten bieten Ihnen Inspiration und Aufgeschlossenheit.
  • Statistiken bieten Ihnen strenge Tests.
  • Scharlatane bieten Ihnen einen verdrehten Rückblick, der vorgibt, Analyse und Statistik zu sein.

Vielleicht kommt Ihnen nach der Lektüre des Artikels der Gedanke „Bin ich ein Scharlatan“? Es ist in Ordnung. Es gibt zwei Möglichkeiten, diesen Gedanken loszuwerden: Schauen Sie zunächst zurück, sehen Sie, was Sie getan haben und ob Ihre Arbeit mit Daten praktischen Nutzen gebracht hat. Und zweitens können Sie noch an Ihren Qualifikationen arbeiten (was sicherlich nicht überflüssig sein wird), zumal wir unseren Studierenden praktische Fähigkeiten und Kenntnisse vermitteln, die sie zu echten Datenwissenschaftlern machen.

Woran erkennt man einen Scharlatan aus Data Science?

Weitere Kurse

Lesen Sie mehr

Source: habr.com

Kommentar hinzufügen