Wéi erkennt een e Charlatan aus Data Science?

Wéi erkennt een e Charlatan aus Data Science?
Dir hutt vläicht vun Analysten, Maschinnléieren a Kënschtlech Intelligenz Spezialisten héieren, awer hutt Dir vun deenen héieren, déi onverdéngt iwwerbezuelt sinn? Treffen daten charlatan! Dës Trickster, gelackelt vu lukrativen Aarbechtsplazen, ginn echte Datewëssenschaftler e schlechten Numm. Am Material verstoen mir wéi esou Leit zu proppert Waasser bréngen.

Daten Charlatans sinn iwwerall

Donnéeën charlatans sinn sou gutt am Einfache Vue ze verstoppen, datt Dir kënnt ee vun hinnen sinnouni et och ze mierken. D'Chancen sinn datt Är Organisatioun dës Scammers zënter Joeren hält, awer déi gutt Noriicht ass datt se einfach z'identifizéieren wann Dir wësst wat Dir sicht.
Dat éischt Warnschëld ass net ze verstoen wat Analyse a Statistike si ganz verschidden Disziplinnen. Ech wäert dat weider erklären.

Verschidden Disziplinnen

Statistiker ginn trainéiert fir Conclusiounen ze zéien iwwer wat ausserhalb vun hiren Donnéeën ass, Analysten ginn trainéiert fir den Inhalt vun engem Datesaz ze studéieren. An anere Wierder, Analysten zéien Conclusiounen iwwer wat an hiren Donnéeën ass, an Statistiker zéien Conclusiounen iwwer dat wat net an den Donnéeën ass. Analysten hëllefen Iech gutt Froen ze stellen (Guess), a Statistiken hëllefen Iech gutt Äntwerten ze kréien (Testhypothesen).

Et ginn och bizarre Hybridrollen, wou eng Persoun probéiert op zwee Still ze sëtzen... Firwat net? E Grondprinzip vun der Datewëssenschaft: Wann Dir mat Onsécherheet ze dinn hutt, benotzt net datselwecht Datepunkt fir Hypothesen an Testen. Wann d'Donnéeën limitéiert sinn, forcéiert d'Onsécherheet een tëscht Statistiken oder Analysen ze wielen. Erklärung hei.

Ouni Statistik wäert Dir hänke bleiwen an net fäeg ze verstoen ob d'Uerteel, déi Dir just formuléiert hutt, op Kritik stécht, an ouni Analyse bewegt Dir blann, hu wéineg Chance fir dat Onbekannt ze zämmen. Dëst ass eng schwiereg Wiel.

Dem Charlatan säi Wee aus dësem Mess ass et ze ignoréieren an dann ze maachen wéi wann hien iwwerrascht wier iwwer dat wat et op eemol verroden. D'Logik hannert der Tester vun statisteschen Hypothesen geet erof op d'Fro ob d'Donnéeën eis genuch iwwerraschen fir eis Gedanken ze änneren. Wéi kënne mir vun den Donnéeën iwwerrascht sinn wa mir se scho gesinn hunn?

Wann och ëmmer d'Charlatanen e Muster fannen, déi se inspiréieren, dann testen déi selwecht Donnéeën fir déi selwecht Musterd'Resultat ze posten, mat engem legitimen p-Wäert oder zwee, nieft hirer Theorie. Doduerch leien se Iech (an eventuell och selwer). Dëse p-Wäert ass egal wann Dir net un Är Hypothese hält. ze wéi Dir Är Donnéeën kuckt. Charlatans imitéieren d'Aktiounen vun Analysten a Statistiker ouni d'Grënn ze verstoen. Als Resultat kritt dat ganzt Gebitt vun der Datewëssenschaft e schlechte Rap.

Richteg Statistiker zéien ëmmer hir eege Conclusiounen

Dank dem bal mysteschen Ruff vun Statistiker fir rigoréis Begrënnung ass d'Quantitéit u gefälschte Informatioun an der Data Science op engem All-Time High. Et ass einfach ze fuddelen an net gefaangen ze ginn, besonnesch wann dat onverdächtegt Affer mengt datt et alles ëm Equatiounen an Daten ass. En Dataset ass en Dataset, richteg? Nee. Et ass wichteg wéi Dir et benotzt.

Glécklecherweis braucht Dir nëmmen een Hiweis fir d'Charlatanen ze fangen: si "entdecken Amerika no der Tatsaach erëm." Phänomener erëmentdecken, déi se scho wëssen, sinn an den Donnéeën präsent.

Am Géigesaz zu de Charlatanen, sinn gutt Analysten oppe-minded a verstinn datt inspiréierend Iddien vill verschidden Erklärungen hunn. Zur selwechter Zäit definéieren gutt Statistiker hir Conclusiounen virsiichteg ier se se zéien.

Analysten sinn befreit vun Haftung ... soulaang se net iwwer hir Donnéeë goen. Wa se versicht ginn eppes ze behaapten wat se net gesinn hunn, ass dat eng aner Aarbecht. Si sollen als Analyst "d'Schong ausdoen" an d'Schong vun engem Statistiker "änneren". Iwwerhaapt, egal wéi den offiziellen Jobtitel, gëtt et keng Regel déi seet datt Dir net béid Handwierker studéiere kënnt wann Dir wëllt. Einfach se net duercherneen bréngen.

Just well Dir gutt an der Statistik sidd, heescht net datt Dir gutt an der Analyse sidd, a vice versa. Wann een probéiert Iech anescht ze soen, sollt Dir op Är Wuecht sinn. Wann dës Persoun Iech seet datt Dir erlaabt eng statistesch Inferenz iwwer d'Donnéeën ze zéien déi Dir scho studéiert hutt, ass dëst e Grond fir duebel virsiichteg ze sinn.

Bizarre Erklärungen

Wann Dir Date-Charlatanen an der Wëld beobachtet, mierkt Dir datt se gär Fantasiegeschichten ausmaachen fir observéiert Daten ze "erklären". Wat méi akademesch, wat besser. Et ass egal, datt dës Geschichte retroaktiv ugedriwwe ginn.

Wann d'Charlatanen dat maachen - loosst mech generéis mat Wierder sinn - léien se. Kee Betrag vun Equatiounen oder schéine Konzepter maachen d'Tatsaach aus datt se null Beweis vun hire Versiounen ugebueden hunn. Sidd net iwwerrascht wéi ongewéinlech hir Erklärungen sinn.

Dëst ass d'selwecht wéi Är "psychesch" Fäegkeeten ze demonstréieren andeems Dir fir d'éischt d'Kaarten an Ären Hänn kuckt, an dann virauszesoen wat Dir hält ... wat Dir hält. Et ass eng Réckbléck Bias, an den Datewëssenschaftler Beruff ass mat him gestoppt.

Wéi erkennt een e Charlatan aus Data Science?

Analysten soen: "Dir sidd just mat der Kinnigin vun Diamanten gaang." Statistiker soen: "Ech hunn meng Hypothesen op dësem Stéck Pabeier geschriwwen ier mer ugefaang hunn. Loosst eis spillen, kuckt e puer Donnéeën a kuckt ob ech richteg sinn." D'Charlataner soen: "Ech wousst, datt Dir déi Kinnigin vun Diamanten wärt ginn, well ..."

Datepartitionéierung ass de schnelle Fix deen jidderee brauch.

Wann et net vill Donnéeën ass, musst Dir tëscht Statistiken an Analyse wielen, awer wann et méi wéi genuch Donnéeën ass, gëtt et eng super Geleeënheet fir Analyse ze benotzen ouni ze fuddelen и Statistiken. Dir hutt de perfekte Schutz géint Charlatanen - dëst ass d'Trennung vun Daten an, menger Meenung no, dat ass déi mächtegst Iddi an der Data Science.

Fir Iech selwer vu Charlatanen ze schützen, alles wat Dir maache musst ass sécherzestellen datt Dir e puer Testdaten aus hire virwëtzeg Aen halen an dann alles anescht als Analys behandelen. Wann Dir eng Theorie begéint déi Dir riskéiert ze akzeptéieren, benotzt se fir d'Situatioun ze bewäerten an dann Är geheim Testdaten z'entdecken fir z'iwwerpréiwen datt d'Theorie net Nonsens ass. Et ass sou einfach!

Wéi erkennt een e Charlatan aus Data Science?
Vergewëssert Iech datt keen erlaabt ass d'Testdaten während der Exploratiounsphase ze gesinn. Fir dëst ze maachen, bleift un d'Fuerschungsdaten. Testdaten sollen net fir Analyse benotzt ginn.

Dëst ass e grousse Schrëtt erop vun deem wat d'Leit an der Ära vu "klengen Donnéeën" gewinnt sinn, wou Dir musst erkläre wéi Dir wësst wat Dir wësst, fir endlech d'Leit ze iwwerzeegen datt Dir wierklech eppes weess.

Déi selwecht Regele fir ML / AI applizéieren

E puer Charlatanen, déi sech als ML/AI Experten stellen, sinn och einfach ze gesinn. Dir fangt se op déiselwecht Manéier wéi Dir all aner schlechten Ingenieur géift fänken: d'"Léisungen" déi se probéieren stänneg ze bauen falen. E fréie Warnschëld ass e Mangel un Erfahrung mat Industriestandardsproochen a Programméierungsbibliothéiken.

Awer wéi ass et mat Leit déi Systemer bauen déi schéngen ze schaffen? Wéi wësst Dir ob eppes verdächteges lass ass? Déi selwecht Regel gëllt! De Charlatan ass e béise Charakter deen Iech weist wéi gutt de Modell geschafft huet ... op déiselwecht Daten déi se benotzt hunn fir de Modell ze kreéieren.

Wann Dir en onheemlech komplexe Maschinnléieresystem gebaut hutt, wéi wësst Dir wéi gutt et ass? Dir wësst net bis Dir hir weist datt si mat neien Donnéeën schafft, déi se nach net gesinn huet.

Wann Dir d'Donnéeën virum Prognose gesinn hutt, ass et onwahrscheinlech dat virdrungesot.

Wann Dir genuch Donnéeën hutt fir opzedeelen, musst Dir d'Schéinheet vun Äre Formulen net opruffen fir e Projet ze justifiéieren (eng al moudesch Gewunnecht, déi ech iwwerall gesinn, net nëmmen an der Wëssenschaft). Dir kënnt soen: "Ech weess datt et funktionnéiert well ech en Datesaz huelen kann deen ech nach net gesinn hunn a genau virauszesoen wat do geschitt ... an ech wäert richteg sinn. Ëmmer erëm."

Testen Äre Modell / Theorie géint nei Donnéeën ass déi bescht Basis fir Vertrauen.

Ech toleréiere net daten charlatans. Et ass mir egal ob Är Meenung op verschiddene Chips baséiert. Ech sinn net beandrockt vun der Schéinheet vun den Erklärungen. Weist mir datt Är Theorie / Modell funktionnéiert (a weider funktionnéiert) op enger Rei vun neien Donnéeën déi Dir nach ni gesinn hutt. Dëst ass de richtege Test vun der Stäerkt vun Ärer Meenung.

Kontaktéiert Datenwëssenschaftler

Wann Dir wëllt eescht geholl ginn vu jidderengem deen dësen Humor versteet, stoppen sech hannert ausgefalene Equatiounen ze verstoppen fir Är perséinlech Viraussetzung lieweg ze halen. Weist wat Dir hutt. Wann Dir wëllt datt déi, déi "et kréien" Är Theorie/Modell als méi wéi nëmmen inspiréierend Poesie gesinn, hues de Courage fir e grousst Bild ze weisen wéi gutt et op engem fuschneie Datesaz leeft ... virun Zeien!

Appel un d'Leader

Refuséiert all "Iddien" iwwer daten eescht ze huelen bis se getest goufen nei daten. Wëllt Dir net den Effort maachen? Bleift un d'Analytik, awer vertrau net op dës Iddien - si sinn onzouverlässeg a goufen net fir Zouverlässegkeet getest. Och wann eng Organisatioun Daten am Iwwerfloss huet, gëtt et keen Nodeel fir d'Trennung d'Fundament vun der Wëssenschaft ze maachen an se um Infrastrukturniveau z'erhalen andeems se den Zougang zu Testdaten fir Statistike kontrolléieren. Dëst ass e super Wee fir Versich ze stoppen fir Iech ze narren!

Wann Dir méi Beispiller vu Charlatanen wëllt gesinn, déi eppes Schlechtes plangen - dëst ass e super Twitter thread.

Resultater

Wann d'Daten ze kleng sinn fir ze trennen, probéiert nëmmen de Charlatan d'Inspiratioun strikt ze verfollegen, Amerika retrospektiv z'entdecken, mathematesch Phänomener z'entdecken, déi scho bekannt sinn an den Donnéeën, an d'Iwwerraschung statistesch bedeitend ze nennen. Dëst ënnerscheet se vum oppene-minded Analyst, deen mat Inspiratioun beschäftegt an de virsiichtege Statistiker, deen Beweiser ubitt beim Prognosen.

Wann et vill Daten ass, gitt an d'Gewunnecht daten ze deelen fir datt Dir dat Bescht vu béide Welten hutt! Gitt sécher datt Dir Analyse a Statistike getrennt maacht fir getrennten Ënnerdeeler vum ursprénglechen Datestapel.

  • Analysten bitt Iech Inspiratioun a Perspektiv.
  • Statistiken bidden Iech rigoréis Testen.
  • Charlatans bitt Iech e verdrësselten Réckbléck, deen sech als Analytik plus Statistike mécht.

Vläicht, nodeems Dir den Artikel gelies hutt, hutt Dir de Gedanken "sinn ech e Charlatan"? Dëst ass gutt. Et ginn zwou Méiglechkeeten vun dësem Gedanke lass ze ginn: éischtens, kuckt zréck, kuckt wat Dir gemaach hutt, ob Är Aarbecht mat Daten praktesch Virdeeler bruecht huet. An zweetens, Dir kënnt nach ëmmer un Äre Qualifikatiounen schaffen (déi sécher net iwwerflësseg wäerte sinn), besonnesch well mir eise Schüler praktesch Fäegkeeten a Wëssen ginn, déi et hinnen erlaben, richteg Datewëssenschaftler ze ginn.

Wéi erkennt een e Charlatan aus Data Science?

Méi Coursen

Liest méi

Source: will.com

Setzt e Commentaire