Hoe om 'n charlatan van Data Science te herken?

Hoe om 'n charlatan van Data Science te herken?
Jy het dalk gehoor van ontleders, masjienleer- en kunsmatige intelligensie-spesialiste, maar het jy gehoor van diegene wat onregverdig te veel betaal word? Ontmoet data charlatan! Hierdie hacks, gelok deur winsgewende werksgeleenthede, gee regte datawetenskaplikes 'n slegte naam. In die materiaal verstaan ​​ons hoe om sulke mense na skoon water te bring.

Data-charlatans is oral

Data-charlatans is so goed om in die oog te kruip dat jy kan wees een van hullesonder om dit eers te besef. Die kans is goed dat jou organisasie al jare lank hierdie skelm ouens huisves, maar die goeie nuus is dat hulle maklik is om te identifiseer as jy weet waarna om te kyk.
Die eerste waarskuwingsteken is 'n gebrek aan begrip daarvan analise en statistiek is baie verskillende dissiplines. Ek sal dit verder verduidelik.

Verskillende dissiplines

Statistici word opgelei om gevolgtrekkings te maak oor wat verder gaan as hul data, ontleders word opgelei om die inhoud van 'n datastel te ondersoek. Met ander woorde, ontleders maak gevolgtrekkings oor wat in hul data is, en statistici maak gevolgtrekkings oor wat nie in die data is nie. Ontleders help jou om goeie vrae te vra (hipoteses te maak), en statistici help jou om goeie antwoorde te kry (toets jou hipoteses).

Daar is ook vreemde basterrolle waar 'n persoon op twee stoele probeer sit... Hoekom nie? Basiese beginsel van datawetenskap: as jy met onsekerheid te doen het, kan jy nie gebruik nie dieselfde datapunt vir hipoteses en toetsing. Wanneer data beperk is, dwing onsekerheid 'n keuse tussen statistiek of analise af. verduideliking hier.

Sonder statistieke sal jy vashaak en nie in staat wees om te verstaan ​​of die oordeel wat jy sopas geformuleer het, standhou nie, en sonder ontleding beweeg jy blindelings, met min kans om die onbekende te tem. Dit is 'n moeilike keuse.

Die charlatan se uitweg uit hierdie gemors is om dit te ignoreer en dan voor te gee dat hy verras is deur wat skielik opduik. Die logika agter die toets van statistiese hipoteses kom neer op die vraag of die data ons genoeg verras om ons gedagtes te verander. Hoe kan ons verras word deur data as ons dit reeds gesien het?

Wanneer charlatans 'n patroon vind, word hulle geïnspireer, en kyk dan dieselfde data vir dieselfde patroon, om die resultaat te publiseer met 'n wettige p-waarde of twee, langs hul teorie. Hulle lieg dus vir jou (en miskien ook vir hulself). Hierdie p-waarde maak nie saak as jy nie by jou hipotese hou nie aan hoe jy jou data bekyk het. Charlatans boots die optrede van ontleders en statistici na sonder om die redes te verstaan. Gevolglik kry die hele veld van datawetenskap 'n slegte reputasie.

Ware statistici maak altyd hul eie gevolgtrekkings

Danksy die byna mistieke reputasie van statistici vir hul streng redenasie, is die hoeveelheid vals inligting in Data Science op 'n alledaagse hoogtepunt. Dit is maklik om te bedrieg en nie gevang te word nie, veral as die niksvermoedende slagoffer dink dit gaan alles oor vergelykings en data. 'n Datastel is 'n datastel, reg? Geen. Dit maak saak hoe jy dit gebruik.

Gelukkig het jy net een leidraad nodig om die charlatans te vang: hulle “ontdek Amerika terugwerkend”. Deur verskynsels te herontdek wat hulle reeds weet in die data aanwesig is.

In teenstelling met charlatans, is goeie ontleders oopkop en verstaan ​​dat inspirerende idees baie verskillende verklarings kan hê. Terselfdertyd definieer goeie statistici hul gevolgtrekkings versigtig voordat hulle dit maak.

Ontleders is vrygestel van aanspreeklikheid... solank hulle binne die bestek van hul data bly. As hulle in die versoeking kom om iets te eis wat hulle nie gesien het nie, is dit 'n heel ander werk. Hulle moet die ontleder se skoene uittrek en die statistikus se skoene aantrek. Na alles, maak nie saak wat die amptelike postitel is nie, daar is geen reël wat sê jy kan nie albei beroepe studeer as jy wil nie. Moet hulle net nie verwar nie.

Net omdat jy goed is met statistiek, beteken dit nie dat jy goed is met analise nie, en omgekeerd. As iemand jou anders probeer vertel, moet jy versigtig wees. As hierdie persoon vir jou sê dat dit toelaatbaar is om statistiese gevolgtrekkings te maak uit data wat jy reeds bestudeer het, is dit 'n rede om dubbeld versigtig te wees.

Bisarre verduidelikings

Wanneer jy data-charlatans in die natuur waarneem, sal jy agterkom dat hulle daarvan hou om fantastiese stories op te maak om die data wat hulle waarneem te “verduidelik”. Hoe meer akademies, hoe beter. Dit maak nie saak dat hierdie stories agterna aangepas word nie.

Wanneer charlatans dit doen – laat ek duidelik wees – lieg hulle. Geen hoeveelheid vergelykings of fancy konsepte kan opmaak vir die feit dat hulle geen bewys van hul teorieë gelewer het nie. Moenie verbaas wees oor hoe ongewoon hul verduidelikings is nie.

Dit is dieselfde as om jou "psigiese" vermoëns te demonstreer deur eers na die kaarte in jou hande te kyk en dan te voorspel wat jy vashou...wat jy vashou. Dit is agteraf-vooroordeel, en die datawetenskap-professie is tot die rand vol daarmee.

Hoe om 'n charlatan van Data Science te herken?

Ontleders sê: "Jy het pas saam met die Koningin van Diamante gegaan." Die statistici sê: “Ek het my hipoteses op hierdie stuk papier neergeskryf voordat ons begin het. Kom ons speel rond en kyk na data en kyk of ek reg is.” Charlatans sê: "Ek het geweet jy gaan hierdie Koningin van Diamante word omdat ..."

Datadeling is die vinnige oplossing wat almal nodig het.

Wanneer daar nie baie data is nie, moet jy kies tussen statistiek en analise, maar wanneer daar meer as genoeg data is, is daar 'n wonderlike geleentheid om analise sonder misleiding te gebruik и statistieke. Jy het die perfekte verdediging teen charlatans – dataskeiding en, na my mening, is dit die kragtigste idee in Data Science.

Om jouself te beskerm teen charlatans, al wat jy hoef te doen, is om seker te maak dat jy sekere toetsdata buite bereik van hul gierige oë hou, en dan die res as ontleding te hanteer. Wanneer jy 'n teorie teëkom wat jy die risiko loop om te aanvaar, gebruik dit om die situasie te evalueer, en onthul dan jou geheime toetsdata om seker te maak dat die teorie nie nonsens is nie. Dit is so eenvoudig!

Hoe om 'n charlatan van Data Science te herken?
Maak seker dat niemand toegelaat word om die toetsdata tydens die verkenningsfase te bekyk nie. Om dit te doen, hou by navorsingsdata. Toetsdata moet nie vir ontleding gebruik word nie.

Dit is 'n groot stap van waaraan mense gewoond is in die "klein data"-era, waar jy moet verduidelik hoe jy weet wat jy weet om uiteindelik mense te oortuig dat jy werklik iets weet.

Pas dieselfde reëls toe op ML/KI

Sommige charlatans wat hulle as ML/KI-kundiges voordoen, is ook maklik om raak te sien. Jy sal hulle vang op dieselfde manier as wat jy enige ander slegte ingenieur sal vang: die "oplossings" wat hulle probeer bou, misluk voortdurend. ’n Vroeë waarskuwingsteken is ’n gebrek aan ervaring met industriestandaardprogrammeertale en biblioteke.

Maar wat van die mense wat stelsels skep wat lyk of hulle werk? Hoe weet jy of iets verdags aan die gang is? Dieselfde reël geld! Die Charlatan is 'n sinistere karakter wat jou wys hoe goed die model gewerk het ... op dieselfde data wat hulle gebruik het om die model te skep.

As jy 'n ongelooflik komplekse masjienleerstelsel gebou het, hoe weet jy hoe goed dit is? Jy sal nie weet voordat jy haar wys werk met nuwe data wat sy nog nie voorheen gesien het nie.

As jy die data gesien het voor voorspelling - dit is onwaarskynlik voorvertel

Wanneer jy genoeg data het om te skei, hoef jy nie die skoonheid van jou formules aan te haal om die projek te regverdig nie ('n outydse gewoonte wat ek oral sien, nie net in die wetenskap nie). Jy kan sê: “Ek weet dit werk, want ek kan ’n datastel vat wat ek nog nie voorheen gesien het nie en presies voorspel wat daar gaan gebeur ... en ek sal reg wees. Weer en weer".

Om jou model/teorie teen nuwe data te toets, is die beste basis vir vertroue.

Ek duld nie data-charlatans nie. Ek gee nie om of jou mening op verskillende truuks gebaseer is nie. Ek is nie beïndruk deur die skoonheid van die verduidelikings nie. Wys my dat jou teorie/model werk (en aanhou werk) op 'n hele klomp nuwe data wat jy nog nooit vantevore gesien het nie. Dit is die ware toets van die sterkte van jou mening.

Kontak Data Science Experts

As jy ernstig opgeneem wil word deur almal wat hierdie humor verstaan, hou op om agter spoggerige vergelykings weg te kruip om persoonlike vooroordele te ondersteun. Wys my wat jy het. As jy wil hê dat diegene wat dit "kry" jou teorie/model as meer as net inspirerende poësie beskou, hou die moed om 'n groot vertoning te gee van hoe goed dit werk op 'n heeltemal nuwe stel data ... voor getuies !

Doen 'n beroep op leiers

Weier om enige "idees" oor die data ernstig op te neem totdat dit getoets is nuut data. Nie lus om moeite te doen nie? Hou by die ontledings, maar moenie op hierdie idees staatmaak nie - hulle is onbetroubaar en is nie vir betroubaarheid getoets nie. Verder, wanneer 'n organisasie data in oorvloed het, is daar geen nadeel om skeiding fundamenteel in die wetenskap te maak en dit op infrastruktuurvlak te handhaaf deur toegang tot toetsdata vir statistieke te beheer nie. Dit is 'n goeie manier om te keer dat mense jou probeer flous!

As jy meer voorbeelde van charlatans tot niks wil sien nie - hier is 'n wonderlike draad op Twitter.

Resultate van

Wanneer daar te min data is om te skei, probeer net 'n charlatan om inspirasie streng te volg deur Amerika retrospektief te ontdek, verskynsels wiskundig te herontdek wat reeds in die data is, en die verrassing statisties betekenisvol te noem. Dit onderskei hulle van die oopkop analis, wat met inspirasie omgaan, en die noukeurige statistikus, wat bewyse lewer wanneer voorspellings gemaak word.

As daar baie data is, maak die gewoonte om die data te skei sodat jy die beste van albei wêrelde kan hê! Maak seker dat jy analise en statistieke afsonderlik doen vir individuele substelle van die oorspronklike stapel data.

  • Ontleders bied jou inspirasie en oopkop.
  • Statistiek bied u streng toetsing aan.
  • Charlatans bied jou 'n verdraaide terugblik wat voorgee om analise plus statistiek te wees.

Miskien sal jy, nadat jy die artikel gelees het, die gedagte kry "is ek 'n charlatan"? Dit is goed. Daar is twee maniere om van hierdie gedagte ontslae te raak: kyk eers terug, kyk wat jy gedoen het, of jou werk met data praktiese voordeel gebring het. En tweedens kan jy steeds aan jou kwalifikasies werk (wat beslis nie oorbodig sal wees nie), veral omdat ons ons studente praktiese vaardighede en kennis gee wat hulle in staat stel om ware datawetenskaplikes te word.

Hoe om 'n charlatan van Data Science te herken?

Meer kursusse

Lees meer

Bron: will.com

Voeg 'n opmerking