Kuinka tunnistaa datatieteen sarlataani?

Kuinka tunnistaa datatieteen sarlataani?
Olet ehkä kuullut analyytikoista, koneoppimisesta ja tekoälyn asiantuntijoista, mutta oletko kuullut niistä, joille maksetaan kohtuuttomasti liikaa? Tavata datakarlataani! Nämä tuottoisten työpaikkojen houkuttelemat hakkerit antavat todellisille datatutkijoille huonon maineen. Materiaalissa ymmärrämme, kuinka tällaiset ihmiset tuodaan puhtaaseen veteen.

Datasharlataaneja on kaikkialla

Datasharlataanit ovat niin hyviä piiloutumaan näkyville, että voit olla yksi heistäsitä edes huomaamatta. On mahdollista, että organisaatiosi on suojellut näitä ovelia tyyppejä vuosia, mutta hyvä uutinen on, että heidät on helppo tunnistaa, jos tiedät mitä etsiä.
Ensimmäinen varoitusmerkki on sen ymmärtämisen puute analytiikka ja tilastot ovat hyvin erilaisia ​​​​tieteenaloja. Selitän tämän tarkemmin.

Eri tieteenaloja

Tilastotyöntekijät koulutetaan tekemään johtopäätöksiä siitä, mikä ylittää heidän tietonsa, ja analyytikot koulutetaan tutkimaan tietojoukon sisältöä. Toisin sanoen analyytikot tekevät johtopäätöksiä siitä, mitä heidän tiedoissaan on, ja tilastotieteilijät tekevät johtopäätökset siitä, mitä tiedoissa ei ole. Analyytikot auttavat sinua esittämään hyviä kysymyksiä (tekemään hypoteeseja), ja tilastotieteilijät auttavat sinua saamaan hyviä vastauksia (testaamaan hypoteesiasi).

On myös outoja hybridirooleja, joissa ihminen yrittää istua kahdella tuolilla... Miksei? Datatieteen perusperiaate: jos olet tekemisissä epävarmuuden kanssa, et voi käyttää sama tietopiste hypoteeseja ja testausta varten. Kun dataa on rajoitetusti, epävarmuus pakottaa valitsemaan tilastojen tai analytiikan välillä. selitys täällä.

Ilman tilastoja olet jumissa etkä pysty ymmärtämään, pitääkö juuri muotoilemasi tuomion paikkansa, ja ilman analyysiä liikut sokeasti, ja sinulla on vähän mahdollisuuksia kesyttää tuntematonta. Tämä on vaikea valinta.

Charlatanin tie ulos tästä sotkusta on jättää se huomiotta ja sitten teeskennellä olevansa yllättynyt siitä, mitä yhtäkkiä tapahtuu. Tilastollisten hypoteesien testauksen taustalla oleva logiikka tiivistyy kysymykseen siitä, yllättävätkö tiedot meidät tarpeeksi muuttaaksemme mielemme. Kuinka voimme yllättyä tiedoista, jos olemme jo nähneet sen?

Aina kun sarlataanit löytävät kuvion, he inspiroituvat ja tarkistavat sitten samat tiedot varten sama kuvio, julkaista tuloksen oikeutetulla p-arvolla tai kahdella teoriansa vieressä. Siten he valehtelevat sinulle (ja ehkä myös itselleen). Tällä p-arvolla ei ole väliä, jos et pidä kiinni hypoteesistasi до miten tarkastelit tietojasi. Charlataanit jäljittelevät analyytikoiden ja tilastotieteilijöiden toimintaa ymmärtämättä syitä. Tämän seurauksena koko datatieteen ala saa huonon maineen.

Todelliset tilastotieteilijät tekevät aina omat johtopäätöksensä

Tilastotyöntekijöiden lähes mystisen maineen ankaran päättelyn ansiosta valheellisen tiedon määrä Data Sciencessä on kaikkien aikojen ennätys. On helppo pettää eikä jäädä kiinni, varsinkin jos pahaa aavistamaton uhri luulee, että kyse on yhtälöistä ja tiedoista. Tietojoukko on tietojoukko, eikö niin? Ei. Sillä on väliä, kuinka käytät sitä.

Onneksi tarvitset vain yhden vihjeen saadaksesi sarlataanit kiinni: he ovat "löydämässä Amerikkaa takautuvasti". Löytämällä uudelleen ilmiöitä, joiden he tietävät jo olevan tiedoissa.

Toisin kuin sarlataanit, hyvät analyytikot ovat ennakkoluulottomia ja ymmärtävät, että inspiroivilla ideoilla voi olla monia erilaisia ​​selityksiä. Samaan aikaan hyvät tilastotieteilijät määrittelevät johtopäätöksensä huolellisesti ennen kuin tekevät ne.

Analyytikot ovat vapautettuja vastuusta... niin kauan kuin he pysyvät tietojensa sisällä. Jos heillä on houkutus väittää jotain, mitä he eivät nähneet, se on aivan toinen tehtävä. Heidän pitäisi riisua analyytikon kengät ja pukea tilastotieteilijän kengät jalkaan. Loppujen lopuksi, riippumatta siitä, mikä virallinen ammattinimike on, ei ole sääntöä, jonka mukaan et voi opiskella molempia ammatteja, jos haluat. Älä vain sekoita heitä.

Se, että olet hyvä tilastoissa, ei tarkoita, että olet hyvä analytiikassa ja päinvastoin. Jos joku yrittää kertoa sinulle toisin, sinun tulee olla varovainen. Jos tämä henkilö kertoo sinulle, että on sallittua tehdä tilastollisia johtopäätöksiä jo tutkimistasi tiedoista, tämä on kaksinkertainen syy olla varovainen.

Outoja selityksiä

Kun tarkkailet datasarlataaneja luonnossa, huomaat, että he rakastavat keksiä fantastisia tarinoita "selittää" havainnoimaansa dataa. Mitä akateemisempi, sen parempi. Sillä ei ole väliä, että nämä tarinat on mukautettu jälkikäteen.

Kun sharlataanit tekevät tämän - sanon selväksi - he valehtelevat. Mikään yhtälöiden tai kuvitteellisten käsitteiden määrä ei voi korvata sitä tosiasiaa, että ne tarjosivat nollatodisteita teorioistaan. Älä hämmästy siitä, kuinka epätavallisia heidän selityksensä ovat.

Tämä on sama kuin "psyykkisten" kykyjesi osoittaminen katsomalla ensin käsissäsi olevia kortteja ja sitten ennustamalla, mitä pidät kädessäsi... mitä pidät. Tämä on jälkiviisautta, ja datatieteen ammatti on täynnä sitä.

Kuinka tunnistaa datatieteen sarlataani?

Analyytikot sanovat: "Sinä menit juuri timanttien kuningattaren kanssa." Tilastomiehet sanovat: ”Kirjoitin hypoteesini tälle paperille ennen kuin aloitimme. Leikitään ja katsotaan tietoja ja katsotaan, olenko oikeassa." Charlataanit sanovat: "Tiesin, että sinusta tulee tämä timanttien kuningatar, koska..."

Tietojen jakaminen on nopea ratkaisu, jota kaikki tarvitsevat.

Kun dataa ei ole paljon, on valittava tilastojen ja analytiikan välillä, mutta kun dataa on enemmän kuin tarpeeksi, on loistava mahdollisuus käyttää analytiikkaa ilman petosta. и tilastot. Sinulla on täydellinen suoja karlataneja vastaan ​​- tietojen erottelu, ja mielestäni tämä on Data Sciencen tehokkain idea.

Suojautuaksesi sarlataneilta sinun tarvitsee vain pitää osa testitiedoista poissa heidän uteliailta silmiltä ja käsitellä loput analytiikkana. Kun törmäät teoriaan, jonka olet vaarassa hyväksyä, käytä sitä tilanteen arvioimiseen ja paljasta sitten salaiset testitietosi varmistaaksesi, ettei teoria ole hölynpölyä. Se on niin yksinkertaista!

Kuinka tunnistaa datatieteen sarlataani?
Varmista, että kukaan ei saa tarkastella testitietoja etsintävaiheen aikana. Voit tehdä tämän pitäytymällä tutkimustiedoissa. Testitietoja ei tule käyttää analyysiin.

Tämä on iso askel eteenpäin verrattuna siihen, mihin ihmiset ovat tottuneet "pienen datan" aikakaudella, jolloin sinun on selitettävä, kuinka tiedät sen, mitä tiedät, jotta voit vihdoin vakuuttaa ihmiset siitä, että todella tiedät jotain.

Sovella samoja sääntöjä ML/AI:hen

Jotkut ML/AI-asiantuntijoina esiintyvät sarlataanit on myös helppo havaita. Saat heidät kiinni samalla tavalla kuin minkä tahansa muun huonon insinöörin: "ratkaisut", joita he yrittävät rakentaa, epäonnistuvat jatkuvasti. Varhainen varoitusmerkki on kokemuksen puute alan standardiohjelmointikielistä ja kirjastoista.

Mutta entä ihmiset, jotka luovat järjestelmiä, jotka näyttävät toimivan? Mistä tietää, jos jotain epäilyttävää tapahtuu? Sama sääntö pätee! Charlatan on synkkä hahmo, joka näyttää kuinka hyvin malli toimi... samoilla tiedoilla, joita he käyttivät mallin luomiseen.

Jos olet rakentanut järjettömän monimutkaisen koneoppimisjärjestelmän, mistä tiedät, kuinka hyvä se on? Et tiedä ennen kuin näytät hänen työskentelevän uuden datan kanssa, jota hän ei ole nähnyt ennen.

Kun näit tiedot ennen ennustamista, se on epätodennäköistä ennenkertova

Kun sinulla on tarpeeksi dataa erotettavaksi, sinun ei tarvitse lainata kaavojesi kauneutta oikeuttaaksesi projektin (vanha tapa, jonka näen kaikkialla, ei vain tieteessä). Voit sanoa: "Tiedän, että se toimii, koska voin ottaa tietojoukon, jota en ole ennen nähnyt, ja ennustaa tarkalleen, mitä siellä tapahtuu... ja olen oikeassa. Uudestaan ​​ja uudestaan".

Mallin/teorian testaaminen uutta tietoa vastaan ​​on paras luottamuksen perusta.

En siedä datasharlataaneja. En välitä, jos mielipiteesi perustuu erilaisiin temppuihin. Selitysten kauneus ei ole minuun vaikuttunut. Näytä minulle, että teoriasi/mallisi toimii (ja toimii edelleen) koko joukon uusia tietoja, joita et ole koskaan ennen nähnyt. Tämä on mielipiteesi vahvuuden todellinen testi.

Yhteydenotto datatieteen asiantuntijoihin

Jos haluat, että kaikki, jotka ymmärtävät tämän huumorin, ottavat sinut vakavasti, lakkaa piiloutumasta hienojen yhtälöiden taakse henkilökohtaisten ennakkoluulojen tukemiseksi. Näytä minulle, mitä sinulla on. Jos haluat niiden, jotka ymmärtävät sen, pitävän teoriaasi/malliasi enemmän kuin vain inspiroivana runoudena, uskalla esittää suurenmoinen esitys siitä, kuinka hyvin se toimii täysin uudella datalla... todistajien edessä !

Veto johtajiin

Kieltäytyä ottamasta vakavasti dataa koskevia "ideoita", ennen kuin ne on testattu uusi tiedot. Etkö halua ponnistella? Pysy analytiikassa, mutta älä luota näihin ideoihin – ne ovat epäluotettavia, eikä niiden luotettavuutta ole testattu. Lisäksi, kun organisaatiolla on runsaasti tietoa, ei ole haittaa tehdä erottelusta tieteen perustavanlaatuinen ja ylläpitää sitä infrastruktuuritasolla valvomalla pääsyä tilastojen testidataan. Tämä on loistava tapa estää ihmisiä yrittämästä huijata sinua!

Jos haluat nähdä lisää esimerkkejä sarlataaneista, jotka eivät ole hyviä - Tässä on ihana ketju Twitterissä.

Tulokset

Kun erotettavaa dataa on liian vähän, vain sarlataani yrittää tiukasti seurata inspiraatiota löytämällä Amerikan takautuvasti, matemaattisesti uudelleen löytäen aineistossa jo tiedossa olevia ilmiöitä ja kutsumalla yllätystä tilastollisesti merkittäväksi. Tämä erottaa heidät ennakkoluulottomasta analyytikosta, joka käsittelee inspiraatiota, ja huolellisesta tilastotieteilijästä, joka tarjoaa todisteita ennusteita tehdessään.

Kun dataa on paljon, ota tapana erotella tiedot, jotta saat molempien maailmojen parhaat puolet! Muista tehdä analytiikka ja tilastot erikseen alkuperäisen tietokasan yksittäisille osajoukoille.

  • Analyytikot tarjota sinulle inspiraatiota ja ennakkoluulottomuutta.
  • Tilastot tarjota sinulle tiukkaa testausta.
  • Charlataanit tarjoaa sinulle kieroutuneen jälkikäteen, joka teeskentelee olevansa analytiikkaa ja tilastoja.

Ehkä artikkelin lukemisen jälkeen sinulla on ajatus "Olenko minä šarlataani"? Tämä on hyvä. Tästä ajatuksesta pääsee eroon kahdella tavalla: ensin katsoa taaksepäin, katsoa mitä olet tehnyt, onko tiedon parissa työstäsi ollut käytännön hyötyä. Ja toiseksi, voit edelleen työstää pätevyyttäsi (joka ei varmasti ole tarpeetonta), varsinkin kun annamme opiskelijoillemme käytännön taitoja ja tietoja, joiden avulla heistä voi tulla todellisia datatieteilijöitä.

Kuinka tunnistaa datatieteen sarlataani?

Lisää kursseja

Lue lisää

Lähde: will.com

Lisää kommentti