Kuidas ära tunda andmeteaduse šarlatani?

Kuidas ära tunda andmeteaduse šarlatani?
Võib-olla olete kuulnud analüütikutest, masinõppe ja tehisintellekti spetsialistidest, kuid kas olete kuulnud neist, kes on ebaõiglaselt üle makstud? Saage tuttavaks andmete šarlatan! Need häkkimised, mida meelitavad tulusad töökohad, panevad tõelistele andmeteadlastele halva maine. Materjalis mõistame, kuidas selliseid inimesi puhta vee juurde tuua.

Andmete šarlatanid on kõikjal

Andmešarlatanid oskavad end nähtavas kohas peita nii hästi, et sa suudad olla üks neistisegi aru saamata. On tõenäoline, et teie organisatsioon on neid alatuid mehi juba aastaid varjanud, kuid hea uudis on see, et neid on lihtne tuvastada, kui teate, mida otsida.
Esimene hoiatusmärk on selle mõistmise puudumine analüütika ja statistika on väga erinevad teadusharud. Selgitan seda lähemalt.

Erinevad distsipliinid

Statistikud on koolitatud tegema järeldusi selle kohta, mis ulatub nende andmetest kaugemale, analüütikuid õpetatakse uurima andmekogumi sisu. Teisisõnu, analüütikud teevad järeldusi selle kohta, mis nende andmetes on, ja statistikud selle kohta, mida andmetes pole. Analüütikud aitavad teil esitada häid küsimusi (püstitada hüpoteese) ja statistikud aitavad teil saada häid vastuseid (testida oma hüpoteese).

On ka veidraid hübriidrolle, kus inimene üritab kahel toolil istuda... Miks mitte? Andmeteaduse põhiprintsiip: kui tegemist on ebakindlusega, ei saa te seda kasutada sama hüpoteeside ja testimise andmepunkt. Kui andmed on piiratud, sunnib ebakindlus valima statistika või analüütika vahel. Seletus siin.

Ilma statistikata jääte ummikusse ega saa aru, kas äsja sõnastatud kohtuotsus peab paika, ning ilma analüüsita liigute pimesi, kellel on vähe võimalusi tundmatut taltsutada. See on raske valik.

Šarlatani väljapääs sellest segadusest on seda ignoreerida ja seejärel teeselda, et teda üllatab see, mis ootamatult ilmneb. Statistiliste hüpoteeside testimise loogika taandub küsimusele, kas andmed üllatavad meid piisavalt, et meelt muuta. Kuidas saame olla üllatunud andmete üle, kui oleme neid juba näinud?

Kui šarlatanid leiavad mustri, saavad nad inspiratsiooni ja seejärel kontrollivad samad andmed eest sama muster, et avaldada tulemus oma teooria kõrval õigustatud p-väärtusega või kahega. Seega nad valetavad teile (ja võib-olla ka endale). Sellel p-väärtusel pole tähtsust, kui te oma hüpoteesist kinni ei pea kuni kuidas te oma andmeid vaatasite. Šarlatanid jäljendavad analüütikute ja statistikute tegevust põhjustest aru saamata. Selle tulemusena saab kogu andmeteaduse valdkond halva maine.

Tõelised statistikud teevad alati oma järeldused

Tänu statistikute peaaegu müstilisele mainele nende range arutluskäigu tõttu on võltsinfo hulk andmeteaduses kõigi aegade kõrgeim. Lihtne on petta ja mitte vahele jääda, eriti kui pahaaimamatu ohver arvab, et kõik on seotud võrrandite ja andmetega. Andmekogum on andmestik, eks? Ei. On oluline, kuidas te seda kasutate.

Õnneks on šarlatanide tabamiseks vaja ainult ühte vihjet: nad "avastavad tagasiulatuvalt Ameerikat". Taasavastades nähtusi, mille kohta nad juba teavad, et need on andmetes olemas.

Erinevalt šarlatanidest on head analüütikud avatud meelega ja mõistavad, et inspireerivatel ideedel võib olla palju erinevaid selgitusi. Samal ajal määratlevad head statistikud oma järeldused hoolikalt enne nende tegemist.

Analüütikud on vastutusest vabastatud... seni, kuni nad jäävad oma andmete ulatusse. Kui neil tekib kiusatus väita midagi, mida nad ei näinud, on see hoopis teine ​​töö. Nad peaksid analüütiku kingad jalast võtma ja statistiku kingad jalga panema. Lõppude lõpuks, ükskõik mis ametlik ametinimetus ka poleks, pole reeglit, mis ütleks, et soovi korral ei saa õppida mõlemat ametit. Lihtsalt ärge ajage neid segadusse.

See, et sa oled hea statistikas, ei tähenda, et sa oled hea analüütikas ja vastupidi. Kui keegi üritab teile vastupidist väita, peaksite olema ettevaatlik. Kui see inimene ütleb teile, et on lubatud teha statistilisi järeldusi andmete põhjal, mida olete juba uurinud, on see põhjus kahekordseks ettevaatlikuks.

Imelikud seletused

Andmešarlatane looduses vaadeldes märkate, et neile meeldib vaadeldavate andmete "selgitamiseks" fantastilisi lugusid välja mõelda. Mida akadeemilisem, seda parem. Vahet pole, et neid lugusid tagantjärele kohendatakse.

Kui šarlatanid seda teevad – ütlen selgelt – nad valetavad. Ükski võrrand või väljamõeldud kontseptsioonid ei suuda korvata tõsiasja, et nad ei pakkunud oma teooriatele nulltõestust. Ärge üllatuge, kui ebatavalised on nende selgitused.

See on sama, mis demonstreerida oma "selgeltnägijate" võimeid, vaadates esmalt käes olevaid kaarte ja seejärel ennustades, mida sa käes...mida hoiad. See on tagantjärele tarkus ja andmeteaduse elukutse on sellega ääreni täis.

Kuidas ära tunda andmeteaduse šarlatani?

Analüütikud ütlevad: "Sa käisid just teemantide kuningannaga." Statistikud ütlevad: "Ma kirjutasin oma hüpoteesid sellele paberile enne, kui alustasime. Mängime ringi, vaatame andmeid ja vaatame, kas mul on õigus." Šarlatanid ütlevad: "Ma teadsin, et sinust saab teemantide kuninganna, sest..."

Andmete jagamine on kiire lahendus, mida kõik vajavad.

Kui andmeid on vähe, tuleb valida statistika ja analüütika vahel, aga kui andmeid on rohkem kui piisavalt, on suurepärane võimalus analüütikat ilma pettuseta kasutada и statistikat. Teil on täiuslik kaitse šarlatanide vastu – andmete eraldamine ja minu arvates on see andmeteaduse võimsaim idee.

Enda kaitsmiseks šarlatanide eest ei pea te tegema muud, kui hoidma osa testiandmeid nende uudishimulike pilkude eest kättesaamatus kohas ja seejärel käsitlema ülejäänud andmeid analüütikuna. Kui puutute kokku teooriaga, millega nõustute, kasutage seda olukorra hindamiseks ja seejärel paljastage oma salajased testiandmed, et kontrollida, kas see teooria pole jama. See on nii lihtne!

Kuidas ära tunda andmeteaduse šarlatani?
Veenduge, et kellelgi ei oleks lubatud uurimise etapis katseandmeid vaadata. Selleks pidage kinni uurimisandmetest. Testiandmeid ei tohiks analüüsiks kasutada.

See on suur samm edasi võrreldes sellega, millega inimesed on harjunud "väikeandmete" ajastul, kus peate selgitama, kuidas teate seda, mida teate, et lõpuks veenda inimesi, et teate midagi.

Rakendage samu reegleid ML/AI suhtes

Mõnda ML/AI eksperdina esinevat šarlatani on samuti lihtne märgata. Saate nad kinni samamoodi nagu iga teise halva inseneri: "lahendused", mida nad püüavad luua, ebaõnnestuvad pidevalt. Varajane hoiatusmärk on kogemuste puudumine tööstusharu standardsete programmeerimiskeelte ja raamatukogudega.

Aga kuidas on lood inimestega, kes loovad süsteeme, mis näivad toimivat? Kuidas teada saada, et midagi kahtlast toimub? Sama reegel kehtib! Charlatan on võigas tegelane, kes näitab teile, kui hästi mudel töötas... samadel andmetel, mida nad kasutasid mudeli loomisel.

Kui olete loonud meeletult keerulise masinõppesüsteemi, siis kuidas teate, kui hea see on? Te ei saa teada enne, kui näitate talle, et ta töötab uute andmetega, mida ta pole varem näinud.

Kui nägite andmeid enne prognoosimist, on see ebatõenäoline ennejutustav

Kui teil on eraldamiseks piisavalt andmeid, ei pea te projekti õigustamiseks oma valemite ilu tsiteerima (vana moe harjumus, mida näen kõikjal, mitte ainult teaduses). Võite öelda: „Ma tean, et see töötab, sest saan võtta andmekogu, mida ma pole varem näinud, ja ennustada täpselt, mis seal juhtub... ja mul on õigus. Uuesti ja uuesti".

Mudeli/teooria testimine uute andmetega on parim alus usaldusele.

Ma ei salli andmete šarlatane. Mind ei huvita, kui su arvamus põhineb erinevatel nippidel. Mulle ei avalda seletuste ilu muljet. Näidake mulle, et teie teooria/mudel töötab (ja töötab jätkuvalt) terve hulga uute andmete põhjal, mida te pole kunagi varem näinud. See on teie arvamuse tugevuse tõeline test.

Andmeteaduse ekspertidega ühenduse võtmine

Kui soovite, et kõik, kes seda huumorit mõistavad, võtaksid teid tõsiselt, lõpetage isiklike eelarvamuste toetamiseks väljamõeldud võrrandite taha peitmine. Näita mulle, mis sul on. Kui soovite, et need, kes sellest aru saavad, suhtuksid teie teooriasse/mudelisse kui lihtsalt inspireerivasse luulesse, võtke julgelt ette suur etendus sellest, kui hästi see toimib täiesti uuel andmekogumil... tunnistajate ees. !

Pöörduge juhtide poole

Keelduge tõsiselt võtmast mingeid "ideid" andmete kohta, kuni need on testitud uus andmeid. Ei taha pingutada? Pidage kinni analüütikast, kuid ärge toetuge nendele ideedele – need on ebausaldusväärsed ja nende usaldusväärsust pole testitud. Veelgi enam, kui organisatsioonil on andmeid külluses, ei ole eraldamise muutmisel teaduses fundamentaalseks ja selle säilitamisel infrastruktuuri tasemel, kontrollides juurdepääsu statistika testandmetele, mingit varjukülge. See on suurepärane viis peatada inimesi, kes üritavad teid petta!

Kui soovite näha rohkem näiteid šarlatanidest, mis pole head - siin on suurepärane teema Twitteris.

Tulemused

Kui eraldamiseks on liiga vähe andmeid, püüab ainult šarlatan rangelt järgida inspiratsiooni, avastades Ameerikat tagasiulatuvalt, avastades matemaatiliselt uuesti andmetes juba teadaolevaid nähtusi ja nimetades üllatust statistiliselt oluliseks. See eristab neid avatud mõtlemisega analüütikust, kes tegeleb inspiratsiooniga, ja hoolikast statistikust, kes pakub ennustuste tegemisel tõendeid.

Kui andmeid on palju, harjuge andmeid eraldama, et saaksite mõlemast maailmast parima! Kindlasti tehke algse andmehunniku üksikute alamhulkade jaoks eraldi analüüs ja statistika.

  • Analüütikud pakkuda teile inspiratsiooni ja avatud meelt.
  • Statistika pakkuda teile ranget testimist.
  • šarlatanid pakkuda teile keerulist tagantjärele ülevaadet, mis näib olevat analüütika pluss statistika.

Võib-olla tekib teil pärast artikli lugemist mõte "kas ma olen šarlatan"? See sobib. Sellest mõttest vabanemiseks on kaks võimalust: esiteks vaata tagasi, vaata, mida oled teinud, kas sinu töö andmetega on praktilist kasu toonud. Ja teiseks, saate endiselt töötada oma kvalifikatsiooni kallal (mis ei ole kindlasti üleliigne), eriti kuna anname oma õpilastele praktilisi oskusi ja teadmisi, mis võimaldavad neil saada tõelisteks andmeteadlasteks.

Kuidas ära tunda andmeteaduse šarlatani?

Rohkem kursusi

Loe rohkem

Allikas: www.habr.com

Lisa kommentaar