Hvernig á að þekkja charlatan frá Data Science?

Hvernig á að þekkja charlatan frá Data Science?
Þú hefur kannski heyrt um sérfræðinga, vélanám og gervigreindarsérfræðinga, en hefurðu heyrt um þá sem fá óverðskuldað ofurlaun? Hittumst gögn charlatan! Þessir bragðarefur, tálbeita af ábatasamum störfum, gefa alvöru gagnafræðingum slæmt nafn. Í efninu skiljum við hvernig á að koma slíku fólki í hreint vatn.

Gagnakarlatanar eru alls staðar

Gagnakarlatanar eru svo góðir í að fela sig í augsýn að þú getur vera einn af þeimán þess þó að gera sér grein fyrir því. Líklega er stofnunin þín búin að hýsa þessa svindlara í mörg ár, en góðu fréttirnar eru þær að auðvelt er að bera kennsl á þá ef þú veist hvað þú átt að leita að.
Fyrsta viðvörunarmerkið er að skilja ekki hvað greiningar og tölfræði eru mjög ólíkar greinar. Ég mun útskýra þetta nánar.

Ýmsar greinar

Tölfræðimenn eru þjálfaðir í að draga ályktanir um það sem er fyrir utan gögn þeirra, sérfræðingar eru þjálfaðir í að rannsaka innihald gagnasafns. Með öðrum orðum, sérfræðingar draga ályktanir um hvað er í gögnum þeirra og tölfræðingar draga ályktanir um hvað er ekki í gögnunum. Sérfræðingar hjálpa þér að spyrja góðra spurninga (getur), og tölfræði hjálpar þér að fá góð svör (prófstilgátur).

Það eru líka furðuleg blendingshlutverk þar sem maður reynir að sitja á tveimur stólum... Af hverju ekki? Grunnkenning gagnavísinda: ef þú ert að takast á við óvissu skaltu ekki nota það sama gagnapunktur fyrir tilgátur og prófun. Þegar gögn eru takmörkuð neyðir óvissa mann til að velja á milli tölfræði eða greiningar. Útskýring hér.

Án tölfræði muntu sitja fastur og ófær um að skilja hvort dómurinn sem þú varst að setja fram stenst gagnrýni og án greiningar ertu að hreyfa þig í blindni og hefur litla möguleika á að temja hið óþekkta. Þetta er erfitt val.

Leið charlatansins út úr þessu rugli er að hunsa það og þykjast svo vera hissa á því sem allt í einu kemur í ljós. Rökfræðin á bak við að prófa tölfræðilegar tilgátur snýst um að spyrja hvort gögnin komi okkur nógu mikið á óvart til að skipta um skoðun. Hvernig getum við orðið hissa á gögnunum ef við höfum þegar séð þau?

Alltaf þegar charlatans finna mynstur sem þeir hvetja til, prófaðu þá sömu gögnin í sama mynsturað birta niðurstöðuna, með lögmætu p-gildi eða tvö, samhliða kenningu sinni. Með því eru þeir að ljúga að þér (og hugsanlega sjálfum sér líka). Þetta p-gildi skiptir ekki máli ef þú heldur þér ekki við tilgátuna þína. í hvernig þú skoðar gögnin þín. Charlatans herma eftir gjörðum greiningaraðila og tölfræðinga án þess að skilja ástæðurnar. Fyrir vikið er allt svið gagnavísinda að fá slæmt rapp.

Sannir tölfræðingar draga alltaf sínar eigin ályktanir

Þökk sé næstum dularfullu orðspori tölfræðinga fyrir strangan rökstuðning er magn falsaðra upplýsinga í Data Science í sögulegu hámarki. Það er auðvelt að svindla og láta ekki nást, sérstaklega ef grunlausa fórnarlambið heldur að allt snúist um jöfnur og gögn. Gagnapakki er gagnasafn, ekki satt? Nei. Það skiptir máli hvernig þú notar það.

Sem betur fer, þú þarft aðeins eina vísbendingu til að ná charlatans: þeir "enduruppgötva Ameríku eftir staðreynd." Enduruppgötva fyrirbæri sem þeir vita nú þegar eru til staðar í gögnunum.

Ólíkt charlatönum eru góðir sérfræðingar víðsýnir og skilja að hvetjandi hugmyndir geta haft margar mismunandi skýringar. Á sama tíma skilgreina góðir tölfræðingar ályktanir sínar vandlega áður en þeir draga þær.

Sérfræðingar eru undanþegnir ábyrgð... svo framarlega sem þeir fara ekki út fyrir gögnin sín. Ef þeir freistast til að halda fram einhverju sem þeir hafa ekki séð, þá er það allt annað starf. Þeir ættu að „fara úr skónum“ sem sérfræðingur og „skipta yfir í“ skó tölfræðings. Þegar öllu er á botninn hvolft, hvað sem hið opinbera starfsheiti er, þá er engin regla sem segir að þú megir ekki læra báðar greinarnar ef þú vilt. Bara ekki rugla þeim saman.

Þó þú sért góður í tölfræði þýðir það ekki að þú sért góður í greiningu og öfugt. Ef einhver er að reyna að segja þér annað ættirðu að vera á varðbergi. Ef þessi manneskja segir þér að þú hafir leyfi til að draga tölfræðilega ályktun um þau gögn sem þú hefur þegar rannsakað, þá er það ástæða til að vera tvöfalt varkár.

Furðulegar skýringar

Þegar þú fylgist með gagnakarlatönum úti í náttúrunni, muntu taka eftir því að þeir elska að búa til fantasíusögur til að „útskýra“ gögn sem hafa sést. Því meira fræðilegt því betra. Það skiptir ekki máli að þessar sögur séu afturvirkar knúnar.

Þegar charlatans gera þetta - leyfðu mér að vera örlátur með orð - þá ljúga þeir. Ekkert magn af jöfnum eða fallegum hugtökum bætir upp þá staðreynd að þeir gáfu enga sönnun fyrir útgáfum sínum. Ekki vera hissa á því hversu óvenjulegar skýringar þeirra eru.

Þetta er það sama og að sýna fram á "sálræna" hæfileika þína með því að horfa fyrst á spilin í höndum þínum og spá síðan fyrir um hvað þú ert með ... hvað þú ert með. Þetta er hindurvitni og gagnafræðingastéttin er uppfull af því.

Hvernig á að þekkja charlatan frá Data Science?

Sérfræðingar segja: "Þú fórst bara með demantadrottningu." Tölfræðifræðingar segja: „Ég skrifaði niður tilgátur mínar á þetta blað áður en við byrjuðum. Við skulum spila, skoða nokkur gögn og sjá hvort ég hef rétt fyrir mér.“ Charlatanarnir segja: "Ég vissi að þú yrðir þessi demantadrottning vegna þess að..."

Gagnaskipting er skyndilausnin sem allir þurfa.

Þegar það er ekki mikið af gögnum þarf að velja á milli tölfræði og greiningar, en þegar það er meira en nóg af gögnum gefst frábært tækifæri til að nota greiningar án þess að svindla и tölfræði. Þú hefur fullkomna vörn gegn charlatans - þetta er aðskilnaður gagna og að mínu mati er þetta öflugasta hugmyndin í Data Science.

Til að vernda þig gegn charlatönum þarftu bara að ganga úr skugga um að þú haldir einhverjum prófunargögnum frá hnýsnum augum þeirra og lítur svo á allt annað sem greiningu. Þegar þú rekst á kenningu sem þú átt á hættu að samþykkja skaltu nota hana til að meta ástandið og birta síðan leynileg prófgögn þín til að sannreyna að kenningin sé ekki bull. Það er svo einfalt!

Hvernig á að þekkja charlatan frá Data Science?
Gakktu úr skugga um að enginn hafi leyfi til að skoða prófunargögnin meðan á könnun stendur. Til að gera þetta skaltu halda þig við rannsóknargögn. Ekki ætti að nota prófunargögn til greiningar.

Þetta er stórt skref upp á við frá því sem fólk á að venjast á tímum „smá gagna“, þar sem þú þarft að útskýra hvernig þú veist það sem þú veist til að geta loksins sannfært fólk um að þú vitir virkilega eitthvað.

Að beita sömu reglum um ML/AI

Það er líka auðvelt að koma auga á sumar charlatans sem gefa sig út fyrir að vera ML/AI sérfræðingar. Þú munt ná þeim á sama hátt og þú myndir ná öllum öðrum slæmum verkfræðingum: „lausnirnar“ sem þeir reyna að byggja mistakast stöðugt. Snemma viðvörunarmerki er skortur á reynslu af iðnaðarstöðluðum tungumálum og forritunarsöfnum.

En hvað með fólk sem byggir kerfi sem virðast virka? Hvernig veistu hvort eitthvað grunsamlegt sé í gangi? Sama regla gildir! Charlatan er óheiðarleg persóna sem sýnir þér hversu vel líkanið stóð sig ... á sömu gögnum og þeir notuðu til að búa til líkanið.

Ef þú hefur smíðað geðveikt flókið vélanámskerfi, hvernig veistu hversu gott það er? Þú munt ekki vita fyrr en þú sýnir henni að hún er að vinna með ný gögn sem hún hefur ekki séð áður.

Þegar þú sást gögnin áður en þú spáir, þá er það ólíklegt áðurað segja.

Þegar þú hefur nóg af gögnum til að skipta, þarftu ekki að kalla fram fegurð formúlunnar til að réttlæta verkefni (gamall smart venja sem ég sé alls staðar, ekki bara í vísindum). Þú getur sagt: „Ég veit að það virkar vegna þess að ég get tekið gagnasett sem ég hef ekki séð áður og spáð nákvæmlega fyrir um hvað mun gerast þar… og ég mun hafa rétt fyrir mér. Aftur og aftur".

Að prófa líkanið/kenninguna þína gegn nýjum gögnum er besti grundvöllurinn fyrir trausti.

Ég þoli ekki data charlatans. Mér er alveg sama þó skoðun þín sé byggð á mismunandi flögum. Ég er ekki hrifinn af fegurð skýringanna. Sýndu mér að kenningin/líkanið þitt virkar (og heldur áfram að virka) á ýmsum nýjum gögnum sem þú hefur aldrei séð áður. Þetta er raunverulegur prófsteinn á styrk skoðunar þinnar.

Hafa samband við gagnafræðinga

Ef þú vilt vera tekinn alvarlega af einhverjum sem skilur þennan húmor skaltu hætta að fela þig á bak við fínar jöfnur til að halda persónulegri hlutdrægni þinni á lífi. Sýndu hvað þú hefur. Ef þú vilt að þeir sem "fá það" sjái kenningu þína/módel sem meira en bara hvetjandi ljóð skaltu hafa hugrekki til að sýna hversu vel það stendur sig í glænýju gagnasafni... fyrir framan vitni!

Kæra til leiðtoga

Neita að taka „hugmyndir“ um gögn alvarlega fyrr en búið er að prófa þær nýtt gögn. Viltu ekki leggja á þig? Haltu þig við greininguna, en treystu ekki á þessar hugmyndir - þær eru óáreiðanlegar og hafa ekki verið prófaðar með tilliti til áreiðanleika. Einnig, þegar fyrirtæki hefur gögn í gnægð, þá er enginn galli við að gera aðskilnað að grunni vísinda og viðhalda þeim á innviðastigi með því að stjórna aðgangi að prófunargögnum fyrir tölfræði. Þetta er frábær leið til að stöðva tilraunir til að blekkja þig!

Ef þú vilt sjá fleiri dæmi um að charlatans séu að plana eitthvað slæmt - þetta er frábær twitter þráður.

Niðurstöður

Þegar gögnin eru of lítil til að aðskilja, reynir aðeins charlatan að fylgja innblástinum nákvæmlega, uppgötvar Ameríku afturvirkt, enduruppgötvar stærðfræðilega fyrirbæri sem þegar er vitað að eru í gögnunum og kallar óvart tölfræðilega marktækt. Þetta aðgreinir þá frá víðsýnum sérfræðingi sem fæst við innblástur og nákvæmum tölfræðingi sem gefur sönnunargögn þegar spár eru.

Þegar það er mikið af gögnum skaltu venja þig á að deila gögnum svo þú getir haft það besta úr báðum heimum! Vertu viss um að gera greiningar og tölfræði sérstaklega fyrir aðskilin undirmengi upprunalegu gagnabunkans.

  • Sérfræðingar bjóða þér innblástur og yfirsýn.
  • Tölfræði bjóða þér strangar prófanir.
  • Charlatans bjóða þér upp á snúna aftursýn sem þykist vera greining og tölfræði.

Kannski, eftir að hafa lesið greinina, muntu hafa þá hugsun "er ég charlatan"? Þetta er fínt. Það eru tvær leiðir til að losna við þessa hugsun: Fyrst skaltu líta til baka, sjá hvað þú hefur gert, hvort vinna þín með gögn hafi skilað hagnýtum ávinningi. Og í öðru lagi geturðu enn unnið að hæfni þinni (sem mun örugglega ekki vera óþarfi), sérstaklega þar sem við gefum nemendum okkar hagnýta færni og þekkingu sem gerir þeim kleift að verða alvöru gagnafræðingar.

Hvernig á að þekkja charlatan frá Data Science?

Fleiri námskeið

Lestu meira

Heimild: www.habr.com

Bæta við athugasemd