Hvordan gjenkjenne en sjarlatan fra Data Science?

Hvordan gjenkjenne en sjarlatan fra Data Science?
Du har kanskje hørt om analytikere, maskinlæringsspesialister og spesialister på kunstig intelligens, men har du hørt om de som er urettferdig overbetalt? Møte data sjarlatan! Disse hackene, lokket av lukrative jobber, gir ekte dataforskere et dårlig navn. I materialet forstår vi hvordan man kan bringe slike mennesker til rent vann.

Datasjarlataner er overalt

Data-sjarlataner er så flinke til å gjemme seg for synlige at du kan være en av demuten engang å være klar over det. Sjansen er stor for at organisasjonen din har huset disse sleipe gutta i årevis, men den gode nyheten er at de er enkle å identifisere hvis du vet hva du skal se etter.
Det første advarselsskiltet er mangel på forståelse av det analytikk og statistikk er svært forskjellige disipliner. Jeg vil forklare dette nærmere.

Ulike disipliner

Statistikere er opplært til å trekke konklusjoner om hva som går utover dataene deres, analytikere er opplært til å undersøke innholdet i et datasett. Med andre ord trekker analytikere konklusjoner om hva som er i dataene deres, og statistikere trekker konklusjoner om hva som ikke er i dataene. Analytikere hjelper deg med å stille gode spørsmål (lage hypoteser), og statistikere hjelper deg med å få gode svar (test hypotesene dine).

Det er også rare hybridroller der en person prøver å sitte på to stoler... Hvorfor ikke? Grunnleggende prinsipp for datavitenskap: hvis du har å gjøre med usikkerhet, kan du ikke bruke det samme datapunkt for hypoteser og testing. Når data er begrenset, tvinger usikkerhet frem et valg mellom statistikk eller analyser. forklaring her.

Uten statistikk vil du sitte fast og ute av stand til å forstå om dommen du nettopp formulerte holder mål, og uten analyse beveger du deg blindt, med liten sjanse til å temme det ukjente. Dette er et vanskelig valg.

Sjarlatanens vei ut av dette rotet er å ignorere det og deretter late som om han blir overrasket over det som plutselig dukker opp. Logikken bak testing av statistiske hypoteser kommer ned til spørsmålet om dataene overrasker oss nok til å ombestemme oss. Hvordan kan vi bli overrasket over data hvis vi allerede har sett dem?

Når sjarlataner finner et mønster, blir de inspirert, så sjekk samme data for samme mønster, for å publisere resultatet med en legitim p-verdi eller to, ved siden av deres teori. Dermed lyver de for deg (og kanskje for seg selv også). Denne p-verdien spiller ingen rolle hvis du ikke holder deg til hypotesen din til hvordan du så på dataene dine. Charlataner imiterer handlingene til analytikere og statistikere uten å forstå årsakene. Som et resultat får hele feltet av datavitenskap et dårlig rykte.

Ekte statistikere trekker alltid sine egne konklusjoner

Takket være det nesten mystiske ryktet til statistikere for deres strenge resonnement, er mengden falsk informasjon i Data Science på en all-time high. Det er lett å lure og ikke bli tatt, spesielt hvis det intetanende offeret tror det handler om ligninger og data. Et datasett er et datasett, ikke sant? Nei. Det er viktig hvordan du bruker det.

Heldigvis trenger du bare en ledetråd for å fange sjarlatanene: de "oppdager Amerika med tilbakevirkende kraft." Ved å gjenoppdage fenomener som de allerede vet finnes i dataene.

I motsetning til sjarlataner er gode analytikere åpne og forstår at inspirerende ideer kan ha mange forskjellige forklaringer. Samtidig definerer gode statistikere sine konklusjoner nøye før de gjør dem.

Analytikere er fritatt for ansvar... så lenge de holder seg innenfor rammen av dataene sine. Hvis de blir fristet til å hevde noe de ikke så, er det en helt annen jobb. De bør ta av analytikerens sko og ta på statistikerens sko. Tross alt, uansett hva den offisielle stillingstittelen er, er det ingen regel som sier at du ikke kan studere begge yrkene hvis du vil. Bare ikke forvirre dem.

Bare fordi du er god på statistikk betyr ikke det at du er god på analyser, og omvendt. Hvis noen prøver å fortelle deg noe annet, bør du være på vakt. Hvis denne personen forteller deg at det er lov å trekke statistiske konklusjoner fra data du allerede har studert, er dette en grunn til å være dobbelt varsom.

Merkelige forklaringer

Når du observerer datasjarlataner i naturen, vil du legge merke til at de elsker å lage fantastiske historier for å "forklare" dataene de observerer. Jo mer akademisk, jo bedre. Det gjør ikke noe at disse historiene justeres i ettertid.

Når sjarlataner gjør dette - la meg være tydelig - lyver de. Ingen mengde ligninger eller fancy konsepter kan veie opp for det faktum at de ga null bevis for teoriene sine. Ikke bli overrasket over hvor uvanlige forklaringene deres er.

Dette er det samme som å demonstrere dine "synske" evner ved først å se på kortene i hendene dine og deretter forutsi hva du holder...hva du holder. Dette er skjevhet i ettertid, og datavitenskapsfaget er fylt til randen av det.

Hvordan gjenkjenne en sjarlatan fra Data Science?

Analytikere sier: "Du gikk nettopp med diamantdronningen." Statistikerne sier: «Jeg skrev ned hypotesene mine på dette papiret før vi begynte. La oss leke og se på noen data og se om jeg har rett." Charlatans sier: "Jeg visste at du skulle bli denne diamantdronningen fordi..."

Datadeling er den raske løsningen som alle trenger.

Når det ikke er mye data, må du velge mellom statistikk og analyser, men når det er mer enn nok data, er det stor mulighet til å bruke analyser uten bedrag и statistikk. Du har det perfekte forsvaret mot sjarlataner - dataseparasjon, og etter min mening er dette den kraftigste ideen innen Data Science.

For å beskytte deg selv mot sjarlataner, er alt du trenger å gjøre å sørge for å holde noen testdata utilgjengelig for deres nysgjerrige øyne, og deretter behandle resten som analyser. Når du kommer over en teori som du risikerer å akseptere, bruk den til å evaluere situasjonen, og avslør deretter dine hemmelige testdata for å sjekke at teorien ikke er tull. Det er så enkelt!

Hvordan gjenkjenne en sjarlatan fra Data Science?
Sørg for at ingen har lov til å se testdataene under utforskningsfasen. For å gjøre dette, hold deg til forskningsdata. Testdata skal ikke brukes til analyse.

Dette er et stort steg opp fra hva folk er vant til i «small data»-æraen, hvor du må forklare hvordan du vet det du vet for til slutt å overbevise folk om at du faktisk vet noe.

Bruk de samme reglene for ML/AI

Noen sjarlataner som utgir seg for å være ML/AI-eksperter er også lette å få øye på. Du vil fange dem på samme måte som du ville fange andre dårlige ingeniører: "løsningene" de prøver å bygge mislykkes stadig. Et tidlig varseltegn er mangel på erfaring med industristandard programmeringsspråk og biblioteker.

Men hva med menneskene som lager systemer som ser ut til å fungere? Hvordan vet du om noe mistenkelig skjer? Samme regel gjelder! Charlatan er en skummel karakter som viser deg hvor godt modellen fungerte ... på de samme dataene de brukte til å lage modellen.

Hvis du har bygget et sinnsykt komplekst maskinlæringssystem, hvordan vet du hvor bra det er? Du får ikke vite det før du viser henne å jobbe med nye data hun ikke har sett før.

Når du så dataene før prognosen - det er usannsynlig førforteller

Når du har nok data til å skille, trenger du ikke å sitere skjønnheten i formlene dine for å rettferdiggjøre prosjektet (en gammeldags vane jeg ser overalt, ikke bare i vitenskapen). Du kan si: "Jeg vet at det fungerer fordi jeg kan ta et datasett som jeg ikke har sett før og forutsi nøyaktig hva som vil skje der ... og jeg vil ha rett. Igjen og igjen".

Å teste modellen/teorien din mot nye data er det beste grunnlaget for tillit.

Jeg tolererer ikke datasjarlataner. Jeg bryr meg ikke om din mening er basert på forskjellige triks. Jeg er ikke imponert over skjønnheten i forklaringene. Vis meg at teorien/modellen din fungerer (og fortsetter å fungere) på en hel haug med nye data som du aldri har sett før. Dette er den virkelige testen på styrken til din mening.

Kontakte datavitenskapseksperter

Hvis du ønsker å bli tatt på alvor av alle som forstår denne humoren, slutt å gjemme deg bak fancy ligninger for å støtte personlige skjevheter. Vis meg hva du har. Hvis du vil at de som "får det" skal se teorien/modellen din som mer enn bare inspirerende poesi, ha motet til å vise frem hvor godt det fungerer på et helt nytt sett med data... foran vitner !

Appell til ledere

Nekter å ta noen "ideer" om dataene på alvor før de er testet ny data. Har du ikke lyst til å anstrenge deg? Hold deg til analysene, men ikke stol på disse ideene – de er upålitelige og har ikke blitt testet for pålitelighet. Dessuten, når en organisasjon har data i overflod, er det ingen ulemper ved å gjøre separasjon grunnleggende i vitenskapen og opprettholde den på infrastrukturnivå ved å kontrollere tilgangen til testdata for statistikk. Dette er en fin måte å stoppe folk fra å prøve å lure deg!

Hvis du vil se flere eksempler på sjarlataner til ingen nytte - her er en fantastisk tråd på Twitter.

Resultater av

Når det er for lite data å skille, prøver bare en sjarlatan å strengt tatt følge inspirasjon ved å oppdage Amerika retrospektivt, matematisk gjenoppdage fenomener som allerede er kjent for å være i dataene, og kalle overraskelsen statistisk signifikant. Dette skiller dem fra den fordomsfrie analytikeren, som arbeider med inspirasjon, og den nitidige statistikeren, som kommer med bevis når de lager spådommer.

Når det er mye data, ta en vane med å skille dataene slik at du kan få det beste fra begge verdener! Sørg for å gjøre analyser og statistikk separat for individuelle delsett av den opprinnelige haugen med data.

  • Analytikere gi deg inspirasjon og åpenhet.
  • Statistikk tilby deg strenge tester.
  • Charlataner tilby deg en vridd etterpåklokskap som utgir seg for å være analyser pluss statistikk.

Kanskje, etter å ha lest artikkelen, vil du ha tanken "er jeg en sjarlatan"? Dette er greit. Det er to måter å bli kvitt denne tanken på: Se først tilbake, se hva du har gjort, om arbeidet ditt med data har gitt praktisk nytte. Og for det andre kan du fortsatt jobbe med kvalifikasjonene dine (som absolutt ikke vil være overflødig), spesielt siden vi gir studentene våre praktiske ferdigheter og kunnskaper som gjør at de kan bli ekte dataforskere.

Hvordan gjenkjenne en sjarlatan fra Data Science?

Flere kurs

Les mer

Kilde: www.habr.com

Legg til en kommentar