Hur känner man igen en charlatan från Data Science?

Hur känner man igen en charlatan från Data Science?
Du kanske har hört talas om analytiker, specialister på maskininlärning och artificiell intelligens, men har du hört talas om de som är oförtjänt överbetalda? Träffa datacharlatan! Dessa tricksters, lockade av lukrativa jobb, ger riktiga dataforskare ett dåligt rykte. I materialet förstår vi hur man för sådana människor till rent vatten.

Datacharlataner finns överallt

Datacharlataner är så bra på att gömma sig i klarsynt att du kan vara en av demutan att ens inse det. Chansen är stor att din organisation har hyst dessa bedragare i flera år, men den goda nyheten är att de är lätta att identifiera om du vet vad du ska leta efter.
Det första varningstecknet är att inte förstå vad analys och statistik är väldigt olika discipliner. Jag kommer att förklara detta ytterligare.

Diverse discipliner

Statistiker tränas i att dra slutsatser om vad som finns utanför deras data, analytiker tränas i att studera innehållet i en datamängd. Med andra ord drar analytiker slutsatser om vad som finns i deras data, och statistiker drar slutsatser om vad som inte finns i datan. Analytiker hjälper dig att ställa bra frågor (gissningar), och statistik hjälper dig att få bra svar (testhypoteser).

Det finns också bisarra hybridroller där en person försöker sitta på två stolar... Varför inte? En grundläggande grundsats för datavetenskap: om du har att göra med osäkerhet, använd inte det samma datapunkt för hypoteser och testning. När data är begränsad tvingar osäkerheten en att välja mellan statistik eller analys. förklaring här.

Utan statistik kommer du att sitta fast och oförmögen att förstå om det omdöme du nyss formulerat står emot kritik, och utan analys rör du dig i blindo och har liten chans att tämja det okända. Detta är ett svårt val.

Charlatanens väg ut ur denna röra är att ignorera den och sedan låtsas vara förvånad över vad den plötsligt avslöjar. Logiken bakom att testa statistiska hypoteser går ut på att fråga om uppgifterna överraskar oss tillräckligt för att ändra oss. Hur kan vi bli överraskade av uppgifterna om vi redan har sett dem?

Närhelst charlataner hittar ett mönster blir de inspirerade, kolla sedan samma data för samma mönsteratt lägga upp resultatet, med ett legitimt p-värde eller två, vid sidan av sin teori. Genom att göra det ljuger de för dig (och möjligen för sig själva också). Detta p-värde spelar ingen roll om du inte håller dig till din hypotes. до hur du ser din data. Charlataner imiterar analytikers och statistikers handlingar utan att förstå orsakerna. Som ett resultat får hela området för datavetenskap en dålig rap.

Sanna statistiker drar alltid sina egna slutsatser

Tack vare statistikernas nästan mystiska rykte för rigorösa resonemang är mängden falsk information i Data Science på den högsta nivån någonsin. Det är lätt att fuska och inte åka fast, speciellt om det intet ont anande offret tror att det handlar om ekvationer och data. En datauppsättning är en datauppsättning, eller hur? Nej. Det spelar roll hur du använder det.

Lyckligtvis behöver du bara en ledtråd för att fånga charlatanerna: de "återupptäcker Amerika i efterhand." Återupptäcka fenomen som de redan vet finns i datan.

Till skillnad från charlataner är bra analytiker fördomsfria och förstår att inspirerande idéer kan ha många olika förklaringar. Samtidigt definierar bra statistiker noggrant sina slutsatser innan de drar dem.

Analytiker är befriade från ansvar... så länge de inte går utöver sina uppgifter. Om de frestas att hävda något de inte har sett är det ett annat jobb. De borde "ta av sig skorna" som analytiker och "byta om till" en statistikers skor. När allt kommer omkring, oavsett den officiella befattningen, finns det ingen regel som säger att du inte kan studera båda yrkena om du vill. Förväxla dem bara inte.

Bara för att du är bra på statistik betyder det inte att du är bra på analyser, och vice versa. Om någon försöker säga något annat till dig bör du vara på din vakt. Om den här personen säger till dig att du får dra en statistisk slutsats av de data som du redan har studerat, är detta en anledning att vara dubbelt försiktig.

Konstiga förklaringar

När du observerar datacharlataner i naturen kommer du att märka att de älskar att hitta på fantasihistorier för att "förklara" observerade data. Ju mer akademiskt desto bättre. Det spelar ingen roll att dessa berättelser är retroaktivt drivna.

När charlataner gör detta - låt mig vara generös med ord - ljuger de. Ingen mängd ekvationer eller vackra koncept kompenserar för det faktum att de erbjöd noll bevis för sina versioner. Bli inte förvånad över hur ovanliga deras förklaringar är.

Detta är samma sak som att visa dina "psykiska" förmågor genom att först titta på korten i dina händer, och sedan förutsäga vad du håller ... vad du håller. Det är en snedvridning i efterhand, och datavetaryrket är proppat med det.

Hur känner man igen en charlatan från Data Science?

Analytiker säger: "Du gick precis med drottningen av diamanter." Statistiker säger: "Jag skrev ner mina hypoteser på den här lappen innan vi började. Låt oss spela, titta på lite data och se om jag har rätt." Charlatanerna säger: "Jag visste att du skulle bli den där diamantdrottningen för att..."

Datadelning är den snabba lösningen som alla behöver.

När det inte finns mycket data måste du välja mellan statistik och analys, men när det finns mer än tillräckligt med data finns det en stor möjlighet att använda analyser utan att fuska и statistik. Du har det perfekta skyddet mot charlataner - det här är separationen av data och enligt min mening är detta den mest kraftfulla idén inom Data Science.

För att skydda dig mot charlataner är allt du behöver göra att se till att hålla lite testdata borta från deras nyfikna ögon och sedan behandla allt annat som analyser. När du stöter på en teori som du riskerar att acceptera, använd den för att bedöma situationen och avslöja sedan dina hemliga testdata för att verifiera att teorin inte är nonsens. Det är så enkelt!

Hur känner man igen en charlatan från Data Science?
Se till att ingen tillåts se testdata under utforskningsfasen. För att göra detta, håll dig till forskningsdata. Testdata ska inte användas för analys.

Detta är ett stort steg upp från vad folk är vana vid under "smådata"-eran, där du måste förklara hur du vet vad du vet för att äntligen övertyga folk om att du faktiskt vet något.

Att tillämpa samma regler för ML/AI

Vissa charlataner som utger sig för att vara ML/AI-experter är också lätta att upptäcka. Du kommer att fånga dem på samma sätt som du skulle fånga alla andra dåliga ingenjörer: "lösningarna" de försöker bygga misslyckas ständigt. Ett tidigt varningstecken är brist på erfarenhet av industristandardspråk och programmeringsbibliotek.

Men hur är det med människor som bygger system som verkar fungera? Hur vet man om något misstänkt är på gång? Samma regel gäller! Charlatan är en olycksbådande karaktär som visar dig hur bra modellen presterade ... på samma data som de använde för att skapa modellen.

Om du har byggt ett vansinnigt komplext maskininlärningssystem, hur vet du hur bra det är? Du vet inte förrän du visar henne att hon arbetar med ny data som hon inte har sett tidigare.

När du såg data före prognostisering är det osannolikt det företalande

När du har tillräckligt med data för att dela upp behöver du inte åberopa skönheten i dina formler för att motivera ett projekt (en gammal fashionabel vana som jag ser överallt, inte bara inom vetenskapen). Du kan säga: "Jag vet att det fungerar eftersom jag kan ta en datauppsättning som jag inte har sett tidigare och förutsäga exakt vad som kommer att hända där ... och jag kommer att ha rätt. Igen och igen".

Att testa din modell/teori mot ny data är den bästa grunden för förtroende.

Jag tolererar inte datacharlataner. Jag bryr mig inte om din åsikt är baserad på olika marker. Jag är inte imponerad av skönheten i förklaringarna. Visa mig att din teori/modell fungerar (och fortsätter att fungera) på en rad nya data som du aldrig har sett förut. Detta är det verkliga testet på styrkan i din åsikt.

Kontakta datavetare

Om du vill bli tagen på allvar av alla som förstår denna humor, sluta gömma dig bakom snygga ekvationer för att hålla din personliga fördom vid liv. Visa vad du har. Om du vill att de som "förstår det" ska se din teori/modell som mer än bara inspirerande poesi, ha modet att visa upp hur bra den presterar på en helt ny datamängd... inför vittnen!

Vädja till ledare

Vägra att ta alla "idéer" om data på allvar förrän de har testats ny data. Känner du inte för att anstränga dig? Håll dig till analysen, men lita inte på dessa idéer – de är opålitliga och har inte testats för tillförlitlighet. Dessutom, när en organisation har data i överflöd, finns det ingen nackdel med att göra separation grundläggande inom vetenskapen och upprätthålla den på infrastrukturnivå genom att kontrollera tillgången till testdata för statistik. Det här är ett bra sätt att stoppa folk från att försöka lura dig!

Om du vill se fler exempel på charlataner som planerar något dåligt - det här är en bra twittertråd.

Resultat av

När uppgifterna är för små för att separeras är det bara charlatanen som försöker följa inspirationen strikt, upptäcker Amerika i efterhand, återupptäcker matematiskt fenomen som redan är kända för att finnas i datan och kallar överraskningen statistiskt signifikant. Detta skiljer dem från den fördomsfria analytikern som sysslar med inspiration och den noggranna statistikern som ger bevis vid prognoser.

När det finns mycket data, ta för vana att dela data så att du kan få det bästa av två världar! Se till att göra analyser och statistik separat för separata delmängder av den ursprungliga datahögen.

  • Analytiker ge dig inspiration och perspektiv.
  • Statistik erbjuda dig rigorösa tester.
  • Charlataner erbjuda dig en vriden efterklokskap som låtsas vara analytics plus statistik.

Efter att ha läst artikeln kommer du kanske att tänka "är jag en charlatan"? Det här är okej. Det finns två sätt att bli av med denna tanke: först titta tillbaka, se vad du har gjort, om ditt arbete med data har medfört praktiska fördelar. Och för det andra kan du fortfarande arbeta med dina kvalifikationer (vilket verkligen inte kommer att vara överflödigt), särskilt eftersom vi ger våra studenter praktiska färdigheter och kunskaper som gör att de kan bli riktiga datavetare.

Hur känner man igen en charlatan från Data Science?

Fler kurser

Läs mer

Källa: will.com

Lägg en kommentar