Hvordan genkender man en charlatan fra Data Science?

Hvordan genkender man en charlatan fra Data Science?
Du har måske hørt om analytikere, specialister i maskinlæring og kunstig intelligens, men har du hørt om dem, der er ufortjent overbetalt? Møde datacharlatan! Disse tricksters, lokket af lukrative job, giver rigtige dataforskere et dårligt navn. I materialet forstår vi, hvordan man bringer sådanne mennesker til rent vand.

Datacharlataner er overalt

Datacharlataner er så gode til at gemme sig i almindeligt øjekast, at du kan være en af ​​demuden selv at være klar over det. Chancerne er, at din organisation har huset disse svindlere i årevis, men den gode nyhed er, at de er nemme at identificere, hvis du ved, hvad du skal kigge efter.
Det første advarselstegn er ikke at forstå hvad analyse og statistik er meget forskellige discipliner. Jeg vil forklare dette nærmere.

Diverse discipliner

Statistikere er uddannet til at drage konklusioner om, hvad der er uden for deres data, analytikere er trænet i at studere indholdet af et datasæt. Med andre ord drager analytikere konklusioner om, hvad der er i deres data, og statistikere drager konklusioner om, hvad der ikke er i dataene. Analytikere hjælper dig med at stille gode spørgsmål (gæt), og statistik hjælper dig med at få gode svar (testhypoteser).

Der er også bizarre hybridroller, hvor en person forsøger at sidde på to stole... Hvorfor ikke? Et grundlæggende princip inden for datavidenskab: Hvis du har at gøre med usikkerhed, skal du ikke bruge det det samme datapunkt for hypoteser og test. Når data er begrænset, tvinger usikkerhed en til at vælge mellem statistik eller analyser. forklaring her.

Uden statistik vil du sidde fast og ude af stand til at forstå, om den dom, du lige har formuleret, tåler kritik, og uden analyse bevæger du dig i blinde og har ringe chancer for at tæmme det ukendte. Dette er et svært valg.

Charlatanens vej ud af dette rod er at ignorere det og derefter foregive at være overrasket over, hvad det pludselig afslører. Logikken bag test af statistiske hypoteser går ud på at spørge, om dataene overrasker os nok til at ændre mening. Hvordan kan vi blive overrasket over dataene, hvis vi allerede har set dem?

Når charlatanerne finder et mønster, de inspirerer, så test samme data for samme mønsterat poste resultatet, med en legitim p-værdi eller to, sammen med deres teori. Ved at gøre det lyver de for dig (og muligvis også for sig selv). Denne p-værdi er ligegyldig, hvis du ikke holder fast i din hypotese. til hvordan du ser dine data. Charlataner imiterer analytikeres og statistikeres handlinger uden at forstå årsagerne. Som et resultat får hele feltet af datavidenskab en dårlig rap.

Ægte statistikere drager altid deres egne konklusioner

Takket være statistikernes næsten mystiske ry for strenge ræsonnementer, er mængden af ​​falsk information i Data Science på et rekordhøjt niveau. Det er nemt at snyde og ikke blive fanget, især hvis det intetanende offer tror, ​​det hele handler om ligninger og data. Et datasæt er et datasæt, ikke? Ingen. Det betyder noget, hvordan du bruger det.

Heldigvis behøver du kun et spor for at fange charlatanerne: de "genopdager Amerika bagefter." Genopdagelse af fænomener, som de allerede ved er til stede i dataene.

I modsætning til charlataner er gode analytikere åbne og forstår, at inspirerende ideer kan have mange forskellige forklaringer. Samtidig definerer gode statistikere nøje deres konklusioner, før de drager dem.

Analytikere er fritaget for ansvar... så længe de ikke går ud over deres data. Hvis de bliver fristet til at hævde noget, de ikke har set, er det en anden opgave. De bør "tage skoene af" som analytiker og "skifte sig til" en statistikers sko. Uanset den officielle stillingsbetegnelse er der ingen regel, der siger, at du ikke kan læse begge fag, hvis du vil. Bare lad være med at forvirre dem.

Bare fordi du er god til statistik, betyder det ikke, at du er god til analyser og omvendt. Hvis nogen forsøger at fortælle dig noget andet, skal du være på vagt. Hvis denne person fortæller dig, at du har lov til at drage en statistisk konklusion på de data, du allerede har studeret, er det en grund til at være dobbelt forsigtig.

Bizarre forklaringer

Når du observerer datacharlataner i naturen, vil du bemærke, at de elsker at lave fantasihistorier for at "forklare" observerede data. Jo mere akademisk jo bedre. Det gør ikke noget, at disse historier er drevet med tilbagevirkende kraft.

Når charlataner gør dette - lad mig være generøs med ord - lyver de. Ingen mængde af ligninger eller smukke koncepter kompenserer for det faktum, at de tilbød nul bevis for deres versioner. Bliv ikke overrasket over, hvor usædvanlige deres forklaringer er.

Dette er det samme som at demonstrere dine "psykiske" evner ved først at se på kortene i dine hænder, og derefter forudsige, hvad du har ... hvad du har. Det er en skævhed i bagklogskaben, og dataforskerfaget er proppet med det.

Hvordan genkender man en charlatan fra Data Science?

Analytikere siger: "Du gik lige med dronningen af ​​diamanter." Statistikere siger: "Jeg skrev mine hypoteser ned på dette stykke papir, før vi startede. Lad os spille, se på nogle data og se, om jeg har ret." Charlatanerne siger: "Jeg vidste, at du ville blive diamantdronningen, fordi..."

Datapartitionering er den hurtige løsning, som alle har brug for.

Når der ikke er meget data, skal du vælge mellem statistik og analyser, men når der er mere end nok data, er der stor mulighed for at bruge analyser uden at snyde и Statistikker. Du har den perfekte beskyttelse mod charlataner - dette er adskillelse af data, og efter min mening er dette den mest kraftfulde idé i Data Science.

For at beskytte dig selv mod charlataner er alt, hvad du skal gøre, at sørge for at holde nogle testdata væk fra deres nysgerrige øjne og derefter behandle alt andet som analyser. Når du støder på en teori, som du risikerer at acceptere, så brug den til at vurdere situationen og afslør derefter dine hemmelige testdata for at verificere, at teorien ikke er nonsens. Det er så enkelt!

Hvordan genkender man en charlatan fra Data Science?
Sørg for, at ingen har lov til at se testdataene under udforskningsfasen. For at gøre dette skal du holde dig til forskningsdata. Testdata bør ikke bruges til analyse.

Dette er et stort skridt op i forhold til, hvad folk er vant til i æraen med "små data", hvor du skal forklare, hvordan du ved, hvad du ved, for endelig at overbevise folk om, at du virkelig ved noget.

Anvender de samme regler for ML/AI

Nogle charlataner, der udgiver sig som ML/AI-eksperter, er også nemme at få øje på. Du vil fange dem på samme måde, som du ville fange enhver anden dårlig ingeniør: de "løsninger", de forsøger at bygge, mislykkes konstant. Et tidligt advarselstegn er mangel på erfaring med industristandardsprog og programmeringsbiblioteker.

Men hvad med folk, der bygger systemer, der ser ud til at fungere? Hvordan ved du, om noget mistænkeligt foregår? Samme regel gælder! Charlatanen er en uhyggelig karakter, der viser dig, hvor godt modellen klarede sig ... på de samme data, som de brugte til at skabe modellen.

Hvis du har bygget et sindssygt komplekst maskinlæringssystem, hvordan ved du så, hvor godt det er? Du ved det ikke, før du viser hende, at hun arbejder med nye data, som hun ikke har set før.

Når du så dataene før prognosen, er det usandsynligt Førordsprog.

Når du har nok data til at opdele, behøver du ikke påberåbe dig skønheden i dine formler for at retfærdiggøre et projekt (en gammel fashionabel vane, jeg ser overalt, ikke kun i videnskaben). Du kan sige: "Jeg ved, at det virker, fordi jeg kan tage et datasæt, som jeg ikke har set før, og forudsige præcis, hvad der vil ske der ... og jeg får ret. Igen og igen".

At teste din model/teori mod nye data er det bedste grundlag for tillid.

Jeg tolererer ikke datacharlataner. Jeg er ligeglad med, om din mening er baseret på forskellige chips. Jeg er ikke imponeret over skønheden i forklaringerne. Vis mig, at din teori/model virker (og fortsætter med at arbejde) på en række nye data, som du aldrig har set før. Dette er den virkelige test af styrken af ​​din mening.

Kontakt til dataforskere

Hvis du ønsker at blive taget seriøst af alle, der forstår denne humor, skal du stoppe med at gemme dig bag smarte ligninger for at holde din personlige bias i live. Vis hvad du har. Hvis du vil have dem, der "forstår det", skal se din teori/model som mere end blot inspirerende poesi, så hav modet til at vise, hvor godt den klarer sig på et helt nyt datasæt... foran vidner!

Appel til ledere

Nægt at tage nogen "ideer" om data alvorligt, indtil de er blevet testet imod ny data. Vil du ikke gøre en indsats? Hold dig til analyserne, men stol ikke på disse ideer – de er upålidelige og er ikke blevet testet for pålidelighed. Når en organisation har data i overflod, er der heller ingen ulemper ved at gøre adskillelse til grundlaget for videnskab og vedligeholde det på infrastrukturniveau ved at kontrollere adgangen til testdata til statistik. Dette er en fantastisk måde at stoppe forsøg på at narre dig!

Hvis du vil se flere eksempler på charlataner, der planlægger noget dårligt - dette er en fantastisk twitter-tråd.

Resultaterne af

Når dataene er for små til at adskilles, forsøger kun charlatanen nøje at følge inspirationen, opdager Amerika retrospektivt, matematisk genopdager fænomener, der allerede er kendt for at være i dataene, og kalder overraskelsen statistisk signifikant. Dette adskiller dem fra den åbensindede analytiker, der beskæftiger sig med inspiration, og den omhyggelige statistiker, der giver beviser, når de prognoser.

Når der er mange data, så bliv vane med at dele data, så du kan få det bedste fra begge verdener! Sørg for at lave analyser og statistik separat for separate delmængder af den oprindelige databunke.

  • Analytikere tilbyde dig inspiration og perspektiv.
  • Statistikker tilbyde dig strenge tests.
  • Charlataner tilbyde dig et fordrejet bagklogskab, der foregiver at være analytics plus statistik.

Måske vil du, efter at have læst artiklen, tænke "er jeg en charlatan"? Det er fint. Der er to måder at slippe af med denne tanke: Først skal du se tilbage, se hvad du har lavet, om dit arbejde med data har givet praktiske fordele. Og for det andet kan du stadig arbejde på dine kvalifikationer (hvilket bestemt ikke vil være overflødigt), især da vi giver vores studerende praktiske færdigheder og viden, der gør det muligt for dem at blive rigtige data scientists.

Hvordan genkender man en charlatan fra Data Science?

Flere kurser

Læs mere

Kilde: www.habr.com

Tilføj en kommentar