Hoe herken je een charlatan uit Data Science?

Hoe herken je een charlatan uit Data Science?
Misschien heb je wel eens gehoord van analisten, specialisten op het gebied van machine learning en kunstmatige intelligentie, maar heb je ook gehoord van degenen die onterecht te veel betaald krijgen? Ontmoeten gegevens charlatan! Deze hacks, gelokt door lucratieve banen, bezorgen echte datawetenschappers een slechte naam. In het materiaal begrijpen we hoe we zulke mensen naar schoon water kunnen brengen.

Datacharlatans zijn overal

Datacharlatans zijn zo goed in het verbergen in het volle zicht dat jij dat ook kunt wees een van henzonder het zelfs maar te beseffen. De kans is groot dat uw organisatie deze stiekeme jongens al jaren onderdak biedt, maar het goede nieuws is dat ze gemakkelijk te identificeren zijn als u weet waar u op moet letten.
Het eerste waarschuwingssignaal is een gebrek aan begrip daarvan analyse en statistiek zijn heel verschillende disciplines. Ik zal dit verder uitleggen.

Verschillende disciplines

Statistici zijn getraind om conclusies te trekken over wat verder gaat dan hun data, analisten zijn getraind om de inhoud van een dataset te onderzoeken. Met andere woorden: analisten trekken conclusies over wat er in hun data staat, en statistici trekken conclusies over wat er niet in de data staat. Analisten helpen u goede vragen te stellen (hypothesen maken), en statistici helpen u goede antwoorden te krijgen (uw hypothesen testen).

Er zijn ook rare hybride rollen waarbij iemand op twee stoelen probeert te zitten... Waarom niet? Basisprincipe van data science: als je met onzekerheid te maken hebt, kun je daar geen gebruik van maken hetzelfde datapunt voor hypothesen en testen. Wanneer de gegevens beperkt zijn, dwingt onzekerheid een keuze tussen statistiek of analyse. toelichting hier.

Zonder statistieken zit je vast en kun je niet begrijpen of het oordeel dat je zojuist hebt geformuleerd standhoudt, en zonder analyse beweeg je blindelings, met weinig kans om het onbekende te temmen. Dit is een moeilijke keuze.

De uitweg van de charlatan uit deze puinhoop is door het te negeren en dan te doen alsof hij verrast is door wat er plotseling opduikt. De logica achter het testen van statistische hypothesen komt neer op de vraag of de gegevens ons voldoende verrassen om van gedachten te veranderen. Hoe kunnen we verrast worden door data als we deze al gezien hebben?

Telkens wanneer charlatans een patroon vinden, raken ze geïnspireerd en gaan ze vervolgens kijken dezelfde gegevens voor hetzelfde patroon, om het resultaat met een legitieme p-waarde of twee te publiceren, naast hun theorie. Ze liegen dus tegen jou (en misschien ook tegen zichzelf). Deze p-waarde doet er niet toe als je je niet aan je hypothese houdt naar hoe u uw gegevens heeft bekeken. Charlatans imiteren de acties van analisten en statistici zonder de redenen te begrijpen. Het gevolg is dat het hele vakgebied data science een slechte reputatie krijgt.

Echte statistici trekken altijd hun eigen conclusies

Dankzij de bijna mystieke reputatie van statistici vanwege hun rigoureuze redeneringen, staat de hoeveelheid valse informatie in Data Science op een ongekend hoog niveau. Het is gemakkelijk om te misleiden en niet gepakt te worden, vooral als het nietsvermoedende slachtoffer denkt dat het allemaal om vergelijkingen en gegevens draait. Een dataset is een dataset, toch? Nee. Het maakt uit hoe je het gebruikt.

Gelukkig heb je maar één aanwijzing nodig om de charlatans te pakken te krijgen: ze ‘ontdekken met terugwerkende kracht Amerika’. Door fenomenen te herontdekken waarvan ze al weten dat ze in de data aanwezig zijn.

In tegenstelling tot charlatans zijn goede analisten ruimdenkend en begrijpen ze dat inspirerende ideeën veel verschillende verklaringen kunnen hebben. Tegelijkertijd definiëren goede statistici hun conclusies zorgvuldig voordat ze deze trekken.

Analisten zijn vrijgesteld van aansprakelijkheid... zolang ze binnen de reikwijdte van hun data blijven. Als ze in de verleiding komen om iets te beweren dat ze niet hebben gezien, is dat een heel ander verhaal. Ze moeten de schoenen van de analist uittrekken en de schoenen van de statisticus aantrekken. Wat de officiële functietitel ook is, er is immers geen regel die zegt dat je niet beide beroepen kunt studeren als je dat wilt. Verwar ze gewoon niet.

Het feit dat je goed bent in statistiek betekent niet dat je goed bent in analyse, en omgekeerd. Als iemand u iets anders probeert te vertellen, moet u op uw hoede zijn. Als deze persoon je vertelt dat het toegestaan ​​is om statistische conclusies te trekken uit gegevens die je al hebt bestudeerd, is dat een reden om dubbel op je hoede te zijn.

Bizarre verklaringen

Als je data-charlatans in het wild observeert, zul je merken dat ze graag fantastische verhalen verzinnen om de gegevens die ze waarnemen te ‘verklaren’. Hoe academischer, hoe beter. Het maakt niet uit dat deze verhalen achteraf worden aangepast.

Als charlatans dit doen – laat mij duidelijk zijn – liegen ze. Geen enkele hoeveelheid vergelijkingen of mooie concepten kan het feit compenseren dat ze geen enkel bewijs voor hun theorieën boden. Wees niet verrast door hoe ongebruikelijk hun verklaringen zijn.

Dit is hetzelfde als het demonstreren van je 'paranormale' vermogens door eerst naar de kaarten in je handen te kijken en dan te voorspellen wat je vasthoudt...wat je vasthoudt. Dit is een vooringenomenheid achteraf, en het beroep van datawetenschapper is er tot de rand van gevuld.

Hoe herken je een charlatan uit Data Science?

Analisten zeggen: “Je bent net met de Koningin van de Diamanten gegaan.” De statistici zeggen: ‘Ik heb mijn hypothesen op dit stuk papier geschreven voordat we begonnen. Laten we wat spelen en naar wat gegevens kijken en kijken of ik gelijk heb." Charlatans zeggen: "Ik wist dat je deze Diamantenkoningin zou worden omdat..."

Het delen van gegevens is de snelle oplossing die iedereen nodig heeft.

Als er niet veel data zijn, moet je kiezen tussen statistiek en analytics, maar als er meer dan genoeg data zijn, is er een geweldige kans om analytics zonder misleiding te gebruiken и statistieken. Je hebt de perfecte verdediging tegen charlatans: datascheiding en naar mijn mening is dit het krachtigste idee in Data Science.

Om uzelf tegen charlatans te beschermen, hoeft u er alleen maar voor te zorgen dat u bepaalde testgegevens buiten het bereik van nieuwsgierige blikken houdt, en de rest vervolgens als analyse te behandelen. Wanneer je een theorie tegenkomt die je dreigt te accepteren, gebruik deze dan om de situatie te evalueren en onthul vervolgens je geheime testgegevens om te controleren of de theorie geen onzin is. Het is zo makkelijk!

Hoe herken je een charlatan uit Data Science?
Zorg ervoor dat niemand tijdens de verkenningsfase de testgegevens mag bekijken. Om dit te doen, moet u zich houden aan onderzoeksgegevens. Testgegevens mogen niet worden gebruikt voor analyse.

Dit is een grote stap vooruit ten opzichte van wat mensen gewend zijn in het ‘small data’-tijdperk, waarin je moet uitleggen hoe je weet wat je weet om mensen er uiteindelijk van te overtuigen dat je daadwerkelijk iets weet.

Pas dezelfde regels toe op ML/AI

Sommige charlatans die zich voordoen als ML/AI-experts zijn ook gemakkelijk te herkennen. Je vangt ze op dezelfde manier als elke andere slechte ingenieur: de ‘oplossingen’ die ze proberen te bouwen mislukken voortdurend. Een vroeg waarschuwingssignaal is een gebrek aan ervaring met industriestandaard programmeertalen en bibliotheken.

Maar hoe zit het met de mensen die systemen creëren die lijken te werken? Hoe weet je of er iets verdachts aan de hand is? Dezelfde regel is van toepassing! De Charlatan is een sinister personage dat je laat zien hoe goed het model werkte... op basis van dezelfde gegevens die ze gebruikten om het model te maken.

Als je een waanzinnig complex machine learning-systeem hebt gebouwd, hoe weet je dan hoe goed het is? Dat weet je pas als je haar laat zien hoe ze werkt met nieuwe gegevens die ze nog niet eerder heeft gezien.

Als u de gegevens zag voordat u prognoses maakte, is dat onwaarschijnlijk voorvertellen

Als je genoeg gegevens hebt om te scheiden, hoef je de schoonheid van je formules niet aan te halen om het project te rechtvaardigen (een ouderwetse gewoonte die ik overal zie, niet alleen in de wetenschap). Je kunt zeggen: “Ik weet dat het werkt, omdat ik een dataset kan nemen die ik nog niet eerder heb gezien en precies kan voorspellen wat daar zal gebeuren... en ik heb gelijk. Opnieuw en opnieuw".

Het testen van uw model/theorie aan nieuwe gegevens is de beste basis voor vertrouwen.

Ik tolereer geen data-charlatans. Het maakt mij niet uit of jouw mening op verschillende trucs is gebaseerd. Ik ben niet onder de indruk van de schoonheid van de uitleg. Laat me zien dat jouw theorie/model werkt (en blijft werken) op een hele reeks nieuwe gegevens die je nog nooit eerder hebt gezien. Dit is de echte test voor de kracht van uw mening.

Contact opnemen met datawetenschapsexperts

Als je serieus genomen wilt worden door iedereen die deze humor begrijpt, stop dan met je te verschuilen achter mooie vergelijkingen om persoonlijke vooroordelen te ondersteunen. Laat me zien wat je hebt. Als je wilt dat degenen die het ‘snappen’ jouw theorie/model zien als meer dan alleen maar inspirerende poëzie, heb dan de moed om groots te laten zien hoe goed het werkt op basis van een compleet nieuwe set gegevens... voor getuigen !

Een beroep doen op leiders

Weiger 'ideeën' over de gegevens serieus te nemen totdat ze zijn getest nieuw gegevens. Geen zin om er moeite voor te doen? Houd u aan de analyses, maar vertrouw niet op deze ideeën: ze zijn onbetrouwbaar en zijn niet op betrouwbaarheid getest. Bovendien, als een organisatie over data in overvloed beschikt, is er geen nadeel aan het fundamenteel maken van scheiding in de wetenschap en het handhaven ervan op infrastructuurniveau door de toegang tot testgegevens voor statistieken te controleren. Dit is een geweldige manier om te voorkomen dat mensen je voor de gek proberen te houden!

Als je meer voorbeelden wilt zien van charlatans die niets goeds doen - hier is een prachtig draadje op Twitter.

Resultaten van

Als er te weinig gegevens zijn om te scheiden, probeert alleen een charlatan de inspiratie strikt te volgen door Amerika retrospectief te ontdekken, wiskundig fenomenen te herontdekken waarvan al bekend is dat ze in de gegevens voorkomen, en de verrassing statistisch significant te noemen. Dit onderscheidt hen van de ruimdenkende analist, die zich bezighoudt met inspiratie, en de nauwgezette statisticus, die bewijs levert bij het doen van voorspellingen.

Als er veel gegevens zijn, maak er dan een gewoonte van om de gegevens te scheiden, zodat u het beste van twee werelden kunt hebben! Zorg ervoor dat u analyses en statistieken afzonderlijk uitvoert voor individuele subsets van de oorspronkelijke stapel gegevens.

  • Analisten bieden u inspiratie en openheid.
  • Statistieken bieden u strenge tests aan.
  • Charlatans bieden u een verwrongen inzicht achteraf dat zich voordoet als analyse plus statistiek.

Misschien heb je na het lezen van het artikel de gedachte “ben ik een charlatan”? Dit is goed. Er zijn twee manieren om van deze gedachte af te komen: kijk eerst terug, kijk wat je hebt gedaan en of je werk met data praktisch voordeel heeft opgeleverd. En ten tweede kun je nog steeds aan je kwalificaties werken (wat zeker niet overbodig zal zijn), vooral omdat we onze studenten praktische vaardigheden en kennis meegeven waarmee ze echte datawetenschappers kunnen worden.

Hoe herken je een charlatan uit Data Science?

Meer cursussen

Lees verder

Bron: www.habr.com

Voeg een reactie