Com reconèixer un xarlatà de Data Science?

Com reconèixer un xarlatà de Data Science?
És possible que hagis sentit parlar d'analistes, especialistes en aprenentatge automàtic i intel·ligència artificial, però has sentit parlar d'aquells a qui se'ls paga en excés immerescut? Trobar-se xarlatan de dades! Aquests hacks, atrets per treballs lucratius, donen un mal nom als científics de dades reals. En el material entenem com portar aquestes persones a l'aigua neta.

Els xarlatans de dades estan a tot arreu

Els xarlatans de dades són tan bons per amagar-se a la vista que podeu ser un d'ellssense ni adonar-se'n. És probable que la vostra organització hagi estat albergant aquests estafadors durant anys, però la bona notícia és que són fàcils d'identificar si sabeu què buscar.
El primer senyal d'alerta és no entendre què l'analítica i l'estadística són disciplines molt diferents. Ho explicaré més enllà.

Diferents disciplines

Els estadístics estan entrenats per extreure conclusions sobre allò que hi ha fora de les seves dades, els analistes estan entrenats per estudiar el contingut d'un conjunt de dades. En altres paraules, els analistes treuen conclusions sobre el que hi ha a les seves dades, i els estadístics treuen conclusions sobre el que no hi ha a les dades. Els analistes us ajuden a fer bones preguntes (conjectures) i les estadístiques us ajuden a obtenir bones respostes (prova hipòtesis).

També hi ha estranys rols híbrids on una persona intenta seure en dues cadires... Per què no? Un principi bàsic de la ciència de dades: si esteu tractant amb incertesa, no feu servir el mateix punt de dades per a hipòtesis i prova. Quan les dades són limitades, la incertesa obliga a triar entre estadístiques o analítiques. Explicació aquí.

Sense estadístiques, estaràs atrapat i incapaç d'entendre si el judici que acabes de formular resisteix les crítiques, i sense anàlisi, t'estàs movent a cegues, tenint poques possibilitats de domar el desconegut. Aquesta és una elecció difícil.

La sortida del xarlatà d'aquest embolic és ignorar-lo i després fingir sorprendre-se del que revela de sobte. La lògica darrere de provar hipòtesis estadístiques es redueix a preguntar-nos si les dades ens sorprenen prou com per canviar d'opinió. Com ens poden sorprendre les dades si ja les hem vist?

Sempre que els xarlatans troben un patró, s'inspiren i després comproven les mateixes dades per el mateix patrópublicar el resultat, amb un valor p legítim o dos, juntament amb la seva teoria. En fer-ho, t'estan mentint (i possiblement també a ells mateixos). Aquest valor p no importa si no us ateneu a la vostra hipòtesi. до com heu vist les vostres dades. Els xarlatans imiten les accions dels analistes i estadístics sense entendre'n les raons. Com a resultat, tot el camp de la ciència de dades té una mala reputació.

Els veritables estadístics sempre treuen les seves pròpies conclusions

Gràcies a la reputació gairebé mística dels estadístics pel raonament rigorós, la quantitat d'informació falsa a Data Science és al seu màxim històric. És fàcil enganyar i no quedar atrapat, sobretot si la víctima desprevinguda creu que tot es tracta d'equacions i dades. Un conjunt de dades és un conjunt de dades, oi? No. Importa com l'utilitzes.

Per sort, només cal una pista per atrapar els xarlatans: estan "descobrint Amèrica de manera retroactiva". Redescobrint fenòmens que ja saben que estan presents a les dades.

A diferència dels xarlatans, els bons analistes són de ment oberta i entenen que les idees inspiradores poden tenir moltes explicacions diferents. Al mateix temps, els bons estadístics defineixen acuradament les seves conclusions abans d'extreure-les.

Els analistes estan exempts de responsabilitat... sempre que es mantinguin dins de l'abast de les seves dades. Si tenen la temptació de reclamar alguna cosa que no van veure, aquesta és una altra feina. Haurien de treure les sabates de l'analista i posar-se les sabates de l'estadístic. Al cap i a la fi, sigui quin sigui el títol oficial de la feina, no hi ha cap norma que digui que no es puguin estudiar ambdues professions si es volen. Simplement no els confongueu.

Que siguis bo en estadístiques no vol dir que siguis bo en analítica, i viceversa. Si algú intenta dir-te el contrari, has de ser prudent. Si aquesta persona us diu que és lícit extreure conclusions estadístiques a partir de dades que ja heu estudiat, aquest és un motiu per desconfiar doblement.

Explicacions estranyes

Quan observeu els xarlatans de dades en estat salvatge, notareu que els encanta inventar històries fantàstiques per "explicar" les dades que observen. Com més acadèmic, millor. No importa que aquestes històries siguin impulsades de manera retroactiva.

Quan els xarlatans fan això -permeteu-me que sigui generós amb les paraules- estan mentint. Cap quantitat d'equacions o bells conceptes compensen el fet que no ofereixen prova de les seves versions. No us sorprengui com d'insòlites són les seves explicacions.

Això és el mateix que demostrar les teves habilitats "psíquiques" mirant primer les cartes a les teves mans, i després predint què estàs subjectant... què estàs subjectant. És un biaix retrospectiva, i la professió de científic de dades està plena d'això.

Com reconèixer un xarlatà de Data Science?

Els analistes diuen: "Acabes d'anar amb la reina dels diamants". Els estadístics diuen: "Vaig escriure les meves hipòtesis en aquest paper abans de començar. Juguem i mirem algunes dades i veiem si tinc raó". Els xarlatans diuen: "Sabia que et convertiries en aquesta reina dels diamants perquè..."

L'intercanvi de dades és la solució ràpida que tothom necessita.

Quan no hi ha moltes dades, has de triar entre estadístiques i analítiques, però quan hi ha dades més que suficients, hi ha una gran oportunitat per utilitzar l'anàlisi sense fer trampes. и estadístiques. Teniu la defensa perfecta contra els xarlatans: la separació de dades i, al meu entendre, aquesta és la idea més potent de Data Science.

Per protegir-vos dels xarlatans, tot el que heu de fer és assegurar-vos de mantenir algunes dades de prova fora dels seus ulls indiscrets i després tractar tota la resta com a analítiques. Quan us trobeu amb una teoria que us arrisqueu a acceptar, utilitzeu-la per avaluar la situació i després revelar les dades secretes de les proves per comprovar que la teoria no és una tonteria. És tan senzill!

Com reconèixer un xarlatà de Data Science?
Assegureu-vos que ningú no pugui veure les dades de la prova durant la fase d'exploració. Per fer-ho, seguiu les dades de recerca. Les dades de prova no s'han d'utilitzar per a l'anàlisi.

Aquest és un gran pas respecte al que la gent està acostumada a l'era de les "petites dades", on has d'explicar com saps el que saps per convèncer finalment la gent que realment saps alguna cosa.

Apliqueu les mateixes regles a ML/AI

Alguns xarlatans que es fan passar per experts en ML/AI també són fàcils de detectar. Els atraparàs de la mateixa manera que captaria qualsevol altre mal enginyer: les "solucions" que intenten construir fracassen constantment. Un senyal d'alerta primerenca és la manca d'experiència amb els llenguatges estàndard de la indústria i les biblioteques de programació.

Però, què passa amb les persones que construeixen sistemes que semblen funcionar? Com saps si està passant alguna cosa sospitosa? S'aplica la mateixa regla! El xarlatà és un personatge sinistre que et mostra el bon rendiment del model... amb les mateixes dades que van utilitzar per crear el model.

Si heu creat un sistema d'aprenentatge automàtic increïblement complex, com sabeu el bo que és? No ho sabràs fins que no li mostris que està treballant amb dades noves que no ha vist abans.

Quan vau veure les dades abans de pronosticar, és poc probable que això abansdient

Quan tens prou dades per dividir, no cal que invoquis la bellesa de les teves fórmules per justificar un projecte (un vell hàbit de moda que veig a tot arreu, no només a la ciència). Pots dir: "Sé que funciona perquè puc agafar un conjunt de dades que no he vist abans i predir exactament què passarà allà... i tindré raó. Una vegada i una altra".

Provar el vostre model/teoria amb dades noves és la millor base per a la confiança.

No tolero els xarlatans de dades. No m'importa si la teva opinió es basa en diferents xips. No m'impressiona la bellesa de les explicacions. Demostra'm que la teva teoria/model funciona (i continua funcionant) amb una sèrie de dades noves que mai abans has vist. Aquesta és la veritable prova de la força de la teva opinió.

Contactar amb els científics de dades

Si voleu que algú que entengui aquest humor us prengui seriosament, deixeu d'amagar-vos darrere d'equacions elegants per mantenir viu el vostre prejudici personal. Mostra el que tens. Si voleu que aquells que "entenen" vegin la vostra teoria/model com més que una poesia inspiradora, tingueu el coratge de fer una gran demostració del bé que funciona en un conjunt de dades completament nou... davant dels testimonis. !

Apel·lació als líders

Negar-se a prendre's seriosament qualsevol "idea" sobre les dades fins que no s'hagi provat nou dades. No vols esforçar-te? Aneu amb les analítiques, però no us confieu en aquestes idees: no són fiables i no s'han provat de fiabilitat. A més, quan una organització té dades en abundància, no hi ha cap desavantatge a fer de la separació la base de la ciència i mantenir-la a nivell d'infraestructura controlant l'accés a les dades de prova per a estadístiques. Aquesta és una bona manera d'aturar els intents d'enganyar-vos!

Si voleu veure més exemples de xarlatans planejant alguna cosa dolenta... aquí teniu un fil fantàstic a Twitter.

Resultats de

Quan hi ha massa poques dades per separar, només un xarlatà intenta seguir estrictament la inspiració descobrint Amèrica retrospectivament, redescobrint matemàticament fenòmens que ja se sap que hi ha a les dades i qualificant la sorpresa estadísticament significativa. Això els distingeix de l'analista de ment oberta, que tracta la inspiració, i de l'estadístic meticulós, que ofereix evidències a l'hora de fer prediccions.

Quan hi hagi moltes dades, pren l'hàbit de compartir dades perquè puguis tenir el millor dels dos mons! Assegureu-vos de fer analítiques i estadístiques per separat per a subconjunts separats de la pila de dades original.

  • Analistes oferir-te inspiració i perspectiva.
  • Estadístiques oferir-vos proves rigoroses.
  • Xarlatans us ofereix una perspectiva retorçada que pretén ser analítiques i estadístiques.

Potser, després de llegir l'article, tindràs el pensament "sóc un xarlatà"? Això està bé. Hi ha dues maneres de desfer-se d'aquest pensament: primer, mirar enrere, veure què heu fet, si el vostre treball amb dades ha aportat beneficis pràctics. I en segon lloc, encara pots treballar les teves qualificacions (que sens dubte no serà superflu), sobretot perquè donem als nostres estudiants habilitats pràctiques i coneixements que els permeten convertir-se en autèntics científics de dades.

Com reconèixer un xarlatà de Data Science?

Més cursos

Llegeix més

Font: www.habr.com

Afegeix comentari