Como recoñecer un charlatán de Data Science?

Como recoñecer un charlatán de Data Science?
Quizais escoitou falar de analistas, especialistas en aprendizaxe automática e intelixencia artificial, pero escoitou falar dos que cobran inxustamente de máis? Coñece charlatán de datos! Estes trucos, atraídos por traballos lucrativos, danlle un mal nome aos científicos de datos reais. No material entendemos como levar a estas persoas á auga limpa.

Os charlatanes de datos están en todas partes

Os charlatáns de datos son tan bos para esconderse á vista que podes ser un delessen sequera dar conta. É probable que a túa organización leva anos albergando a estes mozos furtivos, pero a boa noticia é que son fáciles de identificar se sabes que buscar.
O primeiro sinal de alerta é a falta de comprensión diso a analítica e a estatística son disciplinas moi diferentes. Vou explicar isto máis adiante.

Diferentes disciplinas

Os estatísticos están adestrados para sacar conclusións sobre o que vai máis aló dos seus datos, os analistas están adestrados para examinar o contido dun conxunto de datos. Noutras palabras, os analistas sacan conclusións sobre o que hai nos seus datos e os estatísticos sacan conclusións sobre o que non están nos datos. Os analistas axúdanche a facer boas preguntas (facer hipóteses) e os estatísticos axúdanche a obter boas respostas (proba as túas hipóteses).

Tamén hai papeis híbridos estraños nos que unha persoa intenta sentarse en dúas cadeiras... Por que non? Principio básico da ciencia de datos: se estás a tratar con incerteza, non podes usar o mesmo punto de datos para hipóteses e probas. Cando os datos son limitados, a incerteza obriga a escoller entre estatísticas ou analíticas. Explicación aquí.

Sen estatísticas, quedarás atascado e incapaz de entender se o xuízo que acabas de formular se mantén, e sen análise, estás a moverte a cegas, con poucas posibilidades de domar o descoñecido. Esta é unha elección difícil.

A saída do charlatán deste desorde é ignoralo e despois finxir sorprenderse polo que aparece de súpeto. A lóxica detrás da proba de hipóteses estatísticas redúcese á pregunta de se os datos nos sorprenden o suficiente como para cambiar de opinión. Como podemos sorprendernos dos datos se xa os vimos?

Sempre que os charlatáns atopan un patrón, inspíranse e despois comproban mesmos datos para o mesmo patrón, para publicar o resultado cun valor p lexítimo ou dous, xunto á súa teoría. Así, están mentindoche (e, quizais, tamén a eles mesmos). Este valor p non importa se non se aferra á súa hipótese para como visualizaches os teus datos. Os charlatáns imitan as accións de analistas e estatísticos sen entender as razóns. Como resultado, todo o campo da ciencia de datos ten mala reputación.

Os verdadeiros estatísticos sempre sacan as súas propias conclusións

Grazas á reputación case mística dos estatísticos polo seu razoamento rigoroso, a cantidade de información falsa en Data Science está en un máximo histórico. É fácil enganar e non quedar atrapado, especialmente se a vítima desprevenida pensa que todo se trata de ecuacións e datos. Un conxunto de datos é un conxunto de datos, non? Non. Importa como o uses.

Afortunadamente, só necesitas unha pista para atrapar aos charlatáns: "están descubrindo América de forma retroactiva". Ao redescubrir fenómenos que xa saben que están presentes nos datos.

A diferenza dos charlatáns, os bos analistas son de mente aberta e entenden que as ideas inspiradoras poden ter moitas explicacións diferentes. Ao mesmo tempo, os bos estatísticos definen coidadosamente as súas conclusións antes de elaboralas.

Os analistas están exentos de responsabilidade... sempre que permanezan dentro do ámbito dos seus datos. Se teñen a tentación de reclamar algo que non viron, ese é outro traballo. Deberían quitarlle os zapatos ao analista e poñer os zapatos ao estatístico. Despois de todo, non importa cal sexa o título oficial do traballo, non hai ningunha norma que diga que non se pode estudar ambas profesións se quere. Simplemente non os confundas.

Só porque sexa bo en estatísticas non significa que sexa bo en análise, e viceversa. Se alguén intenta dicirche o contrario, debes ter coidado. Se esta persoa che di que é admisible sacar conclusións estatísticas a partir de datos que xa estudaches, esta é unha razón para telo dobremente.

Explicacións estrañas

Ao observar charlatáns de datos en estado salvaxe, notarás que lles encanta inventar historias fantásticas para "explicar" os datos que observan. Canto máis académico, mellor. Non importa que estas historias sexan axustadas en retrospectiva.

Cando os charlatáns fan isto -que sexa claro- están mentindo. Ningunha cantidade de ecuacións ou conceptos fantásticos pode compensar o feito de que ofrezan proba cero das súas teorías. Non te sorprendas o inusual que son as súas explicacións.

Isto é o mesmo que demostrar as túas habilidades "psíquicas" mirando primeiro as cartas das túas mans e, a continuación, predecindo o que tes... o que tes. Este é un prexuízo retrospectivo, e a profesión da ciencia de datos está chea ata o bordo.

Como recoñecer un charlatán de Data Science?

Os analistas din: "Acabas de ir coa raíña dos diamantes". Os estatísticos din: "Anotei as miñas hipóteses neste anaco de papel antes de comezar. Imos xogar e mirar algúns datos e ver se teño razón". Os charlatáns din: "Sabía que te ías converter nesta raíña dos diamantes porque..."

Compartir datos é a solución rápida que todos necesitan.

Cando non hai moitos datos, hai que escoller entre estatísticas e analíticas, pero cando hai datos máis que suficientes, hai unha gran oportunidade de usar as analíticas sen enganos. и estatísticas. Tes a defensa perfecta contra os charlatáns: a separación de datos e, na miña opinión, esta é a idea máis poderosa en Data Science.

Para protexerse dos charlatáns, todo o que cómpre facer é asegurarse de manter algúns datos de proba fóra do alcance dos seus ollos indiscretos e despois tratar o resto como analítica. Cando te atopes cunha teoría que corres o risco de aceptar, utilízaa para avaliar a situación e despois revela os datos secretos das túas probas para comprobar que a teoría non é unha tontería. É tan sinxelo!

Como recoñecer un charlatán de Data Science?
Asegúrese de que ninguén poida ver os datos da proba durante a fase de exploración. Para iso, quédase cos datos de investigación. Os datos das probas non deben usarse para a análise.

Este é un gran paso ao que está afeita a xente na era dos "pequenos datos", onde tes que explicar como sabes o que sabes para finalmente convencer á xente de que realmente sabes algo.

Aplica as mesmas regras a ML/AI

Tamén son fáciles de detectar algúns charlatanes que se fan pasar por expertos en ML/AI. Os atraparás do mesmo xeito que calquera outro mal enxeñeiro: as "solucións" que intentan crear continuamente fallan. Un sinal de alerta temprana é a falta de experiencia con linguaxes de programación e bibliotecas estándar da industria.

Pero que pasa coas persoas que crean sistemas que parecen funcionar? Como saber se está a pasar algo sospeitoso? Aplícase a mesma regra! O Charlatan é un personaxe sinistro que che mostra o ben que funcionou o modelo... cos mesmos datos que utilizaron para crear o modelo.

Se construíches un sistema de aprendizaxe automática increiblemente complexo, como sabes o bo que é? Non o saberás ata que lle mostres traballando con datos novos que non viu antes.

Cando viches os datos antes de facer previsións, é pouco probable antescontando

Cando tes datos suficientes para separar, non fai falla citar a beleza das túas fórmulas para xustificar o proxecto (un hábito de vella moda que vexo en todas partes, non só na ciencia). Podes dicir: "Sei que funciona porque podo tomar un conxunto de datos que non vin antes e prever exactamente o que vai pasar alí... e acertarei. Unha e outra vez".

Probar o seu modelo/teoría con novos datos é a mellor base para a confianza.

Non tolero os charlatáns de datos. Non me importa que a túa opinión se basee en trucos diferentes. Non me impresiona a beleza das explicacións. Amósame que a túa teoría/modelo funciona (e segue a traballar) nunha morea de datos novos que nunca antes viches. Esta é a verdadeira proba da forza da túa opinión.

Contacto con expertos en ciencia de datos

Se queres que todos os que entendan este humor te tomen en serio, deixa de esconderte detrás de ecuacións elegantes para apoiar os prexuízos persoais. Móstrame o que tes. Se queres que os que "entenden" vexan a túa teoría/modelo como algo máis que unha poesía inspiradora, ten o valor de facer un gran espectáculo do ben que funciona nun conxunto de datos completamente novo... diante de testemuñas. !

Apelar aos líderes

Négase a tomar en serio calquera "idea" sobre os datos ata que sexan probados novo datos. Non tes ganas de esforzarte? Quédese coas análises, pero non confíe nestas ideas: non son fiables e non se probaron a súa fiabilidade. Ademais, cando unha organización ten datos en abundancia, non hai ningún inconveniente en facer a separación fundamental na ciencia e mantela a nivel de infraestrutura controlando o acceso aos datos de proba para as estatísticas. Esta é unha boa forma de evitar que a xente intente enganarte!

Se queres ver máis exemplos de charlatáns para nada bo - aquí tes un fío marabilloso en Twitter.

Resultados de

Cando hai moi poucos datos para separalos, só un charlatán trata de seguir estritamente a inspiración descubrindo América retrospectivamente, redescubrindo matemáticamente fenómenos que xa se sabe que están nos datos e cualificando a sorpresa estatísticamente significativa. Isto distíngueos do analista de mente aberta, que se ocupa da inspiración, e do estatístico meticuloso, que ofrece probas ao facer predicións.

Cando hai moitos datos, adáptese a separalos para poder ter o mellor dos dous mundos! Asegúrate de facer analíticas e estatísticas por separado para os subconxuntos individuais da pila orixinal de datos.

  • Analistas ofrecerche inspiración e apertura de mente.
  • Estatísticos ofrecerche probas rigorosas.
  • Charlatáns ofrecerche unha visión retrospectiva retorcida que pretende ser analítica e estatística.

Quizais, despois de ler o artigo, pensarás "son un charlatán"? Isto está ben. Hai dúas formas de desfacerse deste pensamento: primeiro, mira cara atrás, mira o que fixeches, se o teu traballo cos datos trouxo beneficios prácticos. E, en segundo lugar, aínda podes traballar nas túas cualificacións (que seguramente non será superflua), sobre todo porque proporcionamos aos nosos estudantes habilidades e coñecementos prácticos que lles permiten converterse en auténticos científicos de datos.

Como recoñecer un charlatán de Data Science?

Máis cursos

Le máis

Fonte: www.habr.com

Engadir un comentario