¿Cómo reconocer a un charlatán de Data Science?

¿Cómo reconocer a un charlatán de Data Science?
Es posible que haya oído hablar de analistas, especialistas en aprendizaje automático e inteligencia artificial, pero ¿ha oído hablar de aquellos a quienes se les paga injustamente en exceso? Encontrarse charlatán de datos! Estos hackers, atraídos por trabajos lucrativos, dan mala fama a los verdaderos científicos de datos. En el material entendemos cómo llevar a esas personas al agua potable.

Los charlatanes de datos están en todas partes

Los charlatanes de datos son tan buenos escondiéndose a plena vista que puedes ser uno de ellossin siquiera darte cuenta. Lo más probable es que su organización haya estado albergando a estos tipos astutos durante años, pero la buena noticia es que son fáciles de identificar si sabe qué buscar.
La primera señal de advertencia es la falta de comprensión de que La analítica y la estadística son disciplinas muy diferentes.. Explicaré esto más.

Diferentes disciplinas

Los estadísticos están capacitados para sacar conclusiones sobre lo que va más allá de sus datos, y los analistas están capacitados para examinar el contenido de un conjunto de datos. En otras palabras, los analistas sacan conclusiones sobre lo que hay en sus datos y los estadísticos sacan conclusiones sobre lo que no está en los datos. Los analistas le ayudan a hacer buenas preguntas (formular hipótesis) y los estadísticos le ayudan a obtener buenas respuestas (probar sus hipótesis).

También hay extraños roles híbridos en los que una persona intenta sentarse en dos sillas... ¿Por qué no? Principio básico de la ciencia de datos: si se trata de incertidumbre, no se puede utilizar lo mismo punto de datos para hipótesis y pruebas. Cuando los datos son limitados, la incertidumbre obliga a elegir entre estadísticas o análisis. Explicación aquí.

Sin estadísticas, se quedará estancado y no podrá comprender si el juicio que acaba de formular se sostiene, y sin análisis, se moverá a ciegas, con pocas posibilidades de dominar lo desconocido. Ésta es una elección difícil.

La manera que tiene el charlatán de salir de este lío es ignorarlo y luego pretender estar sorprendido por lo que de repente aparece. La lógica detrás de probar hipótesis estadísticas se reduce a la cuestión de si los datos nos sorprenden lo suficiente como para cambiar de opinión. ¿Cómo podemos sorprendernos con los datos si ya los hemos visto?

Cada vez que los charlatanes encuentran un patrón, se inspiran y luego lo comprueban. mismos datos para el mismo patrón, para publicar el resultado con uno o dos valores p legítimos, junto a su teoría. Por lo tanto, te están mintiendo (y, quizás, también a sí mismos). Este valor p no importa si no te apegas a tu hipótesis a cómo vio sus datos. Los charlatanes imitan las acciones de analistas y estadísticos sin entender las razones. Como resultado, todo el campo de la ciencia de datos tiene mala reputación.

Los verdaderos estadísticos siempre sacan sus propias conclusiones.

Gracias a la reputación casi mística de los estadísticos por su razonamiento riguroso, la cantidad de información falsa en la ciencia de datos está en su punto más alto. Es fácil engañar y no quedar atrapado, especialmente si la víctima desprevenida piensa que se trata de ecuaciones y datos. Un conjunto de datos es un conjunto de datos, ¿verdad? No. Importa cómo lo uses.

Por suerte, sólo hace falta una pista para atrapar a los charlatanes: están "descubriendo América retroactivamente". Redescubriendo fenómenos que ya saben que están presentes en los datos.

A diferencia de los charlatanes, los buenos analistas tienen la mente abierta y comprenden que las ideas inspiradoras pueden tener muchas explicaciones diferentes. Al mismo tiempo, los buenos estadísticos definen cuidadosamente sus conclusiones antes de formularlas.

Los analistas están exentos de responsabilidad... siempre y cuando se mantengan dentro del alcance de sus datos. Si se sienten tentados a reclamar algo que no vieron, ese es otro trabajo. Deberían quitarse los zapatos de analista y ponerse los de estadístico. Después de todo, no importa cuál sea el título oficial del trabajo, no existe ninguna regla que diga que no puedes estudiar ambas profesiones si así lo deseas. Simplemente no los confundas.

Sólo porque seas bueno en estadística no significa que seas bueno en análisis, y viceversa. Si alguien intenta decirte lo contrario, debes tener cuidado. Si esta persona le dice que está permitido sacar conclusiones estadísticas a partir de datos que ya ha estudiado, es motivo para ser doblemente cauteloso.

Explicaciones extrañas

Al observar a los charlatanes de datos en la naturaleza, notará que les encanta inventar historias fantásticas para "explicar" los datos que observan. Cuanto más académico, mejor. No importa que estas historias se ajusten en retrospectiva.

Cuando los charlatanes hacen esto - permítanme ser claro - están mintiendo. Ninguna cantidad de ecuaciones o conceptos sofisticados pueden compensar el hecho de que no ofrecieron ninguna prueba de sus teorías. No se sorprenda de lo inusuales que son sus explicaciones.

Esto es lo mismo que demostrar tus habilidades "psíquicas" mirando primero las cartas en tus manos y luego prediciendo lo que estás sosteniendo... lo que estás sosteniendo. Esto es un sesgo retrospectivo, y la profesión de la ciencia de datos está repleta de él.

¿Cómo reconocer a un charlatán de Data Science?

Los analistas dicen: "Acabas de elegir la Reina de Diamantes". Los estadísticos dicen: “Escribí mis hipótesis en esta hoja de papel antes de comenzar. Juguemos y miremos algunos datos y veamos si estoy en lo cierto". Los charlatanes dicen: “Sabía que ibas a convertirte en esta Reina de Diamantes porque…”

El intercambio de datos es la solución rápida que todos necesitan.

Cuando no hay muchos datos hay que elegir entre estadísticas y análisis, pero cuando hay datos más que suficientes, existe una gran oportunidad de utilizar el análisis sin engaños. и Estadísticas. Tienes la defensa perfecta contra los charlatanes: la separación de datos y, en mi opinión, esta es la idea más poderosa en ciencia de datos.

Para protegerse de los charlatanes, todo lo que necesita hacer es asegurarse de mantener algunos datos de prueba fuera del alcance de sus miradas indiscretas y luego tratar el resto como análisis. Cuando te encuentres con una teoría que corres el riesgo de aceptar, úsala para evaluar la situación y luego revela los datos secretos de tu prueba para comprobar que la teoría no es una tontería. ¡Es tan simple!

¿Cómo reconocer a un charlatán de Data Science?
Asegúrese de que nadie pueda ver los datos de la prueba durante la fase de exploración. Para hacer esto, limítese a los datos de la investigación. Los datos de las pruebas no deben utilizarse para el análisis.

Este es un gran paso adelante con respecto a lo que la gente está acostumbrada en la era de los "datos pequeños", donde tienes que explicar cómo sabes lo que sabes para finalmente convencer a la gente de que realmente sabes algo.

Aplicar las mismas reglas a ML/AI

Algunos charlatanes que se hacen pasar por expertos en ML/IA también son fáciles de detectar. Los atrapará de la misma manera que atraparía a cualquier otro mal ingeniero: las "soluciones" que intentan construir fallan continuamente. Una señal de advertencia temprana es la falta de experiencia con bibliotecas y lenguajes de programación estándar de la industria.

Pero ¿qué pasa con las personas que crean sistemas que parecen funcionar? ¿Cómo saber si está pasando algo sospechoso? ¡Se aplica la misma regla! El Charlatán es un personaje siniestro que te muestra lo bien que funcionó el modelo... con los mismos datos que usaron para crear el modelo.

Si ha creado un sistema de aprendizaje automático increíblemente complejo, ¿cómo sabe qué tan bueno es? No lo sabrás hasta que le muestres trabajar con datos nuevos que no ha visto antes.

Cuando vio los datos antes de realizar el pronóstico, es poco probable antesnarración

Cuando tienes suficientes datos para separar, no necesitas citar la belleza de tus fórmulas para justificar el proyecto (un hábito antiguo que veo en todas partes, no solo en la ciencia). Puedes decir: “Sé que funciona porque puedo tomar un conjunto de datos que no he visto antes y predecir exactamente lo que sucederá allí... y estaré en lo cierto. Una y otra vez".

Probar su modelo/teoría con nuevos datos es la mejor base para la confianza.

No tolero a los charlatanes de datos. No me importa si tu opinión se basa en diferentes trucos. No me impresiona la belleza de las explicaciones. Muéstrame que tu teoría/modelo funciona (y continúa funcionando) con una gran cantidad de datos nuevos que nunca has visto antes. Ésta es la verdadera prueba de la solidez de su opinión.

Contactar con expertos en ciencia de datos

Si quieres que todos los que entienden este humor te tomen en serio, deja de esconderte detrás de ecuaciones sofisticadas para respaldar prejuicios personales. Muéstrame lo que tienes. Si desea que aquellos que "lo entienden" vean su teoría/modelo como algo más que poesía inspiradora, tenga el coraje de montar un gran espectáculo de lo bien que funciona con un conjunto de datos completamente nuevo... delante de testigos. !

Apelación a los líderes

Negarse a tomar en serio cualquier "idea" sobre los datos hasta que hayan sido probados. nuevo datos. ¿No tienes ganas de esforzarte? Cíñete a los análisis, pero no confíes en estas ideas: no son confiables y no se ha probado su confiabilidad. Además, cuando una organización tiene datos en abundancia, no hay inconveniente en hacer que la separación sea fundamental en la ciencia y mantenerla a nivel de infraestructura controlando el acceso a los datos de prueba para las estadísticas. ¡Esta es una excelente manera de evitar que la gente intente engañarte!

Si quieres ver más ejemplos de charlatanes que no hacen nada bueno... aquí hay un hilo maravilloso en Twitter.

resultados

Cuando hay muy pocos datos para separar, sólo un charlatán intenta seguir estrictamente la inspiración descubriendo Estados Unidos retrospectivamente, redescubriendo matemáticamente fenómenos que ya se sabe que están en los datos y calificando la sorpresa como estadísticamente significativa. Esto los distingue del analista de mente abierta, que se ocupa de la inspiración, y del estadístico meticuloso, que ofrece evidencia al hacer predicciones.

Cuando haya muchos datos, adquiera el hábito de separarlos para poder tener lo mejor de ambos mundos. Asegúrese de realizar análisis y estadísticas por separado para subconjuntos individuales del conjunto de datos original.

  • Los analistas ofrecerle inspiración y apertura de mente.
  • Estadísticos ofrecerle pruebas rigurosas.
  • Charlatanes ofrecerle una retrospectiva retorcida que pretende ser análisis más estadísticas.

Quizás, después de leer el artículo, pienses “¿soy un charlatán”? Esto esta bien. Hay dos formas de deshacerse de este pensamiento: primero, mirar hacia atrás, ver lo que ha hecho y si su trabajo con datos le ha aportado beneficios prácticos. Y en segundo lugar, aún puedes trabajar en tus calificaciones (lo cual ciertamente no será superfluo), especialmente porque brindamos a nuestros estudiantes habilidades y conocimientos prácticos que les permitirán convertirse en verdaderos científicos de datos.

¿Cómo reconocer a un charlatán de Data Science?

Más cursos

Leer más

Fuente: habr.com

Añadir un comentario