Como reconhecer um charlatão da Data Science?

Como reconhecer um charlatão da Data Science?
Você pode ter ouvido falar de analistas, especialistas em aprendizado de máquina e inteligência artificial, mas já ouviu falar daqueles que recebem salários excessivos injustamente? Encontrar charlatão de dados! Esses hackers, atraídos por empregos lucrativos, dão má fama aos verdadeiros cientistas de dados. No material entendemos como levar essas pessoas à água potável.

Charlatões de dados estão por toda parte

Os charlatões dos dados são tão bons em se esconder à vista de todos que você pode seja um delesmesmo sem perceber. Provavelmente, sua organização abriga esses caras sorrateiros há anos, mas a boa notícia é que eles são fáceis de identificar se você souber o que procurar.
O primeiro sinal de alerta é a falta de compreensão de que análise e estatística são disciplinas muito diferentes. Vou explicar isso melhor.

Disciplinas diferentes

Os estatísticos são treinados para tirar conclusões sobre o que vai além dos seus dados, os analistas são treinados para examinar o conteúdo de um conjunto de dados. Por outras palavras, os analistas tiram conclusões sobre o que está nos seus dados e os estatísticos tiram conclusões sobre o que não está nos dados. Os analistas ajudam você a fazer boas perguntas (criar hipóteses) e os estatísticos ajudam você a obter boas respostas (testar suas hipóteses).

Existem também papéis híbridos estranhos onde uma pessoa tenta sentar-se em duas cadeiras... Por que não? Princípio básico da ciência de dados: se você está lidando com incerteza, não pode usar o mesmo ponto de dados para hipóteses e testes. Quando os dados são limitados, a incerteza obriga a escolher entre estatísticas ou análises. Explicação aqui.

Sem estatísticas, você ficará preso e incapaz de entender se o julgamento que acabou de formular se sustenta e, sem análise, você estará se movendo cegamente, com poucas chances de domar o desconhecido. Esta é uma escolha difícil.

A saída do charlatão para essa confusão é ignorá-la e depois fingir que está surpreso com o que acontece de repente. A lógica por trás do teste de hipóteses estatísticas resume-se à questão de saber se os dados nos surpreendem o suficiente para nos fazer mudar de ideias. Como podemos nos surpreender com os dados se já os vimos?

Sempre que os charlatões encontram um padrão, eles se inspiram e depois verificam mesmos dados para o mesmo padrão, para publicar o resultado com um valor p legítimo ou dois, próximo à sua teoria. Assim, eles estão mentindo para você (e, talvez, para eles próprios também). Este valor p não importa se você não seguir sua hipótese para como você visualizou seus dados. Os charlatães imitam as ações de analistas e estatísticos sem compreender os motivos. Como resultado, todo o campo da ciência de dados ganha má reputação.

Os verdadeiros estatísticos sempre tiram suas próprias conclusões

Graças à reputação quase mística dos estatísticos pelo seu raciocínio rigoroso, a quantidade de informações falsas na Ciência de Dados está em alta. É fácil enganar e não ser pego, principalmente se a vítima desavisada pensa que tudo se resume a equações e dados. Um conjunto de dados é um conjunto de dados, certo? Não. É importante como você o usa.

Felizmente, você só precisa de uma pista para pegar os charlatões: eles estão “descobrindo retroativamente a América”. Redescobrindo fenômenos que já sabem que estão presentes nos dados.

Ao contrário dos charlatães, os bons analistas têm a mente aberta e entendem que ideias inspiradoras podem ter muitas explicações diferentes. Ao mesmo tempo, bons estatísticos definem cuidadosamente as suas conclusões antes de as tirarem.

Os analistas estão isentos de responsabilidade... desde que permaneçam dentro do escopo de seus dados. Se eles são tentados a reivindicar algo que não viram, isso é uma tarefa totalmente diferente. Deveriam tirar os sapatos de analista e calçar os sapatos de estatístico. Afinal, não importa qual seja o cargo oficial, não existe uma regra que diga que você não pode estudar as duas profissões se quiser. Só não os confunda.

Só porque você é bom em estatística não significa que você seja bom em análise e vice-versa. Se alguém tentar lhe dizer o contrário, você deve ter cuidado. Se essa pessoa lhe disser que é permitido tirar conclusões estatísticas a partir de dados que você já estudou, este é um motivo para ser duplamente cauteloso.

Explicações bizarras

Ao observar charlatães de dados em liberdade, você notará que eles adoram inventar histórias fantásticas para “explicar” os dados que observam. Quanto mais acadêmico, melhor. Não importa que essas histórias sejam ajustadas retrospectivamente.

Quando os charlatões fazem isto - deixe-me ser claro - eles estão mentindo. Nenhuma quantidade de equações ou conceitos sofisticados pode compensar o fato de que eles não ofereceram nenhuma prova de suas teorias. Não se surpreenda com o quão incomuns são suas explicações.

Isto é o mesmo que demonstrar suas habilidades “psíquicas” olhando primeiro para as cartas em suas mãos e depois prevendo o que você está segurando... o que você está segurando. Este é um preconceito retrospectivo, e a profissão de ciência de dados está repleta disso.

Como reconhecer um charlatão da Data Science?

Os analistas dizem: “Você acabou de escolher a Rainha de Ouros”. Os estatísticos dizem: “Escrevi minhas hipóteses neste pedaço de papel antes de começarmos. Vamos brincar e analisar alguns dados e ver se estou certo." Charlatães dizem: “Eu sabia que você se tornaria essa Rainha de Ouros porque...”

O compartilhamento de dados é a solução rápida que todos precisam.

Quando não há muitos dados, você tem que escolher entre estatísticas e análises, mas quando há dados mais do que suficientes, há uma grande oportunidade de usar análises sem engano и Estatisticas. Você tem a defesa perfeita contra charlatães – separação de dados e, na minha opinião, esta é a ideia mais poderosa em Ciência de Dados.

Para se proteger de charlatões, tudo o que você precisa fazer é manter alguns dados de teste fora do alcance de olhares indiscretos e, em seguida, tratar o resto como análise. Quando você se deparar com uma teoria que corre o risco de aceitar, use-a para avaliar a situação e, em seguida, revele os dados secretos do seu teste para verificar se a teoria não é absurda. É tão simples!

Como reconhecer um charlatão da Data Science?
Certifique-se de que ninguém tenha permissão para visualizar os dados de teste durante a fase de exploração. Para fazer isso, atenha-se aos dados da pesquisa. Os dados de teste não devem ser usados ​​para análise.

Este é um grande avanço em relação ao que as pessoas estão acostumadas na era dos “pequenos dados”, onde você tem que explicar como você sabe o que sabe para finalmente convencer as pessoas de que você realmente sabe alguma coisa.

Aplique as mesmas regras ao ML/AI

Alguns charlatões que se passam por especialistas em ML/IA também são fáceis de detectar. Você os pegará da mesma forma que pegaria qualquer outro engenheiro ruim: as “soluções” que eles tentam construir falham continuamente. Um sinal de alerta precoce é a falta de experiência com linguagens de programação e bibliotecas padrão da indústria.

Mas e as pessoas que criam sistemas que parecem funcionar? Como saber se algo suspeito está acontecendo? A mesma regra se aplica! O Charlatão é um personagem sinistro que mostra como o modelo funcionou bem... com os mesmos dados que eles usaram para criar o modelo.

Se você construiu um sistema de aprendizado de máquina extremamente complexo, como saber se ele é bom? Você não saberá até mostrar a ela trabalhando com novos dados que ela nunca viu antes.

Quando você viu os dados antes da previsão – é improvável antescontando

Quando você tem dados suficientes para separar, não precisa citar a beleza de suas fórmulas para justificar o projeto (um hábito antigo que vejo em todos os lugares, não apenas na ciência). Você pode dizer: “Sei que funciona porque posso pegar um conjunto de dados que nunca vi antes e prever exatamente o que acontecerá lá... e estarei certo. De novo e de novo".

Testar seu modelo/teoria em relação a novos dados é a melhor base para confiança.

Não tolero charlatões de dados. Não me importo se sua opinião é baseada em truques diferentes. Não estou impressionado com a beleza das explicações. Mostre-me que sua teoria/modelo funciona (e continua funcionando) em um monte de dados novos que você nunca viu antes. Este é o verdadeiro teste da força da sua opinião.

Entrando em contato com especialistas em ciência de dados

Se você quer ser levado a sério por todos que entendem esse humor, pare de se esconder atrás de equações sofisticadas para apoiar preconceitos pessoais. Mostre-me o que você tem. Se você deseja que aqueles que "entendem" vejam sua teoria/modelo como mais do que apenas poesia inspiradora, tenha a coragem de fazer uma grande demonstração de como ela funciona bem em um conjunto de dados completamente novo... na frente de testemunhas !

Apelo aos líderes

Recuse-se a levar a sério quaisquer “ideias” sobre os dados até que tenham sido testadas novo dados. Não tem vontade de se esforçar? Atenha-se às análises, mas não confie nessas ideias – elas não são confiáveis ​​e não foram testadas quanto à confiabilidade. Além disso, quando uma organização dispõe de dados em abundância, não há qualquer desvantagem em tornar a separação fundamental na ciência e mantê-la ao nível da infraestrutura, controlando o acesso aos dados de teste para fins estatísticos. Esta é uma ótima maneira de impedir que as pessoas tentem enganá-lo!

Se você quiser ver mais exemplos de charlatões que não prestam nada - aqui está um tópico maravilhoso no Twitter.

Resultados de

Quando há poucos dados para separar, apenas um charlatão tenta seguir estritamente a inspiração, descobrindo a América retrospectivamente, redescobrindo matematicamente fenómenos já conhecidos nos dados e chamando a surpresa de estatisticamente significativa. Isto os distingue do analista de mente aberta, que lida com a inspiração, e do estatístico meticuloso, que oferece evidências ao fazer previsões.

Quando há muitos dados, adquira o hábito de separá-los para ter o melhor dos dois mundos! Certifique-se de fazer análises e estatísticas separadamente para subconjuntos individuais da pilha original de dados.

  • Analistas oferecer-lhe inspiração e mente aberta.
  • Estatisticas oferecer testes rigorosos.
  • Charlatões oferecem uma retrospectiva distorcida que finge ser análise mais estatística.

Talvez, depois de ler o artigo, você tenha o pensamento “sou um charlatão”? Isto é bom. Existem duas maneiras de se livrar desse pensamento: primeiro, olhe para trás, veja o que você fez, se o seu trabalho com dados trouxe benefícios práticos. E em segundo lugar, você ainda pode aprimorar suas qualificações (o que certamente não será supérfluo), especialmente porque damos aos nossos alunos habilidades e conhecimentos práticos que lhes permitem se tornarem verdadeiros cientistas de dados.

Como reconhecer um charlatão da Data Science?

Mais cursos

Consulte Mais informação

Fonte: habr.com

Adicionar um comentário