Comment reconnaître un charlatan de Data Science ?

Comment reconnaître un charlatan de Data Science ?
Vous avez peut-être entendu parler des analystes, des spécialistes de l’apprentissage automatique et de l’intelligence artificielle, mais avez-vous entendu parler de ceux qui sont injustement surpayés ? Rencontrer charlatan des données! Ces hacks, attirés par des emplois lucratifs, donnent une mauvaise réputation aux vrais data scientists. Dans le matériel, nous comprenons comment amener ces personnes à l'eau potable.

Les charlatans des données sont partout

Les charlatans des données sont si doués pour se cacher à la vue de tous que vous pouvez sois l'un d'entre euxsans même s'en rendre compte. Il y a de fortes chances que votre organisation héberge ces individus sournois depuis des années, mais la bonne nouvelle est qu'ils sont faciles à identifier si vous savez quoi chercher.
Le premier signe d’alerte est le manque de compréhension du fait que l'analyse et les statistiques sont des disciplines très différentes. Je vais expliquer cela plus en détail.

Différentes disciplines

Les statisticiens sont formés pour tirer des conclusions sur ce qui va au-delà de leurs données, les analystes sont formés pour examiner le contenu d'un ensemble de données. En d’autres termes, les analystes tirent des conclusions sur ce qui figure dans leurs données, et les statisticiens tirent des conclusions sur ce qui ne figure pas dans les données. Les analystes vous aident à poser de bonnes questions (faire des hypothèses) et les statisticiens vous aident à obtenir de bonnes réponses (tester vos hypothèses).

Il existe aussi des rôles hybrides étranges où une personne essaie de s'asseoir sur deux chaises... Pourquoi pas ? Principe de base de la science des données : si vous faites face à de l'incertitude, vous ne pouvez pas utiliser le même point de données pour les hypothèses et les tests. Lorsque les données sont limitées, l’incertitude oblige à choisir entre les statistiques ou l’analyse. Explication ici.

Sans statistiques, vous serez coincé et incapable de comprendre si le jugement que vous venez de formuler tient, et sans analyse, vous avancez à l’aveugle, avec peu de chances d’apprivoiser l’inconnu. C'est un choix difficile.

Le moyen pour le charlatan de se sortir de ce pétrin est de l'ignorer et de faire semblant d'être surpris par ce qui se produit soudainement. La logique derrière le test des hypothèses statistiques se résume à la question de savoir si les données nous surprennent suffisamment pour changer d’avis. Comment pouvons-nous être surpris par des données si nous les avons déjà vues ?

Chaque fois que les charlatans trouvent un modèle, ils s'inspirent, puis vérifient mêmes données pour le même modèle, pour publier le résultat avec une ou deux valeurs p légitimes, à côté de leur théorie. Ainsi, ils vous mentent (et peut-être à eux-mêmes aussi). Cette valeur p n'a pas d'importance si vous ne vous en tenez pas à votre hypothèse à comment vous avez consulté vos données. Les charlatans imitent les actions des analystes et des statisticiens sans en comprendre les raisons. En conséquence, l’ensemble du domaine de la science des données a une mauvaise réputation.

Les vrais statisticiens tirent toujours leurs propres conclusions

Grâce à la réputation presque mystique des statisticiens pour leur raisonnement rigoureux, la quantité de fausses informations en science des données atteint un niveau sans précédent. Il est facile de tromper et de ne pas se faire prendre, surtout si la victime sans méfiance pense que tout est question d'équations et de données. Un ensemble de données est un ensemble de données, n'est-ce pas ? Non. La façon dont vous l’utilisez est importante.

Heureusement, il suffit d’un seul indice pour attraper les charlatans : ils « découvrent l’Amérique rétroactivement ». En redécouvrant des phénomènes dont ils savent déjà qu’ils sont présents dans les données.

Contrairement aux charlatans, les bons analystes sont ouverts d’esprit et comprennent que les idées inspirantes peuvent avoir de nombreuses explications différentes. Dans le même temps, les bons statisticiens définissent soigneusement leurs conclusions avant de les tirer.

Les analystes sont exonérés de toute responsabilité... tant qu'ils restent dans le périmètre de leurs données. S’ils sont tentés de revendiquer quelque chose qu’ils n’ont pas vu, c’est une tout autre affaire. Ils devraient enlever les chaussures de l'analyste et enfiler celles du statisticien. Après tout, quel que soit le titre officiel du poste, aucune règle n'interdit d'étudier les deux professions si vous le souhaitez. Ne les confondez pas.

Ce n’est pas parce que vous êtes bon en statistiques que vous êtes bon en analyse, et vice versa. Si quelqu’un essaie de vous dire le contraire, vous devez vous méfier. Si cette personne vous dit qu’il est permis de tirer des conclusions statistiques à partir de données que vous avez déjà étudiées, c’est une raison d’être doublement prudent.

Des explications bizarres

En observant les charlatans des données dans la nature, vous remarquerez qu’ils adorent inventer des histoires fantastiques pour « expliquer » les données qu’ils observent. Plus c’est académique, mieux c’est. Peu importe que ces histoires soient ajustées avec le recul.

Lorsque les charlatans font cela, je dois être clair, ils mentent. Aucune quantité d’équations ou de concepts fantaisistes ne peut compenser le fait qu’ils n’ont offert aucune preuve de leurs théories. Ne soyez pas surpris par le caractère inhabituel de leurs explications.

Cela revient à démontrer vos capacités « psychiques » en regardant d'abord les cartes que vous avez en main, puis en prédisant ce que vous tenez... ce que vous tenez. Il s’agit d’un biais rétrospectif, et la profession de la science des données en regorge.

Comment reconnaître un charlatan de Data Science ?

Les analystes disent : « Vous venez de choisir la reine de carreau. » Les statisticiens déclarent : « J’ai écrit mes hypothèses sur ce morceau de papier avant de commencer. Jouons et regardons quelques données et voyons si j'ai raison." Les charlatans disent : « Je savais que tu allais devenir cette reine de carreau parce que... »

Le partage de données est la solution miracle dont tout le monde a besoin.

Lorsqu'il n'y a pas beaucoup de données, vous devez choisir entre les statistiques et l'analyse, mais lorsqu'il y a suffisamment de données, il existe une excellente opportunité d'utiliser l'analyse sans tromperie. и statistiques. Vous disposez de la défense parfaite contre les charlatans : la séparation des données et, à mon avis, c'est l'idée la plus puissante de la Data Science.

Pour vous protéger des charlatans, tout ce que vous avez à faire est de vous assurer de conserver certaines données de test hors de portée de leurs regards indiscrets, puis de traiter le reste comme de l'analyse. Lorsque vous tombez sur une théorie que vous risquez d'accepter, utilisez-la pour évaluer la situation, puis révélez les données secrètes de votre test pour vérifier que la théorie n'a pas de sens. C'est si simple !

Comment reconnaître un charlatan de Data Science ?
Assurez-vous que personne n'est autorisé à consulter les données de test pendant la phase d'exploration. Pour ce faire, tenez-vous-en aux données de recherche. Les données de test ne doivent pas être utilisées pour l’analyse.

Il s'agit d'un grand pas en avant par rapport à ce à quoi les gens sont habitués à l'ère des « petites données », où vous devez expliquer comment vous savez ce que vous savez afin de finalement convaincre les gens que vous savez réellement quelque chose.

Appliquer les mêmes règles au ML/AI

Certains charlatans se faisant passer pour des experts en ML/IA sont également faciles à repérer. Vous les attraperez de la même manière que vous attraperiez n’importe quel autre mauvais ingénieur : les « solutions » qu’ils tentent de construire échouent continuellement. Un signe d’alerte précoce est le manque d’expérience avec les langages de programmation et les bibliothèques standard de l’industrie.

Mais qu’en est-il des personnes qui créent des systèmes qui semblent fonctionner ? Comment savoir si quelque chose de suspect se passe ? La même règle s’applique ! Le Charlatan est un personnage sinistre qui vous montre à quel point le modèle a fonctionné... sur les mêmes données que celles utilisées pour créer le modèle.

Si vous avez construit un système d’apprentissage automatique incroyablement complexe, comment savoir à quel point il est performant ? Vous ne le saurez pas tant que vous ne lui aurez pas montré travailler avec de nouvelles données qu'elle n'a jamais vues auparavant.

Lorsque vous avez vu les données avant de faire des prévisions, c'est peu probable avantrécit

Lorsque vous disposez de suffisamment de données à séparer, vous n'avez pas besoin de citer la beauté de vos formules pour justifier le projet (une vieille habitude que je vois partout, pas seulement en science). Tu peux dire: "Je sais que cela fonctionne parce que je peux prendre un ensemble de données que je n'ai jamais vu auparavant et prédire exactement ce qui s'y passera... et j'aurai raison. Encore et encore".

Tester votre modèle/théorie par rapport à de nouvelles données est la meilleure base de confiance.

Je ne tolère pas les charlatans des données. Peu m'importe si votre opinion est basée sur des astuces différentes. Je ne suis pas impressionné par la beauté des explications. Montrez-moi que votre théorie/modèle fonctionne (et continue de fonctionner) sur tout un tas de nouvelles données que vous n'avez jamais vues auparavant. C’est le véritable test de la force de votre opinion.

Contacter des experts en science des données

Si vous voulez être pris au sérieux par tous ceux qui comprennent cet humour, arrêtez de vous cacher derrière des équations fantaisistes pour soutenir des préjugés personnels. Montre-moi ce que tu as. Si vous voulez que ceux qui « comprennent » voient votre théorie/modèle comme plus qu'une simple poésie inspirante, ayez le courage de montrer en grand à quel point cela fonctionne sur un tout nouvel ensemble de données... devant témoins. !

Appel aux dirigeants

Refusez de prendre au sérieux toute « idée » sur les données jusqu'à ce qu'elles aient été testées nouveau données. Vous n'avez pas envie de faire des efforts ? Tenez-vous-en aux analyses, mais ne vous fiez pas à ces idées : elles ne sont pas fiables et leur fiabilité n'a pas été testée. De plus, lorsqu’une organisation dispose de données en abondance, il n’y a aucun inconvénient à rendre la séparation fondamentale en science et à la maintenir au niveau de l’infrastructure en contrôlant l’accès aux données de test à des fins statistiques. C’est un excellent moyen d’empêcher les gens d’essayer de vous tromper !

Si vous voulez voir plus d'exemples de charlatans qui ne servent à rien - voici un merveilleux fil de discussion sur Twitter.

Les résultats de

Lorsqu’il y a trop peu de données à séparer, seul un charlatan essaie de suivre strictement l’inspiration en découvrant l’Amérique rétrospectivement, en redécouvrant mathématiquement des phénomènes déjà connus comme étant dans les données et en qualifiant la surprise de statistiquement significative. Cela les distingue de l’analyste ouvert d’esprit, qui s’occupe d’inspiration, et du statisticien méticuleux, qui présente des preuves lorsqu’il fait des prédictions.

Lorsqu’il y a beaucoup de données, prenez l’habitude de séparer les données pour bénéficier du meilleur des deux mondes ! Assurez-vous d'effectuer des analyses et des statistiques séparément pour des sous-ensembles individuels de la pile de données d'origine.

  • Les analystes vous offrent inspiration et ouverture d’esprit.
  • Statistiques vous proposer des tests rigoureux.
  • Charlatans vous offre un recul tordu qui prétend être de l'analyse et des statistiques.

Peut-être qu'après avoir lu l'article, vous penserez « suis-je un charlatan » ? C'est bon. Il existe deux manières de se débarrasser de cette pensée : premièrement, regardez en arrière, voyez ce que vous avez fait, si votre travail avec les données a apporté des avantages pratiques. Et deuxièmement, vous pouvez toujours travailler sur vos qualifications (ce qui ne sera certainement pas superflu), d’autant plus que nous donnons à nos étudiants des compétences et des connaissances pratiques qui leur permettent de devenir de véritables data scientists.

Comment reconnaître un charlatan de Data Science ?

Plus de cours

Lire plus

Source: habr.com

Ajouter un commentaire