如何识别数据科学江湖骗子?

如何识别数据科学江湖骗子?
您可能听说过分析师、机器学习和人工智能专家,但您听说过那些薪酬过高的人吗? 见面 数据江湖骗子! 这些黑客受到利润丰厚的工作的诱惑,给真正的数据科学家带来了坏名声。 在材料中,我们了解如何让这些人获得干净的水。

数据骗子无处不在

数据骗子非常擅长隐藏在众目睽睽之下,您可以 成为他们中的一员甚至没有意识到。 很可能,您的组织多年来一直窝藏这些鬼鬼祟祟的家伙,但好消息是,如果您知道要寻找什么,那么他们很容易识别。
第一个警告信号是缺乏了解 分析和统计学是非常不同的学科。 我将进一步解释这一点。

不同学科

统计学家接受过培训,可以对超出其数据范围的内容得出结论;分析师接受过培训,可以检查数据集的内容。 换句话说,分析师根据数据中的内容得出结论,而统计学家根据数据中未包含的内容得出结论。 分析师帮助您提出好的问题(提出假设),统计学家帮助您获得好的答案(检验您的假设)。

还有一些奇怪的混合角色,一个人试图坐在两把椅子上......为什么不呢? 数据科学的基本原则:如果你正在处理不确定性,你就不能使用 一样的 用于假设和测试的数据点。 当数据有限时,不确定性迫使人们在统计或分析之间做出选择。 说明 这里.

没有统计,你就会陷入困境,无法理解你刚刚制定的判断是否成立,而没有分析,你就会盲目前进,几乎没有机会驯服未知。 这是一个艰难的选择。

江湖骗子摆脱困境的方法就是忽视它,然后假装对突然发生的事情感到惊讶。 检验统计假设背后的逻辑归结为这样一个问题:数据是否足以让我们感到惊讶,从而改变我们的想法。 如果我们已经看到了数据,我们怎么会对它感到惊讶呢?

每当江湖骗子发现一种模式时,他们就会受到启发,然后检查 相同的数据相同的图案,在他们的理论旁边发布具有一两个合法 p 值的结果。 因此,他们在对你撒谎(或许也对他们自己撒谎)。 如果你不坚持你的假设,这个 p 值并不重要 您如何查看您的数据。 江湖骗子模仿分析师和统计学家的行为而不了解其原因。 结果,整个数据科学领域名声不佳。

真正的统计学家总是得出自己的结论

由于统计学家因其严谨的推理而享有近乎神秘的声誉,数据科学中的虚假信息数量达到了历史最高水平。 欺骗而且不被抓住很容易,特别是当毫无戒心的受害者认为这都是关于方程式和数据的时候。 数据集就是数据集,对吧? 不。 重要的是你如何使用它。

幸运的是,你只需要一条线索就能抓住这些江湖骗子:他们正在“追溯性地发现美国”。 通过重新发现他们已经知道的数据中存在的现象。

与江湖骗子不同,优秀的分析师思想开放,并且明白鼓舞人心的想法可以有许多不同的解释。 与此同时,优秀的统计学家在得出结论之前会仔细定义他们的结论。

分析师可以免除责任……只要他们在数据范围内。 如果他们想要索取一些他们没有看到的东西,那就完全是另一回事了。 他们应该脱掉分析师的鞋子,穿上统计学家的鞋子。 毕竟,无论正式职位是什么,没有规定说如果你愿意就不能同时学习这两个职业。 只是不要让他们感到困惑。

仅仅因为你擅长统计并不意味着你擅长分析,反之亦然。 如果有人试图告诉你相反的情况,你应该小心。 如果这个人告诉你可以从你已经研究过的数据中得出统计结论,那么这就是你要加倍警惕的理由。

离奇的解释

在野外观察数据江湖骗子时,你会发现他们喜欢编造奇幻故事来“解释”他们观察到的数据。 越学术越好。 这些故事事后进行调整并不重要。

当江湖骗子这样做时——让我明确一点——他们是在撒谎。 再多的方程或奇特的概念也无法弥补他们提供的理论零证明这一事实。 不要对他们的解释有多么不寻常感到惊讶。

这与通过首先查看手中的牌然后预测你拿着什么......你拿着什么来展示你的“通灵”能力是一样的。 这是事后诸葛亮的偏见,数据科学行业充满了这种偏见。

如何识别数据科学江湖骗子?

分析师表示:“你刚刚选择了钻石皇后。” 统计学家说:“在我们开始之前,我在这张纸上写下了我的假设。 让我们尝试一下并查看一些数据,看看我是否正确。” 江湖骗子说:“我知道你会成为钻石皇后,因为……”

数据共享是每个人都需要的快速解决方案。

当数据不多时,你必须在统计和分析之间做出选择,但当数据足够多时,就有很好的机会使用分析而不欺骗 и 统计数据。 你可以完美地防御江湖骗子——数据分离,在我看来,这是数据科学中最强大的想法。

为了保护自己免受江湖骗子的侵害,您所需要做的就是确保将一些测试数据保留在他们窥探的范围之外,然后将其余数据视为分析。 当你遇到一个你有可能接受的理论时,用它来评估情况,然后透露你的秘密测试数据来检查这个理论不是无稽之谈。 就这么简单!

如何识别数据科学江湖骗子?
确保在探索阶段没有人可以查看测试数据。 为此,请坚持研究数据。 测试数据不应用于分析。

这与人们习惯的“小数据”时代相比是一个很大的进步,在“小数据”时代,你必须解释你如何知道你所知道的事情,才能最终让人们相信你确实知道一些事情。

对 ML/AI 应用相同的规则

一些冒充机器学习/人工智能专家的江湖骗子也很容易被发现。 你会像抓住其他糟糕的工程师一样抓住他们:他们试图构建的“解决方案”不断失败。 一个早期预警信号是缺乏行业标准编程语言和库的经验。

但是那些创造出看起来有效的系统的人呢? 你怎么知道是否有可疑的事情发生? 同样的规则也适用! 江湖骗子是一个险恶的角色,他向您展示模型在用于创建模型的相同数据上的运行效果如何。

如果您构建了一个极其复杂的机器学习系统,您怎么知道它有多好? 除非你向她展示如何使用她以前从未见过的新数据,否则你不会知道。

当您在预测之前看到数据时 - 这不太可能 讲述

当您有足够的数据进行分离时,您不需要引用公式的美妙性来证明该项目的合理性(这是我随处可见的一种旧时尚习惯,而不仅仅是在科学中)。 你可以说: “我知道它有效,因为我可以使用我以前从未见过的数据集并准确预测那里会发生什么......我会是对的。 一次又一次”。

根据新数据测试您的模型/理论是信心的最佳基础。

我不能容忍数据江湖骗子。 我不在乎你的意见是否基于不同的技巧。 我对这些解释的美妙之处没有留下深刻的印象。 向我展示您的理论/模型适用于(并将继续适用于)您以前从未见过的一大堆新数据。 这是对你的观点力量的真正考验。

联系数据科学专家

如果你想被每个理解这种幽默的人认真对待,就不要再躲在花哨的方程式后面来支持个人偏见。 告诉我你有什么。 如果您希望那些“明白”的人将您的理论/模型视为不仅仅是鼓舞人心的诗歌,请有勇气在目击者面前展示它在一组全新数据上的效果如何!

向领导呼吁

在经过测试之前拒绝认真对待有关数据的任何“想法” 数据。 不想付出努力吗? 坚持分析,但不要依赖这些想法——它们不可靠,也没有经过可靠性测试。 此外,当一个组织拥有大量数据时,将分离作为科学的基础并通过控制对统计测试数据的访问来在基础设施层面上维护它并没有什么坏处。 这是阻止人们试图愚弄您的好方法!

如果你想看到更多不怀好意的江湖骗子的例子—— Twitter 上有一个很棒的帖子.

结果

当数据太少而无法分离时,只有江湖骗子会试图严格遵循灵感,回顾性地发现美国,在数学上重新发现数据中已知的现象,并称这一惊喜具有统计意义。 这将他们与思想开放的分析师(处理灵感)和细致的统计学家(在做出预测时提供证据)区分开来。

当有大量数据时,养成分离数据的习惯,这样您就可以两全其美! 确保对原始数据堆的各个子集分别进行分析和统计。

  • 分析师 为您提供灵感和开放的思想。
  • 统计数据 为您提供严格的测试。
  • 江湖骗子 为您提供一个扭曲的事后诸葛亮,假装是分析加统计。

或许,读完这篇文章,你会产生“我是江湖骗子吗”的想法? 这可以。 摆脱这种想法的方法有两个:第一,回顾过去,看看你做了什么,你的数据工作是否带来了实际效益。 其次,你仍然可以提高你的资格(这当然不会是多余的),特别是因为我们为学生提供实用技能和知识,使他们成为真正的数据科学家。

如何识别数据科学江湖骗子?

更多课程

阅读更多

来源: habr.com

添加评论