如何從數據科學中識別江湖騙子?

如何從數據科學中識別江湖騙子?
您可能聽過分析師、機器學習和人工智慧專家,但您聽說過那些薪水過高的人嗎?見面 資料江湖騙子!這些駭客受到利潤豐厚的工作的誘惑,給真正的資料科學家帶來了壞名聲。在材料中,我們了解如何讓這些人獲得乾淨的水。

數據騙子無所不在

資料騙子非常擅長隱藏在眾目睽睽之下,您可以 成為他們中的一員甚至沒有意識到。很有可能,您的組織多年來一直窩藏這些鬼鬼祟祟的傢伙,但好消息是,如果您知道要尋找什麼,那麼他們很容易識別。
第一個警訊是缺乏了解 分析和統計學是非常不同的學科。我將進一步解釋這一點。

不同學科

統計學家接受過培訓,可以對超出其資料範圍的內容得出結論;分析師接受過培訓,可以檢查資料集的內容。換句話說,分析師根據數據中的內容得出結論,而統計學家根據數據中未包含的內容得出結論。分析師幫助您提出好的問題(提出假設),統計學家幫助您獲得好的答案(檢驗您的假設)。

還有一些奇怪的混合角色,一個人試圖坐在兩張椅子上......為什麼不呢?資料科學的基本原則:如果你正在處理不確定性,你就不能使用 相同 用於假設和檢驗的數據點。當數據有限時,不確定性迫使人們在統計或分析之間做出選擇。 說明 這裡.

沒有統計,你就會陷入困境,無法理解你剛剛制定的判斷是否成立;沒有分析,你就會盲目行動,幾乎沒有機會馴服未知。這是一個艱難的選擇。

江湖騙子擺脫困境的方法就是忽視它,然後假裝對突然發生的事情感到驚訝。檢驗統計假設背後的邏輯歸結為這樣一個問題:數據是否足以讓我們感到驚訝,從而改變我們的想法。如果我們已經看到了數據,我們怎麼會對它感到驚訝呢?

每當江湖騙子發現一種模式時,他們就會受到啟發,然後檢查 相同的數據相同的圖案,在他們的理論旁邊發布具有一兩個合法 p 值的結果。因此,他們在對你說謊(或許也對他們自己說謊)。如果你不堅持你的假設,這個 p 值並不重要 您如何查看您的資料。江湖騙子模仿分析師和統計學家的行為而不了解原因。結果,整個數據科學領域名聲不佳。

真正的統計學家總是得出自己的結論

由於統計學家因其嚴謹的推理而享有近乎神秘的聲譽,因此數據科學中虛假資訊的數量達到了歷史最高水平。欺騙而且不被抓住很容易,特別是當毫無戒心的受害者認為這一切都與方程式和數據有關時。數據集就是數據集,對吧?不。重要的是你如何使用它。

幸運的是,你只需要一條線索就能抓住這些江湖騙子:他們正在「追溯地發現美國」。透過重新發現他們已經知道的數據中存在的現象。

與江湖騙子不同,優秀的分析師思想開放,並且明白鼓舞人心的想法可以有許多不同的解釋。同時,優秀的統計學家在得出結論之前會仔細定義他們的結論。

分析師可以免除責任……只要他們在數據範圍內。如果他們想要索取一些他們沒有看到的東西,那就完全是另一回事了。他們應該脫掉分析師的鞋子,穿上統計學家的鞋子。畢竟,無論正式職位是什麼,沒有規定說如果你願意就不能同時學習這兩個職業。只是不要讓他們感到困惑。

僅僅因為你擅長統計並不代表你擅長分析,反之亦然。如果有人試圖告訴你相反的情況,你應該小心。如果這個人告訴你可以從你已經研究過的數據中得出統計結論,那麼這就是你要加倍警惕的理由。

離奇的解釋

在野外觀察資料江湖騙子時,你會發現他們喜歡編造奇幻故事來「解釋」他們觀察到的數據。越學術越好。這些故事事後調整並不重要。

當江湖騙子這樣做時——讓我明確一點——他們是在撒謊。再多的方程式或奇特的概念也無法彌補他們所提供的理論零證明這一事實。不要對他們的解釋有多麼不尋常感到驚訝。

這與透過先看手中的牌然後預測你拿著什麼......你拿著什麼來展示你的「通靈」能力相同。這是事後諸葛亮的偏見,數據科學產業充滿了這種偏見。

如何從數據科學中識別江湖騙子?

分析師表示:“你剛剛選擇了鑽石皇后。”統計學家說:「在我們開始之前,我在這張紙上寫下了我的假設。讓我們嘗試一下並查看一些數據,看看我是否正確。”江湖騙子說:“我知道你會成為鑽石皇后,因為…”

資料共享是每個人都需要的快速解決方案。

當數據不多時,你必須在統計和分析之間做出選擇,但當數據足夠多時,就有很好的機會使用分析而不欺騙 и 統計數據。你可以完美地防禦江湖騙子——數據分離,在我看來,這是數據科學中最強大的想法。

為了保護自己免受江湖騙子的侵害,您所需要做的就是確保將一些測試資料保留在他們窺探的範圍之外,然後將其餘資料視為分析。當你遇到一個你有可能接受的理論時,用它來評估情況,然後透露你的秘密測試數據來檢查這個理論不是無稽之談。就這麼簡單!

如何從數據科學中識別江湖騙子?
確保在探索階段沒有人可以查看測試資料。為此,請堅持研究數據。測試數據不應用於分析。

這與人們習慣的「小數據」時代相比是一個很大的進步,在「小數據」時代,你必須解釋你是如何知道你所知道的,才能最終讓人們相信你確實知道一些東西。

對 ML/AI 應用相同的規則

一些冒充機器學習/人工智慧專家的江湖騙子也很容易被發現。你會像抓住其他糟糕的工程師一樣抓住他們:他們試圖建立的「解決方案」不斷失敗。一個早期預警訊號是缺乏業界標準程式語言和函式庫的經驗。

但是那些創造出看起來有效的系統的人呢?你怎麼知道是否有可疑的事情發生?同樣的規則也適用!江湖騙子是一個險惡的角色,他向您展示模型在用於創建模型的相同數據上的運作效果如何。

如果您建立了一個極其複雜的機器學習系統,您怎麼知道它有多好?除非你向她展示如何使用她以前從未見過的新數據,否則你不會知道。

當您在預測之前看到數據時 - 這不太可能 在...前面講述

當你有足夠的數據進行分離時,你不需要引用公式的美妙來證明該項目的合理性(這是我隨處可見的一種舊時尚習慣,而不僅僅是在科學中)。你可以說: 「我知道它有效,因為我可以使用我以前從未見過的數據集並準確預測那裡會發生什麼......我會是對的。一次又一次」。

根據新數據測試您的模型/理論是信心的最佳基礎。

我不能容忍數據江湖騙子。我不在乎你的意見是否基於不同的技巧。我對這些解釋的美妙之處沒有留下深刻的印象。向我展示您的理論/模型適用於(並將繼續適用於)您以前從未見過的一大堆新數據。這是對你的觀點力量的真正考驗。

聯繫數據科學專家

如果你想被每個理解這種幽默的人認真對待,就不要再躲在花俏的方程式後面來支持個人偏見。告訴我你有什麼。如果您希望那些「明白」的人將您的理論/模型視為不僅僅是鼓舞人心的詩歌,請有勇氣在目擊者面前展示它在一組全新數據上的效果如何!

向領導呼籲

在經過測試之前拒絕認真對待有關數據的任何“想法” 數據。不想付出努力嗎?堅持分析,但不要依賴這些想法——它們不可靠,也沒有經過可靠性測試。此外,當組織擁有大量數據時,將分離作為科學的基礎並透過控制對統計測試數據的存取來在基礎設施層面上維護它並沒有什麼壞處。這是阻止人們試圖愚弄您的好方法!

如果你想看更多不懷好意的江湖騙子的例子—— Twitter 上有一個很棒的帖子.

結果

當數據太少而無法分離時,只有江湖騙子會試圖嚴格遵循靈感,回顧性地發現美國,從數學上重新發現數據中已知的現象,並稱這一驚喜具有統計意義。這將他們與思想開放的分析師(處理靈感)和細緻的統計學家(在做出預測時提供證據)區分開來。

當有大量數據時,養成分離數據的習慣,這樣您就可以兩全其美!確保對原始資料堆的各個子集分別進行分析和統計。

  • 分析師 為您提供靈感和開放的思想。
  • 統計數據 為您提供嚴格的測試。
  • 江湖騙子 為您提供一個扭曲的事後諸葛亮,假裝是分析加統計。

或許,讀完這篇文章,你會產生「我是江湖騙子嗎」的想法?這可以。擺脫這種想法有兩個方法:第一,回顧一下,看看你做了什麼,你對數據的工作是否帶來了實際效益。其次,你仍然可以提高你的資格(這當然不會是多餘的),特別是因為我們為學生提供實用技能和知識,使他們成為真正的資料科學家。

如何從數據科學中識別江湖騙子?

更多課程

閱讀更多

來源: www.habr.com

添加評論