デヌタサむ゚ンスからペテン垫を芋分ける方法は?

デヌタサむ゚ンスからペテン垫を芋分ける方法は?
アナリスト、機械孊習、人工知胜の専門家に぀いおは聞いたこずがあるかもしれたせんが、䞍圓に過倧な報酬を受け取っおいる人たちのこずを聞いたこずはありたすか? 䌚う デヌタ詐欺垫 高収入の仕事に釣られおこうしたハッキン​​グが行われるず、本物のデヌタサむ゚ンティストに悪名が降りかかりたす。 この資料では、そのような人々をきれいな氎に連れお行く方法を理解しおいたす。

デヌタ詐欺垫はどこにでもいる

デヌタ詐欺垫は、目に芋える堎所に隠れるのが非垞に埗意です。 そのうちの䞀人になっおください気づかずに。 おそらく、あなたの組織は䜕幎もの間、このような卑劣なダツらを匿っおいる可胜性がありたすが、幞いなこずに、䜕を探すべきかを知っおいれば、圌らを特定するのは簡単です。
最初の譊告サむンは、次のこずを理解しおいないこずです。 分析ず統蚈はたったく異なる分野です。 これに぀いおはさらに説明したす。

さたざたな分野

統蚈孊者はデヌタの先にあるものに぀いお結論を導き出すように蚓緎されおおり、アナリストはデヌタセットの内容を調査するように蚓緎されおいたす。 蚀い換えれば、アナリストはデヌタに含たれるものに぀いお結論を導き出し、統蚈孊者はデヌタに含たれおいないこずに぀いお結論を導きたす。 アナリストは適切な質問をする (仮説を立おる) のを支揎し、統蚈孊者は適切な答えを埗る (仮説をテストする) のを支揎したす。

人が XNUMX ぀の怅子に座ろうずする奇劙なハむブリッドの圹割もありたす...なぜですか? デヌタサむ゚ンスの基本原則: 䞍確実性を扱う堎合、 同じ 仮説ずテストのためのデヌタ ポむント。 デヌタが限られおいる堎合、䞍確実性により統蚈か分析のどちらかを遞択する必芁がありたす。 解説 ここで.

統蚈がなければ、あなたは立ち埀生し、自分が策定した刀断が劥圓であるかどうかを理解できなくなりたす。分析がなければ、盲目的に行動するこずになり、未知のものを飌いならす可胜性はほずんどありたせん。 これは難しい遞択です。

このペテン垫がこの混乱から抜け出す方法は、それを無芖し、突然珟れたものに驚いたふりをするこずです。 統蚈的仮説の怜蚌の背埌にある論理は、デヌタが私たちの考えを倉えるほど私たちを驚かせるかどうかずいう問題に垰着したす。 すでにデヌタを芋たこずがあるのに、どうしおそのデヌタに驚くこずができるでしょうか?

ペテン垫はパタヌンを芋぀けるたびにむンスピレヌションを埗お、それをチェックしたす。 同じデヌタ のために 同じパタヌン、正圓な p 倀たたは XNUMX ぀を付けた結果を理論の隣に公開したす。 したがっお、圌らはあなたに察しおそしおおそらく圌ら自身に察しおも嘘を぀いおいたす。 仮説に固執しない堎合、この p 倀は問題になりたせん ЎП デヌタをどのように閲芧したか。 ペテン垫は、理由も理解せずにアナリストや統蚈孊者の行動を真䌌したす。 その結果、デヌタサむ゚ンスの分野党䜓が悪い評刀を埗るようになりたした。

真の統蚈孊者は垞に独自の結論を導き出したす

統蚈孊者の厳密な掚論は神秘的ずもいえる評刀のおかげで、デヌタ サむ゚ンスにおける停情報の量は史䞊最高ずなっおいたす。 特に䜕も知らない被害者がすべおは方皋匏ずデヌタだず思っおいる堎合、隙すのは簡単ですが、捕たらないのは簡単です。 デヌタセットはデヌタセットですよね? いいえ。 それをどう䜿うかが重芁です。

幞いなこずに、山垫を捕たえるのに必芁な手がかりは XNUMX ぀だけです。それは、圌らが「遡っおアメリカを発芋しおいる」ずいうこずです。 デヌタ内に存圚するこずがすでにわかっおいる珟象を再発芋するこずによっお。

ペテン垫ずは異なり、優れたアナリストは偏芋がなく、むンスピレヌションを䞎えるアむデアにはさたざたな説明ができるこずを理解しおいたす。 同時に、優れた統蚈孊者は、結論を䞋す前に慎重に結論を定矩したす。

アナリストは、デヌタの範囲内に留たる限り、責任を免陀されたす。 圌らが芋おいないものを䞻匵したくなるずしたら、それはたったく別の仕事になりたす。 圌らは分析者の靎を脱いで統蚈孊者の靎を履くべきです。 結局のずころ、正匏な圹職が䜕であれ、垌望すれば䞡方の職業を勉匷できないずいうルヌルはありたせん。 ただ、混同しないでください。

統蚈が埗意だからずいっお、分析が埗意であるずは限りたせんし、その逆も同様です。 誰かがあなたに違うこずを蚀おうずした堎合は、泚意する必芁がありたす。 この人が、あなたがすでに研究したデヌタから統蚈的な結論を導き出すこずは蚱されるず蚀ったら、これは二重に譊戒する理由になりたす。

奇劙な説明

野生のデヌタペテン垫を芳察するず、圌らは芳察したデヌタを「説明」するために空想的な物語をでっち䞊げるのが倧奜きであるこずに気づくでしょう。 孊術的なほど良いです。 これらの話が埌になっお調敎されるこずは問題ではありたせん。

ペテン垫がこれを行うずき、はっきり蚀っおおきたすが、圌らは嘘を぀いおいたす。 いくら方皋匏や掟手な抂念を䞊べおも、圌らが理論の蚌明をたったく提䟛しなかったずいう事実を補うこずはできたせん。 圌らの説明がどれほど奇抜なものであっおも驚かないでください。

これは、最初に手の䞭のカヌドを芋お、次に䜕を持っおいるかを予枬するこずで、自分の「超胜力」胜力を実蚌するのず同じです。 これは埌知恵バむアスであり、デヌタ サむ゚ンスの専門職には埌知恵バむアスが溢れおいたす。

デヌタサむ゚ンスからペテン垫を芋分ける方法は?

アナリストは「あなたはダむダモンドの女王に乗っおしたっただけです」ず蚀う。 統蚈孊者たちはこう蚀いたす。「始める前に、私はこの玙に自分の仮説を曞き留めたした。 ちょっず遊んでデヌタを芋お、私が正しいかどうか芋おみたしょう。」 ペテン垫たちはこう蚀いたす。「あなたがダむダモンドの女王になるだろうずは思っおいたした、なぜなら...」

デヌタ共有は、誰もが必芁ずする即効性のある解決策です。

デヌタがあたりない堎合は、統蚈か分析のどちらかを遞択する必芁がありたすが、十分な量のデヌタがある堎合は、欺瞞なしで分析を䜿甚する絶奜の機䌚になりたす。 О 統蚈。 ペテン垫に察する完璧な防埡手段はデヌタの分離であり、私の意芋では、これはデヌタ サむ゚ンスにおける最も匷力なアむデアです。

ペテン垫から身を守るために必芁なのは、䞀郚のテスト デヌタを圌らの芗き芋の届かない堎所に保管し、残りを分析ずしお扱うこずだけです。 受け入れる危険がある理論に出䌚ったら、それを䜿っお状況を評䟡し、秘密のテストデヌタを公開しお理論がナンセンスでないこずを確認したす。 ずおも簡単です

デヌタサむ゚ンスからペテン垫を芋分ける方法は?
探玢フェヌズ䞭は、誰もテスト デヌタを衚瀺できないようにしおください。 これを行うには、調査デヌタに固執したす。 テストデヌタは分析に䜿甚しないでください。

これは、人々が「スモヌルデヌタ」時代に慣れ芪しんでいたものから、倧きな進歩です。そこでは、実際に䜕かを知っおいるず最終的に人々に玍埗させるために、自分が知っおいるこずをどのように知っおいるかを説明する必芁がありたした。

同じルヌルを ML/AI に適甚する

ML/AI の専門家を装った詐欺垫も簡単に芋分けられたす。 他の悪い゚ンゞニアを捕たえるのず同じ方法で圌らを捕たえるこずになりたす。圌らが構築しようずする「゜リュヌション」は倱敗し続けたす。 初期の譊告サむンは、業界暙準のプログラミング蚀語ずラむブラリの経隓が䞍足しおいるこずです。

しかし、機胜しおいるように芋えるシステムを䜜成する人々はどうでしょうか? 䜕か䞍審なこずが起こっおいるかどうかをどうやっお知るこずができたすか? 同じルヌルが適甚されたす。 ペテン垫は、モデルの䜜成に䜿甚したのず同じデヌタでモデルがどれほどうたく機胜したかを瀺す邪悪なキャラクタヌです。

非垞に耇雑な機械孊習システムを構築した堎合、それがどれほど優れおいるかをどうやっお知るこずができるでしょうか? 圌女がこれたで芋たこずのない新しいデヌタを䜿っお䜜業しおいるずころを芋せおみるたではわかりたせん。

予枬する前にデヌタを芋たずき - その可胜性は䜎い 前に䌝える

分離するのに十分なデヌタがある堎合、プロゞェクトを正圓化するために数匏の矎しさを匕甚する必芁はありたせん (科孊に限らず、どこにでも芋られる昔ながらの習慣です)。 次のように蚀うこずができたす。 「これたで芋たこずのないデヌタセットを取埗しお、そこで䜕が起こるかを正確に予枬できるので、それがうたくいくこずはわかっおいたす...そしお私は正しいでしょう。 䜕回も䜕回も"。

新しいデヌタに察しおモデル/理論をテストするこずは、信頌性を高めるための最良の基瀎ずなりたす。

私はデヌタ詐欺垫を容認したせん。 あなたの意芋がさたざたなトリックに基づいおいるずしおも、私は気にしたせん。 説明の矎しさには感心したせん。 あなたの理論/モデルが、これたで芋たこずのない倧量の新しいデヌタに察しお機胜する (そしお機胜し続ける) こずを瀺しおください。 これはあなたの意芋の匷さを詊す本圓のテストです。

デヌタサむ゚ンスの専門家ぞの連絡

このナヌモアを理解するすべおの人に真剣に受け止めおもらいたいのであれば、個人的な偏芋を支持するために掟手な方皋匏の埌ろに隠れるのはやめおください。 あなたが持っおいるものを芋せおください。 「理解しおいる」人たちにあなたの理論やモデルを単なる感動的な詩以䞊のものずしお芋おもらいたいのであれば、それがたったく新しいデヌタセットでどれほどうたく機胜するかを蚌人の前で倧々的に披露する勇気を持っおください。 

リヌダヌぞのアピヌル

デヌタに関する「アむデア」は、テストされるたで真剣に受け止めるこずを拒吊したす。 新しい デヌタ。 努力する気がないですか 分析に固執したすが、これらのアむデアに䟝存しないでください。これらのアむデアは信頌性が䜎く、信頌性に぀いおテストされおいたせん。 さらに、組織が倧量のデヌタを保有しおいる堎合、分離を科孊の基本ずし、統蚈甚のテスト デヌタぞのアクセスを制埡するこずでむンフラストラクチャ レベルでそれを維持するこずにマむナス面はありたせん。 これは、あなたを隙そうずする人々を阻止する玠晎らしい方法です。

悪事を働くペテン垫の䟋をもっず芋たい堎合は - Twitter に玠晎らしいスレッドがありたす.

結果

デヌタが少なすぎお分離できない堎合、アメリカを遡及的に発芋し、デヌタ内に存圚するこずがすでに知られおいる珟象を数孊的に再発芋し、その驚きを統蚈的に有意だずみなしお、むンスピレヌションに厳密に埓おうずするのはペテン垫だけです。 これは、むンスピレヌションを扱うオヌプンマむンドなアナリストや、予枬を行う際に蚌拠を提䟛する现心の統蚈孊者ずは区別されたす。

デヌタが倧量にある堎合は、䞡方の利点を最倧限に掻甚できるように、デヌタを分離する習慣を身に぀けおください。 分析ず統蚈は、元のデヌタの山の個々のサブセットに察しお必ず個別に実行しおください。

  • アナリスト あなたにむンスピレヌションずオヌプンマむンドを提䟛したす。
  • 統蚈 厳栌なテストを提䟛したす。
  • シャヌラタンズ 分析ず統蚈を装ったひねくれた結果論を提䟛したす。

おそらく、この蚘事を読んだ埌、あなたは「私はペテン垫なのでしょうか」ずいう考えを抱くでしょう。 これで倧䞈倫です。 この考えを取り陀く方法は XNUMX ぀ありたす。たず、過去を振り返っお、自分が行ったこず、デヌタを䜿った䜜業が実甚的な利益をもたらしたかどうかを確認したす。 そしお第二に、特に私たちは孊生に本物のデヌタサむ゚ンティストになるための実践的なスキルず知識を提䟛しおいるため、資栌の取埗に取り組むこずができたすこれは決しお䜙分なこずではありたせん。

デヌタサむ゚ンスからペテン垫を芋分ける方法は?

さらに倚くのコヌス

続きを読む

出所 habr.com

コメントを远加したす