د ډیټا ساینس چارلاټن څنګه پیژني؟

د ډیټا ساینس چارلاټن څنګه پیژني؟
تاسو ممکن د شنونکو، ماشین زده کړې او مصنوعي استخباراتو متخصصینو په اړه اوریدلي وي، مګر ایا تاسو د هغو کسانو په اړه اوریدلي چې په غیر عادلانه توګه ډیر معاش لري؟ ملاقات ډاټا چارلاټن! دا هیکونه، د ګټورو دندو لخوا لالچ شوي، د ریښتینې ډاټا ساینس پوهانو ته بد نوم ورکوي. په موادو کې موږ پوهیږو چې دا ډول خلک څنګه پاکو اوبو ته راوړي.

د ډیټا چارلاټین هرچیرې دي

د ډیټا چارلاټینز په ساده لید کې پټولو کې خورا ښه دي چې تاسو یې کولی شئ یو له هغو څخه اوسئپرته له دې چې پوه شي. امکانات دا دي، ستاسو سازمان د کلونو راهیسې دا پټ هلکان ساتي، مګر ښه خبر دا دی چې د دوی پیژندل اسانه دي که تاسو پوهیږئ چې څه شی په لټه کې دي.
د خبرتیا لومړۍ نښه د پوهیدو نشتوالی دی تحلیلونه او احصایې خورا مختلف مضامین دي. زه به دا نور تشریح کړم.

مختلف مضامین

احصایه کونکي روزل شوي ترڅو د هغه څه په اړه پایلې راوباسي چې د دوی د معلوماتو څخه بهر وي، شنونکي روزل شوي ترڅو د ډیټا سیټ مینځپانګې معاینه کړي. په بل عبارت، شنونکي د هغه څه په اړه پایلې راوباسي چې د دوی په معلوماتو کې دي، او احصایه کونکي د هغه څه په اړه پایلې راوباسي چې په ډاټا کې ندي. شنونکي له تاسو سره مرسته کوي چې ښې پوښتنې وپوښتئ ( فرضیې جوړ کړئ)، او احصایه کونکي تاسو سره د ښه ځوابونو په ترلاسه کولو کې مرسته کوي (خپل فرضیې ازموینه وکړئ).

دلته عجیب هایبرډ رولونه هم شتون لري چیرې چې یو څوک هڅه کوي په دوه څوکیو ناست وي ... ولې نه؟ د ډیټا ساینس اساسی اصول: که تاسو د ناڅرګندتیا سره معامله کوئ ، تاسو نشئ کولی کاروئ همدا شان د فرضیې او ازموینې لپاره د معلوماتو نقطه. کله چې معلومات محدود وي، ناڅرګندتیا د احصایو یا تحلیلونو ترمنځ انتخاب ته اړوي. تشریح دلته.

د احصایو پرته، تاسو به ودرول شئ او د دې توان ونلرئ چې پوه شئ چې ایا هغه قضاوت چې تاسو یې جوړ کړی دی ساتل کیږي، او پرته له تحلیل څخه، تاسو په ړوند ډول حرکت کوئ، د ناپېژندل شوي چانس لږ چانس سره. دا یو ستونزمن انتخاب دی.

له دې ګډوډۍ څخه د خلاصون لاره دا ده چې له پامه غورځول شي او بیا د هغه څه په اړه چې ناڅاپه راپورته کیږي د حیرانتیا ښکارندويي کوي. د احصایوي فرضیو ازموینې تر شا منطق دې پوښتنې ته راځي چې ایا ډاټا موږ ته دومره حیرانوي چې زموږ ذهنونه بدل کړي. موږ څنګه کولی شو د معلوماتو لخوا حیران شو که چیرې موږ دمخه دا لیدلی وي؟

هرکله چې چارلاټین یو نمونه ومومي، دوی الهام ترلاسه کوي، بیا یې وګورئ ورته معلومات لپاره ورته بڼه, د دوی د تیورۍ تر څنګ د یوې مشروع p- ارزښت یا دوه سره پایلې خپروي. په دې توګه، دوی تاسو ته دروغ وايي (او شاید پخپله هم). دا p-value مهمه نده که تاسو خپل فرضیې ته پاتې نه شئ پورې تاسو څنګه خپل معلومات لیدلي. چارلاټن د دلایلو د پوهیدو پرته د تحلیل کونکو او احصایه کونکو عملونو تقلید کوي. د پایلې په توګه، د ډیټا ساینس ټوله ساحه خراب شهرت ترلاسه کوي.

ریښتیني احصایه کونکي تل خپلې پایلې راوباسي

د دوی د سخت استدلال لپاره د احصایې پوهانو نږدې صوفیانه شهرت څخه مننه ، د ډیټا ساینس کې د جعلي معلوماتو مقدار په هر وخت کې لوړ دی. دا اسانه ده چې غولول شي او نه نیول کیږي، په ځانګړې توګه که چیرې شکمن قرباني فکر وکړي چې دا ټول د مساواتو او معلوماتو په اړه دي. ډیټاسیټ یو ډیټا سیټ دی ، سمه ده؟ نه. دا مهمه ده چې تاسو یې څنګه وکاروئ.

خوشبختانه ، تاسو د چارلاټینانو د نیولو لپاره یوازې یوې نښې ته اړتیا لرئ: دوی "په شاقه توګه امریکا کشف کوي." د پدیدې په بیا موندلو سره چې دوی دمخه پوهیږي په ډیټا کې شتون لري.

د چارلاټن برعکس، ښه شنونکي خلاص ذهن لري او پوهیږي چې الهامي نظرونه ډیری مختلف توضیحات لري. په ورته وخت کې، ښه احصایه کونکي مخکې له دې چې دوی یې جوړ کړي په احتیاط سره خپلې پایلې تعریفوي.

شنونکي د مسؤلیت څخه معاف دي ... تر هغه چې دوی د دوی د معلوماتو په ساحه کې پاتې شي. که دوی د هغه څه ادعا کولو لپاره لیوالتیا وي چې دوی یې ندي لیدلي، دا یو بل بل کار دی. دوی باید د شنونکي بوټان وباسي او د احصایه کونکي بوټان یې واچوي. په هرصورت، مهمه نده چې د رسمي دندې سرلیک څه وي، هیڅ داسې قاعده شتون نلري چې وايي تاسو نشئ کولی دواړه مسلکونه زده کړئ که تاسو وغواړئ. یوازې دوی ګډوډ مه کوئ.

یوازې دا چې تاسو په احصایو کې ښه یاست پدې معنی ندي چې تاسو په تحلیلونو کې ښه یاست، او برعکس. که څوک هڅه کوي چې تاسو ته بل ډول ووایی، تاسو باید محتاط اوسئ. که چیرې دا سړی تاسو ته ووایي چې دا د هغه معلوماتو څخه احصایوي پایلو ته د رسیدو اجازه لري چې تاسو دمخه مطالعه کړې، دا یو دلیل دی چې دوه ځله محتاط وي.

عجیب توضیحات

کله چې په ځنګل کې د ډیټا چارلاټینونه مشاهده کړئ ، تاسو به وګورئ چې دوی د هغه معلوماتو "توضیح" لپاره په زړه پوري کیسې رامینځته کول خوښوي چې دوی یې مشاهده کوي. څومره چې اکاډمیک وي، هغومره ښه. دا مهمه نده چې دا کیسې په پټه توګه تنظیم شوي.

کله چې چارلالان دا کوي - اجازه راکړئ روښانه کړم - دوی دروغ وايي. هیڅ ډول معادلې یا غوره مفکورې نشي کولی د دې حقیقت لپاره رامینځته کړي چې دوی د دوی د تیوریو صفر ثبوت وړاندې کړی. حیرانتیا مه کوئ چې د دوی توضیحات څومره غیر معمولي دي.

دا د لومړي ځل لپاره ستاسو په لاسونو کې د کارتونو په کتلو سره ستاسو "رواني" وړتیاو ښودلو ته ورته دی او بیا د هغه څه وړاندوینه وکړئ چې تاسو یې لرئ ... هغه څه چې تاسو یې لرئ. دا د لید لید تعصب دی ، او د ډیټا ساینس مسلک د دې سره ډډ ته ډک شوی.

د ډیټا ساینس چارلاټن څنګه پیژني؟

شنونکي وايي: "تاسو یوازې د الماس د ملکې سره لاړل." احصایه پوهان وايي، "ما خپل فرضیې د کاغذ په دې ټوټه کې لیکلي مخکې له دې چې موږ پیل کړو. راځئ چې شاوخوا لوبه وکړو او ځینې معلومات وګورو او وګورو چې زه سم یم. چارلاټن وايي: "زه پوهیدم چې تاسو به د الماسونو ملکه شئ ځکه چې ..."

د معلوماتو شریکول هغه چټک حل دی چې هرڅوک ورته اړتیا لري.

کله چې ډیر معلومات شتون ونلري، تاسو باید د احصایو او تحلیلونو ترمنځ انتخاب وکړئ، مګر کله چې د کافي معلوماتو څخه ډیر وي، پرته له فریب څخه د تحلیلونو کارولو لپاره خورا ښه فرصت شتون لري. и احصایې. تاسو د چارلاټینز په وړاندې بشپړ دفاع لرئ - د ډیټا جلا کول او زما په نظر ، دا د ډیټا ساینس کې خورا پیاوړی نظر دی.

د چارلاټینز څخه د ځان ساتلو لپاره، تاسو ټول هغه څه ته اړتیا لرئ چې ډاډ ترلاسه کړئ چې تاسو د ازموینې ځینې ډاټا د دوی د سترګو سترګو څخه لرې وساتئ، او بیا پاتې نور د تحلیلونو په توګه چلند وکړئ. کله چې تاسو د یوې تیوري سره مخ شئ چې تاسو یې د منلو خطر سره مخ یاست، د وضعیت ارزولو لپاره یې وکاروئ، او بیا د خپل پټ ازموینې ډاټا ښکاره کړئ ترڅو وګورئ چې دا تیوري بې ځایه نه ده. دا دومره ساده ده!

د ډیټا ساینس چارلاټن څنګه پیژني؟
ډاډ ترلاسه کړئ چې هیچا ته اجازه نشته چې د اکتشاف مرحلې په جریان کې د ازموینې ډیټا وګوري. د دې کولو لپاره، د څیړنې ډاټا ته پاتې شئ. د ازموینې ډاټا باید د تحلیل لپاره ونه کارول شي.

دا د هغه څه څخه یو لوی ګام دی چې خلک د "کوچني معلوماتو" دورې کې کارول کیږي ، چیرې چې تاسو باید تشریح کړئ چې تاسو څنګه پوهیږئ چې تاسو څه پوهیږئ ترڅو په پای کې خلکو ته قناعت ورکړئ چې تاسو واقعیا یو څه پوهیږئ.

په ML/AI کې ورته قواعد پلي کړئ

ځینې ​​چارلاټینان چې د ML/AI متخصصینو په توګه انځور کوي د موندلو لپاره هم اسانه دي. تاسو به دوی په ورته ډول ونیسئ چې تاسو به کوم بل بد انجینر ونیسئ: "حلونه" چې دوی یې په دوامداره توګه د جوړولو هڅه کوي ناکام وي. د خبرتیا لومړنی نښه د صنعت معیاري پروګرام کولو ژبو او کتابتونونو سره د تجربې نشتوالی دی.

مګر د هغو خلکو په اړه څه چې داسې سیسټمونه رامینځته کوي چې کار کوي؟ تاسو څنګه پوهیږئ که یو څه شکمن وي؟ ورته قاعده پلي کیږي! چارلاټن یو خطرناک کرکټر دی چې تاسو ته ښیې چې ماډل څومره ښه کار کړی ... په ورته معلوماتو کې دوی د ماډل رامینځته کولو لپاره کارولي.

که تاسو د ماشین زده کړې خورا پیچلي سیسټم جوړ کړی وي، تاسو څنګه پوهیږئ چې دا څومره ښه دی؟ تاسو به نه پوهیږئ تر هغه چې تاسو هغه د نوي ډیټا سره کار کول وښایاست چې مخکې یې نه وي لیدلي.

کله چې تاسو د وړاندوینې دمخه معلومات ولیدل - دا امکان نلري مخکېویل

کله چې تاسو د جلا کولو لپاره کافي ډیټا لرئ، تاسو اړتیا نلرئ د پروژې توجیه کولو لپاره د خپلو فورمولونو ښکلا ته اشاره وکړئ (یو زوړ فیشن عادت چې زه هرچیرې ګورم، نه یوازې په ساینس کې). تاسو کولی شئ ووایاست: "زه پوهیږم چې دا کار کوي ځکه چې زه کولی شم د ډیټا سیټ واخلم چې ما مخکې نه و لیدلی او دقیقا وړاندوینه کوم چې هلته به څه پیښ شي ... او زه به سم وي. بیا بیا ".

د نوي ډیټا په وړاندې ستاسو د ماډل / تیوري ازموینه د باور لپاره غوره اساس دی.

زه د ډیټا چارلاټینز نه زغمم. زه پروا نه لرم که ستاسو نظر د مختلفو چلونو پر بنسټ وي. زه د توضیحاتو له ښکلا څخه متاثره نه یم. ماته وښایاست چې ستاسو تیوري/ ماډل کار کوي (او کار ته دوام ورکوي) د نوي ډیټا په ټوله ډله کې چې تاسو مخکې هیڅکله نه و لیدلی. دا ستاسو د نظر د پیاوړتیا اصلي ازموینه ده.

د ډیټا ساینس متخصصینو سره اړیکه ونیسئ

که تاسو غواړئ د هر هغه چا لخوا جدي ونیول شي چې په دې طنز پوهیږي، د شخصي تعصبونو مالتړ لپاره د فینسي مساواتو شاته پټول بند کړئ. ماته وښایاست چې تاسو څه لرئ. که تاسو غواړئ هغه څوک چې "دا ترلاسه کوي" ستاسو نظریه / ماډل یوازې د الهامي شعر په توګه وګوري، نو زړورتیا ولرئ چې دا د شاهدانو په وړاندې د ډیټا په بشپړ نوي سیټ کې څومره ښه کار کوي یو لوی نندارتون وړاندې کړئ. !

د مشرانو غوښتنه

د ډیټا په اړه د هر ډول "نظرونو" په جدي توګه له اخیستلو ډډه وکړئ تر هغه چې دوی ازمول شوي نه وي نوی ډاټا په هڅه کې د اچولو احساس نه کوئ؟ د تحلیلونو سره پاتې شئ، مګر په دې نظرونو تکیه مه کوئ - دوی د اعتبار وړ ندي او د اعتبار لپاره ندي ازمول شوي. سربیره پردې ، کله چې یو سازمان په کافي اندازه ډیټا ولري ، په ساینس کې د جلا کولو بنسټیز کولو او د احصایو لپاره د ازموینې ډیټا ته لاسرسي کنټرولولو سره د زیربنا په کچه د ساتلو لپاره هیڅ زیان شتون نلري. دا د هغه خلکو مخه نیولو لپاره عالي لاره ده چې هڅه کوي تاسو احمق کړي!

که تاسو غواړئ د چارلاټینانو نور مثالونه وګورئ تر دې چې ښه نه وي - دلته په ټویټر کې یو په زړه پوری تار دی.

پایلې

کله چې د جلا کولو لپاره خورا لږ معلومات شتون ولري، یوازې یو چارلاټین هڅه کوي په کلکه د امریکا په کشفولو سره الهام تعقیب کړي، په ریاضیاتي ډول بیا کشف شوي پیښې چې دمخه په ډاټا کې پیژندل شوي، او حیرانتیا د احصایې له پلوه مهم بولي. دا دوی د خلاص ذهن تحلیل کونکي څخه توپیر کوي ، څوک چې د الهام سره معامله کوي ، او دقیق احصایه کونکي ، څوک چې د وړاندوینې کولو پرمهال شواهد وړاندې کوي.

کله چې ډیری ډیټا شتون ولري ، د ډیټا جلا کولو عادت ته ورشئ نو تاسو کولی شئ د دواړو نړۍ غوره ترلاسه کړئ! ډاډ ترلاسه کړئ چې تحلیلونه او احصایې په جلا توګه د اصلي ډیټا د انفرادي فرعي سیټونو لپاره ترسره کړئ.

  • شنونکي تاسو ته الهام او خلاص ذهن وړاندیز کوي.
  • احصایې تاسو ته د سختې ازموینې وړاندیز کوي.
  • چارلاټن تاسو ته یو متوجه لید وړاندې کوي چې د تحلیل او احصایې ښکارندوی کوي.

شاید، د مقالې لوستلو وروسته، تاسو به دا فکر ولرئ چې "ایا زه یو خیاطان یم"؟ دا ښه ده. د دې فکر څخه د خلاصون لپاره دوه لارې شتون لري: لومړی، شاته وګوره، وګورئ چې تاسو څه کړي، ایا ستاسو د معلوماتو سره کار عملي ګټه راوړي. او دوهم، تاسو لاهم کولی شئ په خپلو وړتیاو کار وکړئ (کوم چې یقینا به ډیر نه وي)، په ځانګړې توګه له هغه وخته چې موږ خپلو زده کونکو ته عملي مهارتونه او پوهه ورکوو چې دوی ته اجازه ورکوي چې د ریښتینې ډاټا ساینس پوه شي.

د ډیټا ساینس چارلاټن څنګه پیژني؟

نور کورسونه

نور یی ولوله

سرچینه: www.habr.com

Add a comment