ProHoster > وبلاگ > اداره > چگونه یک شارلاتان را از Data Science تشخیص دهیم؟
چگونه یک شارلاتان را از Data Science تشخیص دهیم؟
شاید نام تحلیلگران، متخصصان یادگیری ماشین و هوش مصنوعی را شنیده باشید، اما آیا در مورد کسانی که به طور ناعادلانه بیش از حد دستمزد دریافت می کنند شنیده اید؟ ملاقات شارلاتان داده! این هک ها که توسط مشاغل پرسود فریب خورده اند، نام بدی را به دانشمندان داده های واقعی می دهند. در مطالب می دانیم که چگونه چنین افرادی را به آب تمیز بیاوریم.
شارلاتان های داده همه جا هستند
شارلاتان های داده آنقدر در مخفی شدن در معرض دید خوب هستند که می توانید یکی از آنها باشیدبدون اینکه حتی متوجه بشه به احتمال زیاد، سازمان شما سالهاست که این افراد ابله را پناه داده است، اما خبر خوب این است که اگر بدانید به دنبال چه چیزی باشید، شناسایی آنها آسان است.
اولین علامت هشدار عدم درک آن است تجزیه و تحلیل و آمار رشته های بسیار متفاوتی هستند. این را بیشتر توضیح خواهم داد.
رشته های مختلف
آماردانان آموزش دیده اند تا در مورد آنچه فراتر از داده های آنها است نتیجه گیری کنند، تحلیلگران برای بررسی محتوای یک مجموعه داده آموزش دیده اند. به عبارت دیگر، تحلیلگران در مورد آنچه در داده هایشان است نتیجه گیری می کنند و آماردانان در مورد آنچه در داده ها نیست نتیجه گیری می کنند. تحلیلگران به شما کمک میکنند که سؤالات خوبی بپرسید (فرضیهسازی کنید)، و آماردانان به شما کمک میکنند تا پاسخهای خوبی دریافت کنید (فرضیههای خود را آزمایش کنید).
نقش های ترکیبی عجیبی هم وجود دارد که یک نفر سعی می کند روی دو صندلی بنشیند... چرا که نه؟ اصل اساسی علم داده: اگر با عدم قطعیت سر و کار دارید، نمی توانید استفاده کنید همان نقطه داده برای فرضیه ها و آزمون. هنگامی که داده ها محدود است، عدم قطعیت انتخاب بین آمار یا تجزیه و تحلیل را مجبور می کند. توضیحاینجا.
بدون آمار، شما گیر خواهید کرد و نمی توانید درک کنید که آیا قضاوتی که به تازگی فرموله کردید قابل اجرا است یا خیر، و بدون تجزیه و تحلیل، شما کورکورانه حرکت می کنید، با شانس کمی برای رام کردن ناشناخته ها. این یک انتخاب دشوار است.
راه نجات شارلاتان از این آشفتگی این است که آن را نادیده بگیرد و سپس وانمود کند که از چیزی که ناگهان رخ می دهد شگفت زده شده است. منطق پشت آزمون فرضیههای آماری به این سؤال مربوط میشود که آیا دادهها آنقدر ما را غافلگیر میکنند که نظرمان را تغییر دهیم. چگونه می توانیم از داده ها شگفت زده شویم اگر قبلاً آنها را دیده ایم؟
هر زمان که شارلاتان ها الگویی پیدا می کنند، الهام می گیرند، سپس بررسی می کنند همان داده ها برای همان الگو، نتیجه را با یک یا دو p-value قانونی در کنار نظریه خود منتشر کنند. بنابراین، آنها به شما (و شاید به خودشان نیز) دروغ می گویند. اگر به فرضیه خود پایبند نباشید، این مقدار p مهم نیست به چگونه داده های خود را مشاهده کردید شارلاتان ها بدون درک دلایل از اقدامات تحلیلگران و آماردانان تقلید می کنند. در نتیجه، کل حوزه علم داده شهرت بدی پیدا می کند.
آماردانان واقعی همیشه نتیجه گیری های خود را می گیرند
به لطف شهرت تقریباً عرفانی آماردانان به دلیل استدلال دقیق آنها، میزان اطلاعات جعلی در علم داده به بالاترین حد خود رسیده است. فریب دادن و گرفتار نشدن آسان است، به خصوص اگر قربانی ناآگاه فکر کند که همه چیز به معادلات و داده ها مربوط می شود. مجموعه داده یک مجموعه داده است، درست است؟ خیر این مهم است که چگونه از آن استفاده می کنید.
خوشبختانه، شما فقط به یک سرنخ برای دستگیری شارلاتان ها نیاز دارید: آنها «به طور عطف به گذشته آمریکا را کشف می کنند». با کشف مجدد پدیده هایی که از قبل می دانند در داده ها وجود دارند.
برخلاف شارلاتان ها، تحلیلگران خوب ذهنی باز دارند و می دانند که ایده های الهام بخش می توانند توضیحات مختلفی داشته باشند. در عین حال، آماردانان خوب قبل از اینکه نتیجه گیری های خود را انجام دهند، به دقت آنها را تعریف می کنند.
تحلیلگران تا زمانی که در محدوده داده های خود باقی بمانند از مسئولیت معاف هستند. اگر آنها وسوسه شوند چیزی را که ندیده اند ادعا کنند، این کار کاملاً دیگری است. باید کفش تحلیلگر را در بیاورند و کفش آمارگیر را بپوشند. به هر حال، مهم نیست که عنوان شغل رسمی چه باشد، هیچ قانونی وجود ندارد که بگوید اگر بخواهید نمی توانید هر دو حرفه را مطالعه کنید. فقط آنها را گیج نکنید.
فقط به این دلیل که در آمار خوب هستید به این معنی نیست که در تجزیه و تحلیل خوب هستید و بالعکس. اگر کسی سعی می کند چیز دیگری به شما بگوید، باید محتاط باشید. اگر این شخص به شما می گوید که نتیجه گیری آماری از داده هایی که قبلاً مطالعه کرده اید مجاز است، دلیلی است برای احتیاط مضاعف.
توضیحات عجیب و غریب
هنگام مشاهده شارلاتان های داده در طبیعت، متوجه خواهید شد که آنها عاشق ساختن داستان های خارق العاده برای "توضیح" داده هایی هستند که مشاهده می کنند. هر چه آکادمیک تر، بهتر است. مهم نیست که این داستان ها در گذشته تنظیم شده باشند.
وقتی شارلاتان ها این کار را می کنند - اجازه دهید واضح بگویم - آنها دروغ می گویند. هیچ مقدار معادله یا مفاهیم فانتزی نمی تواند این واقعیت را جبران کند که آنها اثبات صفر نظریه های خود را ارائه کردند. از اینکه چقدر توضیحات آنها غیرعادی است تعجب نکنید.
این همان نشان دادن تواناییهای «روانی» خود است که ابتدا به کارتهایی که در دست دارید نگاه کنید و سپس پیشبینی کنید چه چیزی در دست دارید... چه چیزی در دست دارید. این یک سوگیری آینده نگری است و حرفه علم داده با آن پر شده است.
تحلیلگران می گویند: "تو همین الان با ملکه الماس رفتی." کارشناسان آمار می گویند: «من فرضیه هایم را قبل از شروع کار روی این تکه کاغذ یادداشت کردم. بیایید با هم بازی کنیم و به برخی از داده ها نگاه کنیم و ببینیم که آیا درست می گویم یا خیر." شارلاتان ها می گویند: "من می دانستم که تو این ملکه الماس می شوی زیرا..."
به اشتراک گذاری داده ها راه حل سریعی است که همه به آن نیاز دارند.
وقتی داده های زیادی وجود ندارد، باید بین آمار و تجزیه و تحلیل یکی را انتخاب کنید، اما زمانی که داده ها بیش از اندازه کافی باشد، فرصت عالی برای استفاده از تجزیه و تحلیل بدون فریب وجود دارد. и آمار. شما دفاع عالی در برابر شارلاتان ها دارید - جداسازی داده ها و به نظر من این قدرتمندترین ایده در علم داده است.
برای محافظت از خود در برابر شارلاتان ها، تنها کاری که باید انجام دهید این است که مطمئن شوید برخی از داده های آزمایش را دور از دسترس چشمان کنجکاو آنها نگه دارید و سپس بقیه را به عنوان تجزیه و تحلیل در نظر بگیرید. وقتی به نظریه ای برخورد کردید که در خطر پذیرش آن هستید، از آن برای ارزیابی وضعیت استفاده کنید و سپس داده های آزمایشی مخفی خود را فاش کنید تا بررسی کنید که این نظریه مزخرف نیست. خیلی ساده است!
اطمینان حاصل کنید که هیچ کس اجازه ندارد داده های آزمایش را در مرحله اکتشاف مشاهده کند. برای انجام این کار، به داده های تحقیق پایبند باشید. داده های آزمون نباید برای تجزیه و تحلیل استفاده شوند.
این یک قدم بزرگتر از آنچه مردم در عصر "داده های کوچک" به آن عادت کرده اند، است، جایی که باید توضیح دهید که چگونه می دانید آنچه می دانید تا در نهایت مردم را متقاعد کنید که واقعاً چیزی را می دانید.
قوانین مشابهی را برای ML/AI اعمال کنید
برخی از شارلاتان هایی که به عنوان متخصص ML/AI معرفی می شوند نیز به راحتی قابل تشخیص هستند. همانطور که هر مهندس بد دیگری را گرفتار میکنید، آنها را میگیرید: «راهحلهایی» که آنها سعی میکنند مدام بسازند با شکست مواجه میشوند. یک علامت هشدار اولیه عدم تجربه با زبان های برنامه نویسی استاندارد صنعتی و کتابخانه ها است.
اما در مورد افرادی که سیستم هایی را ایجاد می کنند که به نظر می رسد کار می کنند چه؟ چگونه متوجه می شوید که چیزی مشکوک در حال وقوع است؟ همین قانون صدق می کند! شارلاتان یک شخصیت شوم است که به شما نشان میدهد که این مدل چقدر خوب کار کرده است... بر روی همان دادههایی که برای ایجاد مدل استفاده کردهاند.
اگر یک سیستم یادگیری ماشینی بسیار پیچیده ساخته اید، چگونه می دانید چقدر خوب است؟ تا زمانی که به او نشان ندهید که با داده های جدیدی کار می کند که قبلاً ندیده است، متوجه نخواهید شد.
وقتی داده ها را قبل از پیش بینی دیدید - بعید است قبلگفتن
وقتی داده های کافی برای جداسازی دارید، نیازی به ذکر زیبایی فرمول های خود برای توجیه پروژه ندارید (یک عادت مد قدیمی که من همه جا می بینم، نه فقط در علم). می توانی بگویی: «میدانم که کار میکند، زیرا میتوانم مجموعه دادهای را که قبلاً ندیدهام انتخاب کنم و دقیقاً پیشبینی کنم که در آنجا چه اتفاقی میافتد... و درست میگویم. دوباره و دوباره".
آزمایش مدل/نظریه خود در برابر داده های جدید بهترین مبنای برای اطمینان است.
من شارلاتان های داده را تحمل نمی کنم. برایم مهم نیست که نظر شما بر اساس ترفندهای مختلف باشد. من تحت تاثیر زیبایی توضیحات قرار نمی گیرم. به من نشان دهید که نظریه/مدل شما بر روی یک دسته کامل از دادههای جدید که قبلاً هرگز ندیدهاید، کار میکند (و به کار خود ادامه میدهد). این آزمون واقعی قدرت نظر شماست.
تماس با کارشناسان علوم داده
اگر میخواهید توسط همه کسانی که این طنز را میفهمند جدی بگیرند، از پنهان شدن در پشت معادلات تخیلی برای حمایت از تعصبات شخصی خودداری کنید. به من نشان بده چه داری اگر میخواهید کسانی که «آن را دریافت میکنند» نظریه/مدل شما را چیزی فراتر از شعر الهامبخش ببینند، شهامت داشته باشید که نمایشی بزرگ از نحوه عملکرد آن بر روی مجموعهای کاملاً جدید از دادهها را در مقابل شاهدان به نمایش بگذارید. !
توسل به رهبران
از جدی گرفتن هرگونه "ایده" در مورد داده ها تا زمانی که آنها آزمایش نشده اند خودداری کنید جدید داده ها. آیا نمی خواهید تلاش کنید؟ به تجزیه و تحلیل ها پایبند باشید، اما به این ایده ها تکیه نکنید - آنها غیرقابل اعتماد هستند و از نظر قابلیت اطمینان آزمایش نشده اند. علاوه بر این، زمانی که یک سازمان دادههای فراوانی دارد، هیچ نقطه ضعفی برای بنیادی کردن جداسازی در علم و حفظ آن در سطح زیرساخت با کنترل دسترسی به دادههای آزمایشی برای آمار وجود ندارد. این یک راه عالی برای جلوگیری از تلاش افرادی است که شما را فریب می دهند!
وقتی دادههای بسیار کمی برای جدا کردن وجود دارد، تنها یک شارلاتان سعی میکند با کشف گذشتهنگر آمریکا، از نظر ریاضی پدیدههایی را که قبلاً در دادهها وجود دارند، دوباره کشف کند و شگفتی را از نظر آماری معنیدار نامید. این آنها را از تحلیلگر آزاد فکری که با الهامگیری سروکار دارد و آماردان دقیقی که هنگام پیشبینی شواهد ارائه میکند متمایز میکند.
وقتی داده های زیادی وجود دارد، عادت کنید که داده ها را از هم جدا کنید تا بتوانید بهترین های هر دو دنیا را داشته باشید! مطمئن شوید که تجزیه و تحلیل و آمار را به طور جداگانه برای زیرمجموعه های جداگانه انبوه داده های اصلی انجام دهید.
تحلیلگران به شما الهام و ذهن باز ارائه می دهد.
آمار آزمایش دقیقی را به شما ارائه می دهد.
شارلاتان ها به شما دیدگاهی پیچیده ارائه می دهد که وانمود می کند تجزیه و تحلیل و آمار است.
شاید پس از خواندن مقاله این فکر به ذهنتان خطور کند که "آیا من یک شارلاتان هستم"؟ این خوبه. دو راه برای خلاص شدن از شر این فکر وجود دارد: اول، به گذشته نگاه کنید، ببینید چه کاری انجام داده اید، آیا کار شما با داده ها سود عملی داشته است یا خیر. و ثانیاً، شما هنوز هم میتوانید روی مدارک خود کار کنید (که مطمئناً اضافی نخواهد بود)، به خصوص که ما به دانشآموزان خود مهارتها و دانشهای عملی میدهیم که به آنها اجازه میدهد به دانشمندان داده واقعی تبدیل شوند.