چگونه یک شارلاتان را از Data Science تشخیص دهیم؟

چگونه یک شارلاتان را از Data Science تشخیص دهیم؟
شاید نام تحلیلگران، متخصصان یادگیری ماشین و هوش مصنوعی را شنیده باشید، اما آیا در مورد کسانی که به طور ناعادلانه بیش از حد دستمزد دریافت می کنند شنیده اید؟ ملاقات شارلاتان داده! این هک ها که توسط مشاغل پرسود فریب خورده اند، نام بدی را به دانشمندان داده های واقعی می دهند. در مطالب می دانیم که چگونه چنین افرادی را به آب تمیز بیاوریم.

شارلاتان های داده همه جا هستند

شارلاتان های داده آنقدر در مخفی شدن در معرض دید خوب هستند که می توانید یکی از آنها باشیدبدون اینکه حتی متوجه بشه به احتمال زیاد، سازمان شما سالهاست که این افراد ابله را پناه داده است، اما خبر خوب این است که اگر بدانید به دنبال چه چیزی باشید، شناسایی آنها آسان است.
اولین علامت هشدار عدم درک آن است تجزیه و تحلیل و آمار رشته های بسیار متفاوتی هستند. این را بیشتر توضیح خواهم داد.

رشته های مختلف

آماردانان آموزش دیده اند تا در مورد آنچه فراتر از داده های آنها است نتیجه گیری کنند، تحلیلگران برای بررسی محتوای یک مجموعه داده آموزش دیده اند. به عبارت دیگر، تحلیلگران در مورد آنچه در داده هایشان است نتیجه گیری می کنند و آماردانان در مورد آنچه در داده ها نیست نتیجه گیری می کنند. تحلیلگران به شما کمک می‌کنند که سؤالات خوبی بپرسید (فرضیه‌سازی کنید)، و آماردانان به شما کمک می‌کنند تا پاسخ‌های خوبی دریافت کنید (فرضیه‌های خود را آزمایش کنید).

نقش های ترکیبی عجیبی هم وجود دارد که یک نفر سعی می کند روی دو صندلی بنشیند... چرا که نه؟ اصل اساسی علم داده: اگر با عدم قطعیت سر و کار دارید، نمی توانید استفاده کنید همان نقطه داده برای فرضیه ها و آزمون. هنگامی که داده ها محدود است، عدم قطعیت انتخاب بین آمار یا تجزیه و تحلیل را مجبور می کند. توضیح اینجا.

بدون آمار، شما گیر خواهید کرد و نمی توانید درک کنید که آیا قضاوتی که به تازگی فرموله کردید قابل اجرا است یا خیر، و بدون تجزیه و تحلیل، شما کورکورانه حرکت می کنید، با شانس کمی برای رام کردن ناشناخته ها. این یک انتخاب دشوار است.

راه نجات شارلاتان از این آشفتگی این است که آن را نادیده بگیرد و سپس وانمود کند که از چیزی که ناگهان رخ می دهد شگفت زده شده است. منطق پشت آزمون فرضیه‌های آماری به این سؤال مربوط می‌شود که آیا داده‌ها آنقدر ما را غافلگیر می‌کنند که نظرمان را تغییر دهیم. چگونه می توانیم از داده ها شگفت زده شویم اگر قبلاً آنها را دیده ایم؟

هر زمان که شارلاتان ها الگویی پیدا می کنند، الهام می گیرند، سپس بررسی می کنند همان داده ها برای همان الگو، نتیجه را با یک یا دو p-value قانونی در کنار نظریه خود منتشر کنند. بنابراین، آنها به شما (و شاید به خودشان نیز) دروغ می گویند. اگر به فرضیه خود پایبند نباشید، این مقدار p مهم نیست به چگونه داده های خود را مشاهده کردید شارلاتان ها بدون درک دلایل از اقدامات تحلیلگران و آماردانان تقلید می کنند. در نتیجه، کل حوزه علم داده شهرت بدی پیدا می کند.

آماردانان واقعی همیشه نتیجه گیری های خود را می گیرند

به لطف شهرت تقریباً عرفانی آماردانان به دلیل استدلال دقیق آنها، میزان اطلاعات جعلی در علم داده به بالاترین حد خود رسیده است. فریب دادن و گرفتار نشدن آسان است، به خصوص اگر قربانی ناآگاه فکر کند که همه چیز به معادلات و داده ها مربوط می شود. مجموعه داده یک مجموعه داده است، درست است؟ خیر این مهم است که چگونه از آن استفاده می کنید.

خوشبختانه، شما فقط به یک سرنخ برای دستگیری شارلاتان ها نیاز دارید: آنها «به طور عطف به گذشته آمریکا را کشف می کنند». با کشف مجدد پدیده هایی که از قبل می دانند در داده ها وجود دارند.

برخلاف شارلاتان ها، تحلیلگران خوب ذهنی باز دارند و می دانند که ایده های الهام بخش می توانند توضیحات مختلفی داشته باشند. در عین حال، آماردانان خوب قبل از اینکه نتیجه گیری های خود را انجام دهند، به دقت آنها را تعریف می کنند.

تحلیلگران تا زمانی که در محدوده داده های خود باقی بمانند از مسئولیت معاف هستند. اگر آنها وسوسه شوند چیزی را که ندیده اند ادعا کنند، این کار کاملاً دیگری است. باید کفش تحلیلگر را در بیاورند و کفش آمارگیر را بپوشند. به هر حال، مهم نیست که عنوان شغل رسمی چه باشد، هیچ قانونی وجود ندارد که بگوید اگر بخواهید نمی توانید هر دو حرفه را مطالعه کنید. فقط آنها را گیج نکنید.

فقط به این دلیل که در آمار خوب هستید به این معنی نیست که در تجزیه و تحلیل خوب هستید و بالعکس. اگر کسی سعی می کند چیز دیگری به شما بگوید، باید محتاط باشید. اگر این شخص به شما می گوید که نتیجه گیری آماری از داده هایی که قبلاً مطالعه کرده اید مجاز است، دلیلی است برای احتیاط مضاعف.

توضیحات عجیب و غریب

هنگام مشاهده شارلاتان های داده در طبیعت، متوجه خواهید شد که آنها عاشق ساختن داستان های خارق العاده برای "توضیح" داده هایی هستند که مشاهده می کنند. هر چه آکادمیک تر، بهتر است. مهم نیست که این داستان ها در گذشته تنظیم شده باشند.

وقتی شارلاتان ها این کار را می کنند - اجازه دهید واضح بگویم - آنها دروغ می گویند. هیچ مقدار معادله یا مفاهیم فانتزی نمی تواند این واقعیت را جبران کند که آنها اثبات صفر نظریه های خود را ارائه کردند. از اینکه چقدر توضیحات آنها غیرعادی است تعجب نکنید.

این همان نشان دادن توانایی‌های «روانی» خود است که ابتدا به کارت‌هایی که در دست دارید نگاه کنید و سپس پیش‌بینی کنید چه چیزی در دست دارید... چه چیزی در دست دارید. این یک سوگیری آینده نگری است و حرفه علم داده با آن پر شده است.

چگونه یک شارلاتان را از Data Science تشخیص دهیم؟

تحلیلگران می گویند: "تو همین الان با ملکه الماس رفتی." کارشناسان آمار می گویند: «من فرضیه هایم را قبل از شروع کار روی این تکه کاغذ یادداشت کردم. بیایید با هم بازی کنیم و به برخی از داده ها نگاه کنیم و ببینیم که آیا درست می گویم یا خیر." شارلاتان ها می گویند: "من می دانستم که تو این ملکه الماس می شوی زیرا..."

به اشتراک گذاری داده ها راه حل سریعی است که همه به آن نیاز دارند.

وقتی داده های زیادی وجود ندارد، باید بین آمار و تجزیه و تحلیل یکی را انتخاب کنید، اما زمانی که داده ها بیش از اندازه کافی باشد، فرصت عالی برای استفاده از تجزیه و تحلیل بدون فریب وجود دارد. и آمار. شما دفاع عالی در برابر شارلاتان ها دارید - جداسازی داده ها و به نظر من این قدرتمندترین ایده در علم داده است.

برای محافظت از خود در برابر شارلاتان ها، تنها کاری که باید انجام دهید این است که مطمئن شوید برخی از داده های آزمایش را دور از دسترس چشمان کنجکاو آنها نگه دارید و سپس بقیه را به عنوان تجزیه و تحلیل در نظر بگیرید. وقتی به نظریه ای برخورد کردید که در خطر پذیرش آن هستید، از آن برای ارزیابی وضعیت استفاده کنید و سپس داده های آزمایشی مخفی خود را فاش کنید تا بررسی کنید که این نظریه مزخرف نیست. خیلی ساده است!

چگونه یک شارلاتان را از Data Science تشخیص دهیم؟
اطمینان حاصل کنید که هیچ کس اجازه ندارد داده های آزمایش را در مرحله اکتشاف مشاهده کند. برای انجام این کار، به داده های تحقیق پایبند باشید. داده های آزمون نباید برای تجزیه و تحلیل استفاده شوند.

این یک قدم بزرگتر از آنچه مردم در عصر "داده های کوچک" به آن عادت کرده اند، است، جایی که باید توضیح دهید که چگونه می دانید آنچه می دانید تا در نهایت مردم را متقاعد کنید که واقعاً چیزی را می دانید.

قوانین مشابهی را برای ML/AI اعمال کنید

برخی از شارلاتان هایی که به عنوان متخصص ML/AI معرفی می شوند نیز به راحتی قابل تشخیص هستند. همان‌طور که هر مهندس بد دیگری را گرفتار می‌کنید، آنها را می‌گیرید: «راه‌حل‌هایی» که آنها سعی می‌کنند مدام بسازند با شکست مواجه می‌شوند. یک علامت هشدار اولیه عدم تجربه با زبان های برنامه نویسی استاندارد صنعتی و کتابخانه ها است.

اما در مورد افرادی که سیستم هایی را ایجاد می کنند که به نظر می رسد کار می کنند چه؟ چگونه متوجه می شوید که چیزی مشکوک در حال وقوع است؟ همین قانون صدق می کند! شارلاتان یک شخصیت شوم است که به شما نشان می‌دهد که این مدل چقدر خوب کار کرده است... بر روی همان داده‌هایی که برای ایجاد مدل استفاده کرده‌اند.

اگر یک سیستم یادگیری ماشینی بسیار پیچیده ساخته اید، چگونه می دانید چقدر خوب است؟ تا زمانی که به او نشان ندهید که با داده های جدیدی کار می کند که قبلاً ندیده است، متوجه نخواهید شد.

وقتی داده ها را قبل از پیش بینی دیدید - بعید است قبلگفتن

وقتی داده های کافی برای جداسازی دارید، نیازی به ذکر زیبایی فرمول های خود برای توجیه پروژه ندارید (یک عادت مد قدیمی که من همه جا می بینم، نه فقط در علم). می توانی بگویی: «می‌دانم که کار می‌کند، زیرا می‌توانم مجموعه داده‌ای را که قبلاً ندیده‌ام انتخاب کنم و دقیقاً پیش‌بینی کنم که در آنجا چه اتفاقی می‌افتد... و درست می‌گویم. دوباره و دوباره".

آزمایش مدل/نظریه خود در برابر داده های جدید بهترین مبنای برای اطمینان است.

من شارلاتان های داده را تحمل نمی کنم. برایم مهم نیست که نظر شما بر اساس ترفندهای مختلف باشد. من تحت تاثیر زیبایی توضیحات قرار نمی گیرم. به من نشان دهید که نظریه/مدل شما بر روی یک دسته کامل از داده‌های جدید که قبلاً هرگز ندیده‌اید، کار می‌کند (و به کار خود ادامه می‌دهد). این آزمون واقعی قدرت نظر شماست.

تماس با کارشناسان علوم داده

اگر می‌خواهید توسط همه کسانی که این طنز را می‌فهمند جدی بگیرند، از پنهان شدن در پشت معادلات تخیلی برای حمایت از تعصبات شخصی خودداری کنید. به من نشان بده چه داری اگر می‌خواهید کسانی که «آن را دریافت می‌کنند» نظریه/مدل شما را چیزی فراتر از شعر الهام‌بخش ببینند، شهامت داشته باشید که نمایشی بزرگ از نحوه عملکرد آن بر روی مجموعه‌ای کاملاً جدید از داده‌ها را در مقابل شاهدان به نمایش بگذارید. !

توسل به رهبران

از جدی گرفتن هرگونه "ایده" در مورد داده ها تا زمانی که آنها آزمایش نشده اند خودداری کنید جدید داده ها. آیا نمی خواهید تلاش کنید؟ به تجزیه و تحلیل ها پایبند باشید، اما به این ایده ها تکیه نکنید - آنها غیرقابل اعتماد هستند و از نظر قابلیت اطمینان آزمایش نشده اند. علاوه بر این، زمانی که یک سازمان داده‌های فراوانی دارد، هیچ نقطه ضعفی برای بنیادی کردن جداسازی در علم و حفظ آن در سطح زیرساخت با کنترل دسترسی به داده‌های آزمایشی برای آمار وجود ندارد. این یک راه عالی برای جلوگیری از تلاش افرادی است که شما را فریب می دهند!

اگر می خواهید نمونه های بیشتری از شارلاتان ها را ببینید - اینجا یک موضوع فوق العاده در توییتر است.

نمایش نتایج: از

وقتی داده‌های بسیار کمی برای جدا کردن وجود دارد، تنها یک شارلاتان سعی می‌کند با کشف گذشته‌نگر آمریکا، از نظر ریاضی پدیده‌هایی را که قبلاً در داده‌ها وجود دارند، دوباره کشف کند و شگفتی را از نظر آماری معنی‌دار نامید. این آن‌ها را از تحلیل‌گر آزاد فکری که با الهام‌گیری سروکار دارد و آماردان دقیقی که هنگام پیش‌بینی شواهد ارائه می‌کند متمایز می‌کند.

وقتی داده های زیادی وجود دارد، عادت کنید که داده ها را از هم جدا کنید تا بتوانید بهترین های هر دو دنیا را داشته باشید! مطمئن شوید که تجزیه و تحلیل و آمار را به طور جداگانه برای زیرمجموعه های جداگانه انبوه داده های اصلی انجام دهید.

  • تحلیلگران به شما الهام و ذهن باز ارائه می دهد.
  • آمار آزمایش دقیقی را به شما ارائه می دهد.
  • شارلاتان ها به شما دیدگاهی پیچیده ارائه می دهد که وانمود می کند تجزیه و تحلیل و آمار است.

شاید پس از خواندن مقاله این فکر به ذهنتان خطور کند که "آیا من یک شارلاتان هستم"؟ این خوبه. دو راه برای خلاص شدن از شر این فکر وجود دارد: اول، به گذشته نگاه کنید، ببینید چه کاری انجام داده اید، آیا کار شما با داده ها سود عملی داشته است یا خیر. و ثانیاً، شما هنوز هم می‌توانید روی مدارک خود کار کنید (که مطمئناً اضافی نخواهد بود)، به خصوص که ما به دانش‌آموزان خود مهارت‌ها و دانش‌های عملی می‌دهیم که به آنها اجازه می‌دهد به دانشمندان داده واقعی تبدیل شوند.

چگونه یک شارلاتان را از Data Science تشخیص دهیم؟

دوره های بیشتر

ادامه مطلب

منبع: www.habr.com

اضافه کردن نظر