ڈیٹا سائنس سے چارلیٹن کو کیسے پہچانا جائے؟

ڈیٹا سائنس سے چارلیٹن کو کیسے پہچانا جائے؟
آپ نے تجزیہ کاروں، مشین لرننگ اور مصنوعی ذہانت کے ماہرین کے بارے میں سنا ہو گا، لیکن کیا آپ نے ان لوگوں کے بارے میں سنا ہے جنہیں غیر منصفانہ طور پر زیادہ معاوضہ دیا جاتا ہے؟ ملنا ڈیٹا چارلیٹن! منافع بخش ملازمتوں کے لالچ میں یہ ہیکس حقیقی ڈیٹا سائنسدانوں کو برا نام دیتے ہیں۔ مواد میں ہم سمجھتے ہیں کہ ایسے لوگوں کو صاف پانی تک کیسے لایا جائے۔

ڈیٹا چارلیٹنس ہر جگہ موجود ہیں۔

ڈیٹا چارلیٹنز سادہ نظروں میں چھپنے میں اتنے اچھے ہیں کہ آپ کر سکتے ہیں۔ ان میں سے ایک ہواس کا احساس کیے بغیر بھی. امکانات ہیں، آپ کی تنظیم برسوں سے ان ڈرپوک لڑکوں کو پناہ دے رہی ہے، لیکن اچھی خبر یہ ہے کہ ان کی شناخت کرنا آسان ہے اگر آپ جانتے ہیں کہ کیا تلاش کرنا ہے۔
پہلی انتباہی علامت اس کو سمجھنے کی کمی ہے۔ تجزیات اور شماریات بہت مختلف مضامین ہیں۔. میں اس کی مزید وضاحت کروں گا۔

مختلف مضامین

شماریات دانوں کو تربیت دی جاتی ہے کہ وہ نتائج اخذ کریں کہ ان کے اعداد و شمار سے باہر کیا ہے، تجزیہ کاروں کو ڈیٹا سیٹ کے مواد کی جانچ کرنے کی تربیت دی جاتی ہے۔ دوسرے لفظوں میں، تجزیہ کار اس کے بارے میں نتیجہ اخذ کرتے ہیں کہ ان کے ڈیٹا میں کیا ہے، اور شماریات دان اس بارے میں نتیجہ اخذ کرتے ہیں کہ ڈیٹا میں کیا نہیں ہے۔ تجزیہ کار آپ کو اچھے سوالات پوچھنے میں مدد کرتے ہیں (مفروضے بناتے ہیں) اور شماریات دان آپ کو اچھے جوابات حاصل کرنے میں مدد کرتے ہیں (اپنے مفروضوں کی جانچ کریں)۔

عجیب ہائبرڈ کردار بھی ہیں جہاں ایک شخص دو کرسیوں پر بیٹھنے کی کوشش کرتا ہے... کیوں نہیں؟ ڈیٹا سائنس کا بنیادی اصول: اگر آپ غیر یقینی صورتحال سے نمٹ رہے ہیں، تو آپ استعمال نہیں کر سکتے ایسا ہی مفروضے اور جانچ کے لیے ڈیٹا پوائنٹ۔ جب ڈیٹا محدود ہوتا ہے، غیر یقینی صورتحال اعداد و شمار یا تجزیات کے درمیان انتخاب کرنے پر مجبور کرتی ہے۔ وضاحت یہاں.

اعداد و شمار کے بغیر، آپ پھنس جائیں گے اور یہ سمجھنے سے قاصر ہوں گے کہ آپ نے جو فیصلہ ابھی وضع کیا ہے وہ برقرار ہے یا نہیں، اور تجزیہ کیے بغیر، آپ آنکھ بند کر کے آگے بڑھ رہے ہیں، جس میں نامعلوم کو قابو کرنے کا بہت کم امکان ہے۔ یہ ایک مشکل انتخاب ہے۔

اس گڑبڑ سے نکلنے کا راستہ یہ ہے کہ اسے نظر انداز کر دیا جائے اور پھر اچانک سامنے آنے والی چیزوں سے حیران ہونے کا بہانہ کرے۔ شماریاتی مفروضوں کو جانچنے کے پیچھے کی منطق اس سوال پر اترتی ہے کہ آیا ڈیٹا ہمیں اتنا حیران کر دیتا ہے کہ ہم اپنے ذہن کو بدل سکتے ہیں۔ اگر ہم پہلے ہی اسے دیکھ چکے ہیں تو ہم ڈیٹا سے کیسے حیران ہوسکتے ہیں؟

جب بھی شہنشاہوں کو کوئی نمونہ ملتا ہے، وہ متاثر ہوتے ہیں، پھر چیک کریں۔ ایک ہی ڈیٹا لیے ایک ہی پیٹرن, ان کے نظریہ کے آگے ایک یا دو جائز p-value کے ساتھ نتیجہ شائع کرنا۔ اس طرح، وہ آپ سے جھوٹ بول رہے ہیں (اور، شاید، خود بھی)۔ اگر آپ اپنے مفروضے پر قائم نہیں رہتے ہیں تو اس پی ویلیو سے کوئی فرق نہیں پڑتا پر آپ نے اپنا ڈیٹا کیسے دیکھا۔ چارلیٹنز وجوہات کو سمجھے بغیر تجزیہ کاروں اور شماریات دانوں کے اعمال کی نقل کرتے ہیں۔ نتیجے کے طور پر، ڈیٹا سائنس کے پورے شعبے کو بری شہرت ملتی ہے۔

حقیقی شماریات دان ہمیشہ اپنے نتائج اخذ کرتے ہیں۔

شماریات دانوں کی ان کے سخت استدلال کے لیے تقریباً صوفیانہ شہرت کی بدولت، ڈیٹا سائنس میں جعلی معلومات کی مقدار اب تک کی بلند ترین سطح پر ہے۔ دھوکہ دینا اور پکڑا نہیں جانا آسان ہے، خاص طور پر اگر غیر مشتبہ شکار سوچتا ہے کہ یہ سب مساوات اور ڈیٹا کے بارے میں ہے۔ ایک ڈیٹاسیٹ ایک ڈیٹاسیٹ ہے، ٹھیک ہے؟ نہیں. اس سے فرق پڑتا ہے کہ آپ اسے کیسے استعمال کرتے ہیں۔

خوش قسمتی سے، آپ کو چارلیٹنز کو پکڑنے کے لیے صرف ایک اشارے کی ضرورت ہے: وہ "امریکہ کو سابقہ ​​طور پر دریافت کر رہے ہیں۔" مظاہر کو دوبارہ دریافت کرکے جو وہ پہلے ہی جانتے ہیں ڈیٹا میں موجود ہیں۔

چارلیٹن کے برعکس، اچھے تجزیہ کار کھلے ذہن کے ہوتے ہیں اور سمجھتے ہیں کہ متاثر کن خیالات کی بہت سی مختلف وضاحتیں ہو سکتی ہیں۔ ایک ہی وقت میں، اچھے شماریات دان اپنے نتائج اخذ کرنے سے پہلے احتیاط سے ان کی وضاحت کرتے ہیں۔

تجزیہ کار اس وقت تک ذمہ داری سے مستثنیٰ ہیں جب تک کہ وہ اپنے ڈیٹا کے دائرہ کار میں رہیں۔ اگر وہ کسی ایسی چیز کا دعوی کرنے کے لئے لالچ میں ہیں جو انہوں نے نہیں دیکھا، تو یہ ایک اور کام ہے۔ انہیں تجزیہ کار کے جوتے اتار کر شماریات دان کے جوتے پہننے چاہئیں۔ بہر حال، اس بات سے کوئی فرق نہیں پڑتا ہے کہ سرکاری ملازمت کا عنوان کیا ہے، ایسا کوئی اصول نہیں ہے جو یہ کہے کہ اگر آپ چاہیں تو آپ دونوں پیشوں کا مطالعہ نہیں کر سکتے۔ بس انہیں الجھاؤ نہیں۔

صرف اس لیے کہ آپ شماریات میں اچھے ہیں اس کا مطلب یہ نہیں ہے کہ آپ تجزیات میں اچھے ہیں، اور اس کے برعکس۔ اگر کوئی آپ کو دوسری صورت میں بتانے کی کوشش کرتا ہے تو آپ کو ہوشیار رہنا چاہیے۔ اگر یہ شخص آپ کو بتاتا ہے کہ اعداد و شمار کے اعداد و شمار سے نتائج اخذ کرنا جائز ہے جس کا آپ پہلے ہی مطالعہ کر چکے ہیں، تو یہ دوگنا ہوشیار رہنے کی ایک وجہ ہے۔

عجیب و غریب وضاحتیں۔

جنگل میں ڈیٹا چارلیٹنز کا مشاہدہ کرتے وقت، آپ دیکھیں گے کہ وہ اپنے مشاہدہ کردہ ڈیٹا کی "وضاحت" کرنے کے لیے لاجواب کہانیاں بنانا پسند کرتے ہیں۔ جتنا زیادہ علمی، اتنا ہی بہتر۔ اس سے کوئی فرق نہیں پڑتا ہے کہ ان کہانیوں کو پیچھے کی نظر میں ایڈجسٹ کیا گیا ہے۔

جب شارحین ایسا کرتے ہیں - مجھے واضح کرنے دو - وہ جھوٹ بول رہے ہیں۔ مساوات یا فینسی تصورات کی کوئی مقدار اس حقیقت کو پورا نہیں کر سکتی کہ انہوں نے اپنے نظریات کا صفر ثبوت پیش کیا۔ ان کی وضاحتیں کتنی غیر معمولی ہیں اس سے حیران نہ ہوں۔

یہ ایسا ہی ہے جیسے پہلے اپنے ہاتھوں میں موجود کارڈز کو دیکھ کر اور پھر یہ اندازہ لگانا کہ آپ کیا پکڑے ہوئے ہیں... آپ کیا پکڑے ہوئے ہیں اپنی "نفسیاتی" صلاحیتوں کا مظاہرہ کریں۔ یہ پسماندگی کا تعصب ہے، اور ڈیٹا سائنس کا پیشہ اس سے بھرا ہوا ہے۔

ڈیٹا سائنس سے چارلیٹن کو کیسے پہچانا جائے؟

تجزیہ کار کہتے ہیں: "آپ ابھی ہیروں کی ملکہ کے ساتھ گئے تھے۔" شماریات دان کہتے ہیں، "میں نے شروع کرنے سے پہلے اپنے مفروضے کاغذ کے اس ٹکڑے پر لکھے تھے۔ آئیے ارد گرد کھیلیں اور کچھ ڈیٹا دیکھیں اور دیکھیں کہ کیا میں صحیح ہوں۔" چارلیٹنس کہتے ہیں: "میں جانتا تھا کہ آپ ہیروں کی یہ ملکہ بننے والی ہیں کیونکہ..."

ڈیٹا کا اشتراک ایک فوری حل ہے جس کی ہر کسی کو ضرورت ہے۔

جب زیادہ ڈیٹا نہ ہو تو آپ کو اعداد و شمار اور تجزیات میں سے کسی ایک کا انتخاب کرنا ہوگا، لیکن جب کافی سے زیادہ ڈیٹا موجود ہو، تو دھوکے کے بغیر تجزیات کو استعمال کرنے کا بہترین موقع ہوتا ہے۔ и اعداد و شمار آپ کے پاس چارلیٹنز کے خلاف کامل دفاع ہے - ڈیٹا کی علیحدگی اور، میری رائے میں، یہ ڈیٹا سائنس میں سب سے طاقتور خیال ہے۔

اپنے آپ کو چارلیٹنز سے بچانے کے لیے، آپ کو بس یہ یقینی بنانا ہوگا کہ آپ ٹیسٹ کے کچھ ڈیٹا کو ان کی نظروں کی پہنچ سے دور رکھیں، اور پھر باقی کو تجزیات کے طور پر سمجھیں۔ جب آپ کو کوئی ایسا نظریہ نظر آتا ہے جسے قبول کرنے کا آپ کو خطرہ ہے، تو اسے صورتحال کا جائزہ لینے کے لیے استعمال کریں، اور پھر اپنے خفیہ ٹیسٹ کے ڈیٹا کو ظاہر کریں تاکہ یہ معلوم ہو سکے کہ نظریہ بکواس نہیں ہے۔ یہ بہت آسان ہے!

ڈیٹا سائنس سے چارلیٹن کو کیسے پہچانا جائے؟
اس بات کو یقینی بنائیں کہ ریسرچ کے مرحلے کے دوران کسی کو بھی ٹیسٹ ڈیٹا دیکھنے کی اجازت نہ ہو۔ ایسا کرنے کے لیے، تحقیقی ڈیٹا پر قائم رہیں۔ ٹیسٹ ڈیٹا کو تجزیہ کے لیے استعمال نہیں کیا جانا چاہیے۔

"چھوٹے ڈیٹا" کے زمانے میں لوگوں کی عادت سے یہ ایک بڑا قدم ہے، جہاں آپ کو یہ بتانا ہوگا کہ آپ جو کچھ جانتے ہیں وہ کیسے جانتے ہیں تاکہ آخر کار لوگوں کو یہ باور کرایا جا سکے کہ آپ واقعی کچھ جانتے ہیں۔

ML/AI پر بھی وہی اصول لاگو کریں۔

ML/AI ماہرین کے طور پر ظاہر کرنے والے کچھ چارلیٹن کو بھی تلاش کرنا آسان ہے۔ آپ انہیں اسی طرح پکڑیں ​​گے جس طرح آپ کسی دوسرے برے انجینئر کو پکڑتے ہیں: وہ "حل" جو بنانے کی کوشش کرتے ہیں وہ مسلسل ناکام ہو جاتے ہیں۔ ایک ابتدائی انتباہی علامت صنعت کی معیاری پروگرامنگ زبانوں اور لائبریریوں کے ساتھ تجربے کی کمی ہے۔

لیکن ان لوگوں کا کیا ہوگا جو ایسا نظام بناتے ہیں جو کام کرتے نظر آتے ہیں؟ آپ کو کیسے پتہ چلے گا کہ کچھ مشکوک ہو رہا ہے؟ ایک ہی اصول لاگو ہوتا ہے! شارلاٹن ایک خوفناک کردار ہے جو آپ کو دکھاتا ہے کہ ماڈل نے کتنا اچھا کام کیا...اسی ڈیٹا پر جس کا استعمال وہ ماڈل بنانے کے لیے کرتے تھے۔

اگر آپ نے ایک انتہائی پیچیدہ مشین لرننگ سسٹم بنایا ہے، تو آپ کو کیسے معلوم ہوگا کہ یہ کتنا اچھا ہے؟ آپ اس وقت تک نہیں جان پائیں گے جب تک کہ آپ اسے نئے ڈیٹا کے ساتھ کام نہیں کرتے دکھائیں گے جو اس نے پہلے نہیں دیکھا ہوگا۔

جب آپ نے پیشن گوئی کرنے سے پہلے ڈیٹا دیکھا - اس کا امکان نہیں ہے۔ پہلےکہہ

جب آپ کے پاس الگ کرنے کے لیے کافی ڈیٹا ہوتا ہے، تو آپ کو پروجیکٹ کو درست ثابت کرنے کے لیے اپنے فارمولوں کی خوبصورتی کا حوالہ دینے کی ضرورت نہیں ہوتی ہے (ایک پرانی عادت جو میں ہر جگہ دیکھتا ہوں، نہ صرف سائنس میں)۔ آپ کہہ سکتے ہیں: "میں جانتا ہوں کہ یہ کام کرتا ہے کیونکہ میں ایک ڈیٹا سیٹ لے سکتا ہوں جو میں نے پہلے نہیں دیکھا تھا اور اس کی پیش گوئی کر سکتا ہوں کہ وہاں کیا ہو گا... اور میں صحیح ہوں گا۔ بار بار".

نئے ڈیٹا کے خلاف اپنے ماڈل/تھیوری کی جانچ اعتماد کی بہترین بنیاد ہے۔

میں ڈیٹا چارلیٹنز کو برداشت نہیں کرتا ہوں۔ مجھے اس سے کوئی فرق نہیں پڑتا کہ آپ کی رائے مختلف چالوں پر مبنی ہے۔ میں وضاحتوں کی خوبصورتی سے متاثر نہیں ہوں۔ مجھے دکھائیں کہ آپ کا نظریہ/ماڈل نئے ڈیٹا کے پورے گروپ پر کام کرتا ہے (اور کام کرتا رہتا ہے) جو آپ نے پہلے کبھی نہیں دیکھا ہوگا۔ یہ آپ کی رائے کی مضبوطی کا اصل امتحان ہے۔

ڈیٹا سائنس کے ماہرین سے رابطہ کرنا

اگر آپ چاہتے ہیں کہ اس مزاح کو سمجھنے والے ہر شخص کو سنجیدگی سے لیا جائے، تو ذاتی تعصبات کی حمایت کرنے کے لیے فینسی مساوات کے پیچھے چھپنا بند کریں۔ مجھے دکھائیں کہ آپ کے پاس کیا ہے۔ اگر آپ چاہتے ہیں کہ وہ لوگ جو آپ کے نظریہ/ماڈل کو صرف متاثر کن شاعری کے طور پر دیکھیں، تو آپ گواہوں کے سامنے یہ بتانے کا حوصلہ رکھیں کہ یہ ڈیٹا کے بالکل نئے سیٹ پر کتنا اچھا کام کرتا ہے۔ !

قائدین سے اپیل

اعداد و شمار کے بارے میں کسی بھی "خیالات" کو سنجیدگی سے لینے سے انکار کریں جب تک کہ ان کا تجربہ نہ کیا جائے۔ хых ڈیٹا کوشش میں ڈالنے کی طرح محسوس نہیں کرتے؟ تجزیات کے ساتھ قائم رہیں، لیکن ان خیالات پر بھروسہ نہ کریں - یہ ناقابل اعتبار ہیں اور قابل اعتماد ہونے کی جانچ نہیں کی گئی ہے۔ مزید برآں، جب کسی تنظیم کے پاس ڈیٹا وافر مقدار میں ہوتا ہے، تو سائنس میں علیحدگی کو بنیادی بنانے اور اعداد و شمار کے لیے ٹیسٹ ڈیٹا تک رسائی کو کنٹرول کرکے بنیادی ڈھانچے کی سطح پر اسے برقرار رکھنے کا کوئی منفی پہلو نہیں ہے۔ آپ کو بے وقوف بنانے کی کوشش کرنے والے لوگوں کو روکنے کا یہ ایک بہترین طریقہ ہے!

اگر آپ چارلیٹنز کی مزید مثالیں دیکھنا چاہتے ہیں تو کوئی اچھا نہیں ہے - یہاں ٹویٹر پر ایک شاندار تھریڈ ہے۔.

کے نتائج

جب الگ کرنے کے لیے بہت کم ڈیٹا ہوتا ہے، تو صرف ایک شہنشاہ ماضی سے امریکہ کو دریافت کرکے، اعداد و شمار میں پہلے سے موجود مظاہر کو ریاضیاتی طور پر دوبارہ دریافت کرکے، اور حیرت کو اعداد و شمار کے لحاظ سے اہم قرار دے کر الہام کی سختی سے پیروی کرنے کی کوشش کرتا ہے۔ یہ انہیں کھلے ذہن کے تجزیہ کار سے ممتاز کرتا ہے، جو الہام کے ساتھ کام کرتا ہے، اور محتاط شماریات دان، جو پیشین گوئی کرتے وقت ثبوت پیش کرتا ہے۔

جب بہت زیادہ ڈیٹا ہو تو ڈیٹا کو الگ کرنے کی عادت ڈالیں تاکہ آپ دونوں جہانوں کا بہترین فائدہ اٹھا سکیں! ڈیٹا کے اصل ڈھیر کے انفرادی ذیلی سیٹوں کے لیے الگ الگ تجزیات اور اعدادوشمار کرنا یقینی بنائیں۔

  • تجزیہ کاروں کا آپ کو حوصلہ افزائی اور کھلے ذہن کی پیشکش کرتے ہیں.
  • شماریات آپ کو سخت جانچ پیش کرتے ہیں۔
  • چارلیٹنس آپ کو ایک گھماؤ پھراؤ پیش کرتا ہے جو تجزیات کے علاوہ اعدادوشمار کا بہانہ کرتا ہے۔

شاید، مضمون کو پڑھنے کے بعد، آپ کو یہ خیال آئے گا کہ "کیا میں ایک شہنشاہ ہوں"؟ یہ ٹھیک ہے. اس سوچ سے جان چھڑانے کے دو طریقے ہیں: پہلا، پیچھے مڑ کر دیکھیں، دیکھیں کہ آپ نے کیا کیا ہے، کیا ڈیٹا کے ساتھ آپ کے کام سے عملی فائدہ ہوا ہے۔ اور دوسری بات، آپ اب بھی اپنی قابلیت پر کام کر سکتے ہیں (جو یقینی طور پر ضرورت سے زیادہ نہیں ہوگی)، خاص طور پر چونکہ ہم اپنے طلباء کو عملی مہارت اور علم دیتے ہیں جو انہیں حقیقی ڈیٹا سائنسدان بننے کی اجازت دیتے ہیں۔

ڈیٹا سائنس سے چارلیٹن کو کیسے پہچانا جائے؟

مزید کورسز

مزید پڑھ

ماخذ: www.habr.com

نیا تبصرہ شامل کریں